feat: ASR语音转写管线 + 群聊身份混淆修复

- 新增ASR语音识别管线: QQ语音→下载音频→qwen3-asr-flash转录→注入用户消息 - 模型名称全部从models.json路由获取，无硬编码 - 修复群聊中AI将非管理员用户误称为管理员昵称(叶酱)的问题 - 助手回复缓存时标注[回复昵称 (UID)]，防止对话历史中身份混淆 - 群聊上下文指令改为肯定性表述，移除具体名称提及 - trace面板时间戳改为YYYY-MM-DD HH:MM:SS格式，耗时统一显示为秒 - 修复Go time.Duration纳秒值在前端显示问题(Duration/1e6转毫秒) - 新增video_tool插件模板 - 优化OpenAI adapter reasoning_content处理 Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-31 16:46:47 +08:00
parent d112fdd540
commit a9c79d7887
16 changed files with 780 additions and 67 deletions
@@ -274,7 +274,7 @@ func (p *OpenAIProvider) doChat(ctx context.Context, messages []model.LLMMessage
 		resolvedImages := p.resolveImages(msg.Images)
 		oaiMsg := openAIMessage{
 			Role:             string(msg.Role),
-			Content:          buildContent(msg.Content, resolvedImages),
+			Content:          buildContent(msg.Content, resolvedImages, msg.VideoURLs),
 			Name:             msg.Name,
 			ToolCallID:       msg.ToolCallID,
 			ReasoningContent: msg.ReasoningContent,
@@ -382,7 +382,7 @@ func (p *OpenAIProvider) doChatStream(ctx context.Context, messages []model.LLMM
 		resolvedImages := p.resolveImages(msg.Images)
 		oaiMsg := openAIMessage{
 			Role:             string(msg.Role),
-			Content:          buildContent(msg.Content, resolvedImages),
+			Content:          buildContent(msg.Content, resolvedImages, msg.VideoURLs),
 			Name:             msg.Name,
 			ToolCallID:       msg.ToolCallID,
 			ReasoningContent: msg.ReasoningContent,
@@ -521,23 +521,27 @@ func (p *OpenAIProvider) downloadAsDataURL(url string) (string, error) {

 // buildContent converts text + optional images to API content format.
 // Returns a plain string if no images, or a multimodal array otherwise.
-func buildContent(text string, images []string) interface{} {
-	if len(images) == 0 {
+func buildContent(text string, images []string, videoURLs []string) interface{} {
+	if len(images) == 0 && len(videoURLs) == 0 {
 		return text
 	}
-	parts := make([]model.ImageContent, 0, len(images)+1)
+	parts := make([]interface{}, 0, len(images)+len(videoURLs)+1)
 	if text != "" {
-		parts = append(parts, model.ImageContent{
-			Type: "text",
-			Text: text,
+		parts = append(parts, map[string]interface{}{
+			"type": "text",
+			"text": text,
 		})
 	}
 	for _, img := range images {
-		parts = append(parts, model.ImageContent{
-			Type: "image_url",
-			ImageURL: &model.ImageURL{
-				URL: img,
-			},
+		parts = append(parts, map[string]interface{}{
+			"type": "image_url",
+			"image_url": map[string]string{"url": img},
+		})
+	}
+	for _, video := range videoURLs {
+		parts = append(parts, map[string]interface{}{
+			"type": "video_url",
+			"video_url": map[string]string{"url": video},
 		})
 	}
 	return parts