Skip to content

語音提問

語音提問功能允許你透過文字或語音向 AI 提問,AI 會實時分析你的問題並給出專業的答案建議。這個功能適用於快速查詢技術問題、面試題目答案,或者進行簡單的 AI 對話。

1. 前置準備

在啟動臺搜尋 CueMate 應用圖示,單擊左鍵開啟應用程式。

開啟應用

啟動 CueMate 桌面應用後,可以看到懸浮在螢幕正上方的控制視窗。控制視窗從左到右的按鈕功能依次為:

  • "訪問 CueMate 網站"圖示:點選開啟 CueMate 官方網站
  • "語音識別"按鈕:點選啟動語音識別功能,開啟語音功能視窗
  • "提問 AI"按鈕:點選開啟 AI 提問視窗,快速向 AI 提問,獲取答案
  • "互動模式"圖示:切換視窗的點選穿透模式(互動模式可正常操作視窗,穿透模式點選會穿透到下層應用)
  • "主應用視窗"圖示:點選開啟主應用視窗,進入後臺管理介面
  • "顯示/隱藏"圖示:點選隱藏或顯示控制欄以及其他所有視窗

開啟應用

2. 開啟 AI 提問視窗

2.1 方式一:透過控制欄直接開啟

點選懸浮控制欄上的"提問 AI"按鈕,直接開啟 AI 提問視窗。

點選提問 AI 按鈕

效果

  • 開啟中間的"AI 提問"視窗
  • 同時會自動開啟右側的"AI 提問記錄"視窗
  • 預設顯示"文字提問"模式

2.2 方式二:透過語音識別視窗開啟

如果你想同時使用語音識別視窗的功能,可以透過以下步驟開啟:

  1. 點選懸浮控制欄上的"語音識別"按鈕
  2. 在彈出的語音識別視窗中,點選"語音提問"卡片

語音識別視窗

效果

  • 同時展示三個視窗:
    • 左側:語音識別視窗
    • 中間:AI 提問視窗
    • 右側:AI 提問記錄視窗

語音提問視窗

說明

  • 左側語音識別視窗和中間 AI 提問視窗都可以進行語音輸入
  • 兩個視窗的"按住說話"按鈕功能是同步的,點選任意一個都可以進行語音輸入

3. 文字提問流程

3.1 輸入問題

在 AI 提問視窗的底部輸入框中輸入你的問題。

文字輸入區域

提問技巧

  • 問題表述清晰、完整
  • 可以包含程式碼片段、技術術語
  • 支援中英文混合輸入

示例問題

  • "什麼是 React Hooks?請舉例說明"
  • "如何最佳化 SQL 查詢效能?"
  • "請解釋一下 TCP 三次握手的過程"
  • "Python 中的裝飾器是什麼?有什麼應用場景?"

3.2 傳送問題

輸入完成後,按 Enter 鍵或點選"提交"按鈕提交問題。

說明

  • AI 會立即開始分析你的問題
  • 右側視窗會顯示提問記錄
  • 答案會實時流式返回

3.3 檢視 AI 回答

AI 會在中間的"AI 對話記錄"視窗中,實時流式返回答案。

檢視 AI 回答

答案特點

  • 實時流式輸出,邊生成邊顯示
  • 答案專業、準確,基於所選大模型
  • 支援技術問題、面試題目、知識查詢等
  • 支援 Markdown 格式顯示

3.4 檢視歷史記錄

所有的提問和回答都會儲存在右側的"AI 對話記錄"視窗中。

功能說明

  • 可以檢視所有歷史對話
  • 支援複製答案內容
  • 支援刪除不需要的記錄
  • 記錄會持久化儲存

檢視歷史記錄

3.5 AI 提問其他操作

在對話視窗中,提供了以下快捷操作按鈕:

其他操作

對話區域懸浮按鈕(視窗底部中央):

  1. 告訴我關於該問題的更多內容:自動生成"告訴我更多關於 [你的上一個問題] 的資訊"並提交
  2. 新建提問:停止當前對話,清空聊天框,開始新的提問
  3. 複製所有對話內容:複製當前聊天框中所有使用者和 AI 的對話內容

輸入區域快捷按鈕(視窗底部右側):

  1. 清空當前聊天框:清空所有對話內容,開始新的提問
  2. 複製最近一次 AI 回答:快速複製最後一次 AI 的回答內容
  3. 提交:提交當前輸入的問題

4. 語音提問流程

4.1 開始語音輸入

方式一:使用中間視窗的按鈕

  • 點選中間視窗底部的"按住說話"按鈕

方式二:使用左側視窗的按鈕

  • 點選左側語音識別視窗的"按住說話"按鈕

按住說話

按鈕狀態說明

  • 點選後按鈕會變為"停止說話"狀態
  • 系統會立即開始錄音並實時識別
  • 識別的文字會實時顯示在輸入框中
  • 視窗標題欄會顯示麥克風裝置和"說話中"狀態指示器

4.2 說出你的問題

對著麥克風清晰地說出你的問題。

提問技巧

  • 說話清晰,語速適中
  • 避免環境噪音干擾
  • 建議使用中文提問(也支援英文)
  • 問題儘量完整、具體

示例問題

  • "什麼是 React Hooks?"
  • "如何最佳化 SQL 查詢效能?"
  • "請解釋一下 TCP 三次握手的過程"
  • "Python 中的裝飾器是什麼?"

4.3 停止語音輸入

說完問題後,再次點選"停止說話"按鈕,結束語音輸入。

說明

  • 系統會立即停止錄音
  • 識別的完整文字會顯示在輸入框中
  • 你可以繼續編輯識別的文字,或直接提交
  • 使用 Enter 鍵或"提交"按鈕提交問題

4.4 檢視 AI 回答

AI 會在中間的"AI 對話記錄"視窗中,實時流式返回答案。

答案特點

  • 與文字提問的回答方式相同
  • 實時流式輸出
  • 支援 Markdown 格式
  • 自動儲存到歷史記錄

5. 功能說明

5.1 工作原理

文字提問流程

  1. 輸入問題:在輸入框中輸入文字
  2. 問題分析:AI 大模型分析你的問題
  3. 生成答案:AI 生成專業答案並流式返回
  4. 答案展示:視窗實時顯示答案
  5. 記錄儲存:自動儲存到 AI 對話記錄

語音提問流程

  1. 語音採集:麥克風採集你的語音
  2. 語音識別:cuemate-asr 實時將語音轉為文字
  3. 文字編輯:可以編輯識別的文字(可選)
  4. 問題分析:AI 大模型分析你的問題
  5. 生成答案:AI 生成專業答案並流式返回
  6. 答案展示:視窗實時顯示答案
  7. 記錄儲存:自動儲存到 AI 對話記錄

5.2 視窗布局說明

方式一佈局(透過"提問 AI"按鈕開啟):

  • 中間視窗:AI 提問視窗(文字輸入 + 語音輸入)
  • 右側視窗:AI 對話記錄視窗

方式二佈局(透過"語音識別"視窗開啟):

  • 左側視窗:語音識別視窗(可進行語音輸入)
  • 中間視窗:AI 提問視窗(文字輸入 + 語音輸入)
  • 右側視窗:AI 對話記錄視窗

按鈕同步說明

  • 左側視窗的"按住說話"按鈕
  • 中間視窗的"按住說話"按鈕
  • 兩個按鈕功能完全同步,點選任意一個都可以

5.3 使用場景

語音提問適用於以下場景:

  • 快速查詢:查詢技術概念、API 用法、最佳實踐
  • 面試準備:詢問常見面試題的答案
  • 知識學習:學習新技術、新概念
  • 問題解決:解決程式設計中遇到的問題
  • 程式碼理解:詢問程式碼片段的含義和原理

5.4 與其他功能的區別

功能適用場景特點
語音提問快速查詢、單次提問簡單、快速、即問即答
模擬面試完整面試流程訓練AI 主動提問,多輪對話,帶評估
面試訓練實際面試訓練識別面試官問題,提供答案建議

6. 注意事項

6.1 前置配置

使用語音提問前,需要完成以下配置:

必需配置

  1. 語音設定 - 配置麥克風裝置,測試語音識別
  2. 模型設定 - 配置大語言模型,用於生成答案

可選配置: 3. 系統設定 - 設定系統語言、預設模型

6.2 服務依賴

語音提問功能依賴以下服務:

  • cuemate-asr 服務:語音識別(埠 10095)
  • cuemate-llm-router 服務:大模型路由(埠 3002)
  • cuemate-web-api 服務:資料管理(埠 3001)

6.3 許可權要求

  • 麥克風許可權:用於語音採集(首次使用會彈窗請求)

6.4 效能最佳化

語音識別

  • 識別延遲約 1-2 秒
  • 建議在安靜環境下使用
  • 麥克風距離保持 10-30cm

AI 答案生成

  • 延遲取決於所選模型
    • GPT-4:較慢但質量高
    • GPT-3.5-turbo:快速且質量不錯(推薦)
    • 國產模型:速度快,中文效果好

7. 常見問題

7.1 語音識別不準確

問題:語音識別的文字不準確

解決方案

  1. 檢查麥克風距離(建議 10-30cm)
  2. 說話清晰,語速適中
  3. 避免環境噪音
  4. 先進行語音測試確認裝置正常

7.2 無法開始語音輸入

問題:點選"按住說話"沒有反應

解決方案

  1. 檢查麥克風許可權是否授予
  2. 檢查 cuemate-asr 服務是否正常執行
  3. 檢視容器監控確認服務狀態
  4. 檢視日誌管理中的錯誤資訊

7.3 AI 回答延遲

問題:AI 回答速度很慢

解決方案

  1. 更換響應更快的模型(如 GPT-5)
  2. 檢查網路連線
  3. 檢視模型設定中的模型配置
  4. 嘗試使用國產模型(如智譜 AI、Kimi)

7.4 歷史記錄丟失

問題:之前的對話記錄找不到了

解決方案

  1. 檢查是否誤刪了記錄
  2. 檢視AI 對話記錄頁面
  3. 所有記錄都儲存在資料庫中,不會自動刪除

相關頁面

Released under the GPL-3.0 License.