Skip to content

語音識別設定

語音識別設定頁面用於配置 FunASR 語音識別服務、AudioTee 系統音訊捕獲、Piper TTS 語音合成、音訊裝置和測試引數。所有設定統一儲存到伺服器,並自動同步到桌面客戶端。

:預設所有配置都有預設值,除了本地的麥克風和揚聲器需要額外配置。

1. 進入語音識別設定

點選頂部下拉選單選單中的"語音設定",進入設定頁面。

頂部下拉選單選單

頁面包含五個配置標籤頁:

  • 裝置配置:麥克風和揚聲器設定
  • FunASR 配置:語音識別服務引數
  • AudioTee 配置:系統音訊捕獲配置
  • Piper TTS 配置:語音合成引數
  • 測試配置:測試引數設定

進入語音識別設定

2. 裝置配置

NOTE

裝置配置需要桌面客戶端正常執行。Web 端會自動從桌面客戶端獲取裝置列表,請確保桌面應用已啟動。

2.1 麥克風設定

在"裝置配置"標籤頁,配置麥克風音訊輸入裝置。

麥克風配置

TIP

推薦裝置選擇

  • 首選:電腦內建麥克風(簡單方便)
  • 環境嘈雜時:頭戴式耳機麥克風(降噪效果好)
  • 追求高質量:專業 USB 麥克風(識別準確率高)

麥克風音源

  • 下拉框顯示系統中所有可用的麥克風裝置
  • 桌面客戶端會自動檢測並上報裝置列表到 Web 端
  • 選擇要使用的麥克風裝置
  • 首選電腦本身的內建麥克風(如 MacBook 內建麥克風)
  • 也支援外接麥克風(如 USB 麥克風、頭戴式耳機麥克風)
  • 裝置格式示例:內建麥克風、USB 麥克風

麥克風裝置名稱

  • 自動顯示選中麥克風的完整名稱
  • 只讀欄位,不可手動編輯
  • 用於確認選擇的裝置是否正確

使用場景

麥克風是模擬面試和麵試訓練的核心輸入裝置,主要用於:

  1. 使用者語音輸入

    • 使用者在模擬面試中回答問題時,麥克風捕獲您的語音
    • 語音透過 FunASR 服務實時轉換為文字
    • 文字內容傳送給 LLM 生成智慧答案和建議
    • 整個過程實現了"說話 → 識別 → AI 回答"的閉環
  2. 面試訓練場景

    • 練習口語表達時,麥克風記錄您的回答
    • 系統識別您的語音內容,分析回答質量
    • 根據識別結果提供針對性反饋

裝置選擇建議

  • 優先使用電腦內建麥克風,簡單方便,無需額外裝置
  • 環境嘈雜時可選擇頭戴式耳機麥克風,減少背景噪音
  • 追求更高識別準確率可使用專業 USB 麥克風

2.2 揚聲器設定

在"裝置配置"標籤頁,配置揚聲器音訊輸出裝置。

揚聲器配置

揚聲器音源

  • 下拉框顯示系統中所有可用的揚聲器裝置
  • 桌面客戶端會自動檢測並上報裝置列表
  • 選擇要使用的揚聲器裝置
  • 首選電腦本身的內建揚聲器(如 MacBook 內建揚聲器)
  • 也支援外接音訊裝置(如 USB 音箱、藍芽耳機、有線耳機)
  • 裝置格式示例:內建揚聲器、USB 音箱、藍芽耳機

揚聲器裝置名稱

  • 自動顯示選中揚聲器的完整名稱
  • 只讀欄位,不可手動編輯
  • 用於確認選擇的裝置是否正確

使用場景

揚聲器在模擬面試和麵試訓練中承擔兩個關鍵作用:

  1. 播放 AI 生成的答案語音(Piper TTS)

    • 當您說話後,AI 會生成智慧答案和建議
    • Piper TTS 將文字答案轉換為自然流暢的語音
    • 透過揚聲器播放出來,您可以聽到 AI 的回答
    • 這樣無需盯著螢幕看文字,解放雙眼,專注思考
  2. 捕獲面試官的語音(AudioTee 系統音訊捕獲)

    • 這是揚聲器最重要的功能
    • 當您使用騰訊會議、Zoom 等軟體進行模擬面試訓練時
    • 模擬面試官的聲音會從揚聲器播放出來
    • AudioTee 捕獲揚聲器播放的系統音訊流
    • 捕獲的音訊透過 FunASR 識別成文字
    • AI 分析問題,實時生成答案提示
    • 實現了"語音播放 → 揚聲器輸出 → AudioTee 捕獲 → FunASR 識別 → AI 生成答案"的完整流程

技術原理說明

為什麼揚聲器對捕獲面試官語音至關重要:

  • 面試軟體(騰訊會議、Zoom)的音訊輸出到揚聲器
  • AudioTee 作為系統級音訊捕獲工具,攔截髮送到揚聲器的音訊流
  • 即使您戴著耳機,AudioTee 也能捕獲到音訊資料
  • 這是一種非侵入式的音訊捕獲方案,不影響面試軟體正常執行

裝置選擇建議

  • 優先使用電腦內建揚聲器,系統音訊捕獲最穩定
  • 使用耳機時確保 AudioTee 能正確識別音訊裝置
  • 避免使用藍芽裝置,可能存在延遲和相容性問題
  • 面試訓練場景建議使用有線耳機,保證音質和捕獲穩定性

2.3 重新整理裝置列表

如果連線了新的音訊裝置,點選底部"重新整理"按鈕重新檢測裝置列表。

重新整理操作

  1. 點選"重新整理"按鈕
  2. 向桌面客戶端傳送裝置請求
  3. 瀏覽器重新列舉本地音訊裝置
  4. 裝置列表自動更新

使用場景

  • 插入新的 USB 麥克風或音箱後重新整理列表
  • 連線藍芽耳機後重新整理裝置
  • 裝置列表顯示異常時重新載入

3. FunASR 配置

3.1 基本配置

在"FunASR 配置"標籤頁,配置 FunASR 語音識別服務的連線引數。

:預設所有配置都有預設值,不需要修改。

FunASR 配置

配置名稱

  • 為當前配置命名
  • 預設值:ASR-Gateway
  • 便於識別和管理多個配置

FunASR 主機地址

  • FunASR 服務的主機地址
  • 預設值:localhost
  • 本地部署填寫 localhost 或 127.0.0.1
  • 遠端部署填寫伺服器 IP 地址

FunASR 埠

  • FunASR 服務的 WebSocket 埠
  • 預設值:10095
  • 取值範圍:1-65535
  • 確保埠未被其他服務佔用

識別模式

  • 線上模式(online):實時流式識別,低延遲,邊說邊轉文字
  • 離線模式(offline):錄音完成後統一識別,準確率高
  • 兩遍模式(2pass):先線上實時顯示,再離線最佳化結果

使用場景

  • 面試場景推薦使用"線上模式",實時看到答案
  • 錄音轉文字推薦使用"離線模式",準確率更高
  • 重要會議推薦使用"兩遍模式",兼顧實時性和準確性

3.2 音訊引數

取樣率(Hz)

  • 音訊取樣率,影響識別質量
  • 預設值:16000 Hz
  • 取值範圍:8000-48000 Hz
  • 推薦使用 16000 Hz,平衡質量和效能

音訊塊間隔

  • 音訊塊傳送間隔
  • 預設值:5
  • 取值範圍:1-20
  • 值越小延遲越低,但網路壓力越大

3.3 音訊塊大小配置

FunASR 使用分塊識別策略,將音訊流分為起始、中間、結束三個階段。

起始塊大小(chunk_size_start)

  • 語音開始階段的音訊塊大小
  • 預設值:5
  • 取值範圍:1-20
  • 較小的值可以快速觸發識別

中間塊大小(chunk_size_middle)

  • 語音持續階段的音訊塊大小
  • 預設值:10
  • 取值範圍:1-20
  • 較大的值提高穩定識別

結束塊大小(chunk_size_end)

  • 語音結束階段的音訊塊大小
  • 預設值:5
  • 取值範圍:1-20
  • 較小的值可以快速結束識別

調優建議

  • 起始塊和結束塊較小,快速響應
  • 中間塊較大,穩定識別長句子
  • 總體值越小越實時,但識別可能不穩定
  • 總體值越大越穩定,但延遲越高

4. AudioTee 配置

4.1 AudioTee 簡介

AudioTee 是系統音訊捕獲工具,用於捕獲面試軟體(如騰訊會議、Zoom)的音訊輸出,實現面試官語音識別。

4.2 基本配置

在"AudioTee 配置"標籤頁,配置系統音訊捕獲引數。

:預設所有配置都有預設值,不需要修改。

AudioTee 配置

AudioTee 取樣率

  • 系統音訊捕獲的取樣率
  • 預設值:16000 Hz(推薦)
  • 可選值:8000/16000/22050/24000/32000/44100/48000 Hz
  • 推薦使用 16000 Hz,與 FunASR 取樣率保持一致

音訊塊時長(秒)

  • 每個音訊塊的時長
  • 預設值:0.2 秒
  • 取值範圍:0.1-2.0 秒
  • 值越小延遲越低,但處理頻率越高

4.3 程序過濾配置

AudioTee 支援過濾特定程序的音訊,實現精確捕獲。

包含程序列表(JSON)

  • 只捕獲指定程序的音訊
  • 格式:JSON 字串陣列
  • 示例:["1234", "5678"]
  • 留空表示捕獲所有程序音訊

排除程序列表(JSON)

  • 排除指定程序的音訊
  • 格式:JSON 字串陣列
  • 示例:["9999"]
  • 用於過濾不需要的音訊源

程序過濾邏輯

  1. 如果設定了"包含程序列表",只捕獲列表中的程序音訊
  2. 如果設定了"排除程序列表",不捕獲列表中的程序音訊
  3. 兩個列表可以組合使用

使用場景

  • 只捕獲騰訊會議的音訊:包含程序列表填寫騰訊會議的程序 ID
  • 排除音樂播放器的音訊:排除程序列表填寫音樂播放器的程序 ID
  • 預設捕獲所有系統音訊:兩個列表都留空 []

獲取程序 ID(macOS)

bash
# 查詢騰訊會議程序 ID
ps aux | grep "TencentMeeting"

# 查詢 Zoom 程序 ID
ps aux | grep "zoom.us"

4.4 靜音控制

靜音被捕獲的程序

  • 開關控制是否靜音被捕獲的程序音訊
  • 開啟後,被捕獲的音訊不會從揚聲器播放
  • 關閉後,正常播放音訊的同時進行捕獲
  • 預設值:關閉

使用場景

  • 面試時想要安靜環境,開啟靜音
  • 需要聽到面試官聲音,關閉靜音
  • 錄製時不想打擾他人,開啟靜音

5. Piper TTS 配置

5.1 Piper TTS 簡介

Piper TTS 是本地神經網路語音合成系統,將文字轉換為自然流暢的語音。桌面客戶端使用 Piper TTS 朗讀 AI 生成的答案。

技術實現

  • Piper TTS 已透過 PyInstaller 打包為獨立可執行檔案
  • 內建 Python 執行時和所有必要依賴
  • 無需使用者單獨安裝 Python 或配置環境
  • 隨桌面客戶端一起分發,開箱即用
  • 支援中文(花顏女聲)和英文(Amy 女聲)兩種語音模型

5.2 語音配置

在"Piper TTS 配置"標籤頁,配置語音合成引數。

:預設所有配置都有預設值,不需要修改。

Piper TTS 配置

預設語言

  • 選擇 TTS 語音合成的預設語言
  • 中文(zh-CN):使用花顏女聲中文模型
  • 英文(en-US):使用 Amy 女聲英文模型
  • 會根據使用者設定的介面語言自動選擇對應語音

語音速度

  • 控制語音朗讀的速度
  • 預設值:1.0(正常速度)
  • 取值範圍:0.5-2.0
  • 0.5 表示慢速,2.0 表示快速
  • 建議使用 0.8-1.2 之間的值

語音速度選擇建議

  • 0.5-0.7:學習模式,慢速理解
  • 0.8-1.0:正常模式,舒適自然
  • 1.1-1.5:快速模式,節省時間
  • 1.6-2.0:極速模式,快速瀏覽

使用場景

  • 中文面試選擇"中文(zh-CN)"
  • 英文面試選擇"英文(en-US)"
  • 答案較長時降低語音速度,便於理解
  • 時間緊迫時提高語音速度,快速瀏覽

配置建議

  • 語音語言應與系統設定的介面語言保持一致
  • 語音速度建議在 0.9-1.1 之間,過快或過慢都不自然

NOTE

關於 Python 依賴:桌面客戶端已內建 Piper TTS 獨立可執行檔案(使用 PyInstaller 打包),無需單獨安裝 Python 和 piper-tts 依賴。所有必要元件已隨應用一起分發。

6. 測試配置

6.1 測試引數

在"測試配置"標籤頁,配置音訊裝置和語音識別的測試引數。

:預設所有配置都有預設值,不需要修改。

測試配置

測試持續時間(秒)

  • 裝置測試的最大持續時間
  • 預設值:60 秒
  • 取值範圍:10-300 秒
  • 超過時間後自動停止測試

識別超時時間(秒)

  • 語音識別的超時時間
  • 預設值:15 秒
  • 取值範圍:5-60 秒
  • 超過時間未識別到語音,認為識別失敗

6.2 識別長度限制

最小識別長度

  • 識別結果的最小字元數
  • 預設值:5
  • 取值範圍:1-50
  • 少於此長度的識別結果可能被過濾

最大識別長度

  • 識別結果的最大字元數
  • 預設值:30
  • 取值範圍:10-200
  • 超過此長度的識別結果可能被截斷

使用場景

  • 過濾短語音(如"嗯"、"啊")設定最小識別長度為 5
  • 限制長句子識別設定最大識別長度
  • 測試時可以調整這些引數觀察效果

7. 儲存和重置

7.1 儲存配置

點選底部"儲存配置"按鈕,將所有配置儲存到伺服器。

儲存配置

儲存流程

  1. 點選"儲存配置"按鈕
  2. 驗證所有必填欄位是否填寫正確
  3. 提交配置到伺服器
  4. 伺服器儲存配置並返回確認
  5. 顯示"配置已儲存"成功提示
  6. 桌面客戶端自動同步新配置

儲存內容

  • 裝置配置(麥克風、揚聲器)
  • FunASR 配置(主機、埠、模式等)
  • AudioTee 配置(取樣率、程序過濾等)
  • Piper TTS 配置(語言、語音速度等)
  • 測試配置(測試時間、識別長度等)

重要提示

  • 修改配置後必須點選"儲存配置"才會生效
  • 桌面客戶端會自動同步最新配置
  • 建議在非面試時間修改配置並測試

7.2 重置配置

點選底部"重置"按鈕,恢復所有配置為預設值。

重置操作

  1. 點選"重置"按鈕
  2. 所有欄位恢復為預設值
  3. 不會自動儲存,需要手動點選"儲存配置"

預設配置值

配置名稱: ASR-Gateway
FunASR 主機: localhost
FunASR 埠: 10095
識別模式: 線上模式
取樣率: 16000 Hz
音訊塊間隔: 5
起始/中間/結束塊大小: 5/10/5
AudioTee 取樣率: 16000 Hz
音訊塊時長: 0.2 秒
程序過濾: 空 []
靜音程序: 關閉
Piper 預設語言: 中文 (zh-CN)
語音速度: 1.0
測試持續時間: 60 秒
識別超時: 15 秒
最小識別長度: 5
最大識別長度: 30

使用場景

  • 配置修改出錯,恢復預設值
  • 不確定如何配置,使用預設配置
  • 測試完成後恢復推薦配置

7.3 重新整理裝置

點選底部"重新整理"按鈕,重新檢測音訊裝置列表。

重新整理功能

  • 向桌面客戶端請求最新裝置列表
  • 瀏覽器重新列舉本地音訊裝置
  • 麥克風和揚聲器下拉框自動更新

使用場景

  • 插入新的 USB 音訊裝置後重新整理
  • 連線藍芽耳機後重新整理
  • 裝置列表顯示異常時重新整理

8. 常見問題

8.1 裝置列表為空

問題:麥克風或揚聲器下拉框沒有裝置選項。

解決方案

  1. 點選"重新整理"按鈕重新檢測裝置
  2. 檢查桌面客戶端是否正常執行
  3. 確認瀏覽器已授予麥克風許可權
  4. 檢查系統是否連線了音訊裝置
  5. 重啟瀏覽器和桌面客戶端

8.2 儲存配置失敗

問題:點選"儲存配置"按鈕,提示儲存失敗。

解決方案

  1. 檢查所有必填欄位是否填寫
  2. 檢查埠號是否在 1-65535 範圍內
  3. 檢查 JSON 格式的程序列表是否正確
  4. 檢視瀏覽器控制檯是否有錯誤資訊
  5. 檢查網路連線是否正常

8.3 FunASR 連線失敗

問題:配置儲存後,桌面客戶端無法連線 FunASR 服務。

解決方案

  1. 檢查 FunASR 主機地址和埠是否正確
  2. 確認 FunASR Docker 容器是否正常執行
    bash
    docker ps | grep FunASR
  3. 測試 FunASR 服務是否可訪問
    bash
    curl ws://localhost:10095
  4. 檢查防火牆是否阻止了連線
  5. 檢視 FunASR 容器日誌
    bash
    docker logs FunASR

8.4 AudioTee 無法捕獲系統音訊

問題:設定了 AudioTee 配置,但無法捕獲面試軟體的音訊。

解決方案(macOS)

  1. 系統偏好設定 > 安全性與隱私 > 螢幕錄製
  2. 允許 CueMate 或桌面客戶端訪問螢幕錄製許可權
  3. 檢查程序過濾配置是否正確
  4. 確認面試軟體正在播放音訊
  5. 嘗試關閉"靜音被捕獲的程序"開關
  6. 檢視桌面客戶端日誌是否有錯誤資訊

8.5 Piper TTS 無聲音

問題:配置了 Piper TTS,但播放答案時沒有聲音。

解決方案

  1. 檢查揚聲器裝置是否選擇正確
  2. 確認系統音量未靜音
  3. 檢查 Piper TTS 語言設定是否與內容匹配(中文內容需選擇中文語音)
  4. 檢視桌面客戶端日誌是否有 TTS 錯誤
    • macOS: ~/Library/Application Support/cuemate-desktop-client/data/logs/
  5. 確認 Piper TTS 二進位制檔案是否正常
    • 二進位制檔案位置: resources/piper-bin/piper
    • 如果檔案丟失或損壞,請重新安裝桌面客戶端

NOTE

Piper TTS 已作為獨立可執行檔案內建在桌面客戶端中,無需單獨安裝 Python 或 piper-tts 包。如果遇到問題,通常是配置或系統許可權問題,而非依賴缺失。

8.6 語音識別準確率低

問題:語音識別經常識別錯誤或識別不出來。

解決方案

  1. 檢查麥克風裝置是否正常工作
  2. 選擇安靜的環境,減少背景噪音
  3. 調整麥克風位置,靠近說話者
  4. 清晰發音,語速適中,避免快速連讀
  5. 嘗試提高 FunASR 取樣率到 48000 Hz
  6. 切換識別模式為"兩遍模式"提高準確率

8.7 識別延遲高

問題:說話後很久才顯示識別結果。

解決方案

  1. 降低 FunASR 音訊塊間隔(如改為 3)
  2. 減小 FunASR 塊大小(如起始/中間/結束改為 3/6/3)
  3. 降低 AudioTee 音訊塊時長(如改為 0.1 秒)
  4. 使用有線麥克風,避免藍芽延遲
  5. 檢查系統資源佔用,關閉不必要的程式
  6. 確認網路連線正常,延遲較低

相關頁面

Released under the GPL-3.0 License.