Skip to content

语音提问

语音提问功能允许你通过文字或语音向 AI 提问,AI 会实时分析你的问题并给出专业的答案建议。这个功能适用于快速查询技术问题、面试题目答案,或者进行简单的 AI 对话。

1. 前置准备

在启动台搜索 CueMate 应用图标,单击左键打开应用程序。

打开应用

启动 CueMate 桌面应用后,可以看到悬浮在屏幕正上方的控制窗口。控制窗口从左到右的按钮功能依次为:

  • "访问 CueMate 网站"图标:点击打开 CueMate 官方网站
  • "语音识别"按钮:点击启动语音识别功能,打开语音功能窗口
  • "提问 AI"按钮:点击打开 AI 提问窗口,快速向 AI 提问,获取答案
  • "交互模式"图标:切换窗口的点击穿透模式(交互模式可正常操作窗口,穿透模式点击会穿透到下层应用)
  • "主应用窗口"图标:点击打开主应用窗口,进入后台管理界面
  • "显示/隐藏"图标:点击隐藏或显示控制栏以及其他所有窗口

打开应用

2. 打开 AI 提问窗口

2.1 方式一:通过控制栏直接打开

点击悬浮控制栏上的"提问 AI"按钮,直接打开 AI 提问窗口。

点击提问 AI 按钮

效果

  • 打开中间的"AI 提问"窗口
  • 同时会自动打开右侧的"AI 提问记录"窗口
  • 默认显示"文字提问"模式

2.2 方式二:通过语音识别窗口打开

如果你想同时使用语音识别窗口的功能,可以通过以下步骤打开:

  1. 点击悬浮控制栏上的"语音识别"按钮
  2. 在弹出的语音识别窗口中,点击"语音提问"卡片

语音识别窗口

效果

  • 同时展示三个窗口:
    • 左侧:语音识别窗口
    • 中间:AI 提问窗口
    • 右侧:AI 提问记录窗口

语音提问窗口

说明

  • 左侧语音识别窗口和中间 AI 提问窗口都可以进行语音输入
  • 两个窗口的"按住说话"按钮功能是同步的,点击任意一个都可以进行语音输入

3. 文字提问流程

3.1 输入问题

在 AI 提问窗口的底部输入框中输入你的问题。

文字输入区域

提问技巧

  • 问题表述清晰、完整
  • 可以包含代码片段、技术术语
  • 支持中英文混合输入

示例问题

  • "什么是 React Hooks?请举例说明"
  • "如何优化 SQL 查询性能?"
  • "请解释一下 TCP 三次握手的过程"
  • "Python 中的装饰器是什么?有什么应用场景?"

3.2 发送问题

输入完成后,按 Enter 键或点击"提交"按钮提交问题。

说明

  • AI 会立即开始分析你的问题
  • 右侧窗口会显示提问记录
  • 答案会实时流式返回

3.3 查看 AI 回答

AI 会在中间的"AI 对话记录"窗口中,实时流式返回答案。

查看 AI 回答

答案特点

  • 实时流式输出,边生成边显示
  • 答案专业、准确,基于所选大模型
  • 支持技术问题、面试题目、知识查询等
  • 支持 Markdown 格式显示

3.4 查看历史记录

所有的提问和回答都会保存在右侧的"AI 对话记录"窗口中。

功能说明

  • 可以查看所有历史对话
  • 支持复制答案内容
  • 支持删除不需要的记录
  • 记录会持久化保存

查看历史记录

3.5 AI 提问其他操作

在对话窗口中,提供了以下快捷操作按钮:

其他操作

对话区域悬浮按钮(窗口底部中央):

  1. 告诉我关于该问题的更多内容:自动生成"告诉我更多关于 [你的上一个问题] 的信息"并提交
  2. 新建提问:停止当前对话,清空聊天框,开始新的提问
  3. 复制所有对话内容:复制当前聊天框中所有用户和 AI 的对话内容

输入区域快捷按钮(窗口底部右侧):

  1. 清空当前聊天框:清空所有对话内容,开始新的提问
  2. 复制最近一次 AI 回答:快速复制最后一次 AI 的回答内容
  3. 提交:提交当前输入的问题

4. 语音提问流程

4.1 开始语音输入

方式一:使用中间窗口的按钮

  • 点击中间窗口底部的"按住说话"按钮

方式二:使用左侧窗口的按钮

  • 点击左侧语音识别窗口的"按住说话"按钮

按住说话

按钮状态说明

  • 点击后按钮会变为"停止说话"状态
  • 系统会立即开始录音并实时识别
  • 识别的文字会实时显示在输入框中
  • 窗口标题栏会显示麦克风设备和"说话中"状态指示器

4.2 说出你的问题

对着麦克风清晰地说出你的问题。

提问技巧

  • 说话清晰,语速适中
  • 避免环境噪音干扰
  • 建议使用中文提问(也支持英文)
  • 问题尽量完整、具体

示例问题

  • "什么是 React Hooks?"
  • "如何优化 SQL 查询性能?"
  • "请解释一下 TCP 三次握手的过程"
  • "Python 中的装饰器是什么?"

4.3 停止语音输入

说完问题后,再次点击"停止说话"按钮,结束语音输入。

说明

  • 系统会立即停止录音
  • 识别的完整文字会显示在输入框中
  • 你可以继续编辑识别的文字,或直接提交
  • 使用 Enter 键或"提交"按钮提交问题

4.4 查看 AI 回答

AI 会在中间的"AI 对话记录"窗口中,实时流式返回答案。

答案特点

  • 与文字提问的回答方式相同
  • 实时流式输出
  • 支持 Markdown 格式
  • 自动保存到历史记录

5. 功能说明

5.1 工作原理

文字提问流程

  1. 输入问题:在输入框中输入文字
  2. 问题分析:AI 大模型分析你的问题
  3. 生成答案:AI 生成专业答案并流式返回
  4. 答案展示:窗口实时显示答案
  5. 记录保存:自动保存到 AI 对话记录

语音提问流程

  1. 语音采集:麦克风采集你的语音
  2. 语音识别:cuemate-asr 实时将语音转为文字
  3. 文字编辑:可以编辑识别的文字(可选)
  4. 问题分析:AI 大模型分析你的问题
  5. 生成答案:AI 生成专业答案并流式返回
  6. 答案展示:窗口实时显示答案
  7. 记录保存:自动保存到 AI 对话记录

5.2 窗口布局说明

方式一布局(通过"提问 AI"按钮打开):

  • 中间窗口:AI 提问窗口(文字输入 + 语音输入)
  • 右侧窗口:AI 对话记录窗口

方式二布局(通过"语音识别"窗口打开):

  • 左侧窗口:语音识别窗口(可进行语音输入)
  • 中间窗口:AI 提问窗口(文字输入 + 语音输入)
  • 右侧窗口:AI 对话记录窗口

按钮同步说明

  • 左侧窗口的"按住说话"按钮
  • 中间窗口的"按住说话"按钮
  • 两个按钮功能完全同步,点击任意一个都可以

5.3 使用场景

语音提问适用于以下场景:

  • 快速查询:查询技术概念、API 用法、最佳实践
  • 面试准备:询问常见面试题的答案
  • 知识学习:学习新技术、新概念
  • 问题解决:解决编程中遇到的问题
  • 代码理解:询问代码片段的含义和原理

5.4 与其他功能的区别

功能适用场景特点
语音提问快速查询、单次提问简单、快速、即问即答
模拟面试完整面试流程训练AI 主动提问,多轮对话,带评估
面试训练实际面试训练识别面试官问题,提供答案建议

6. 注意事项

6.1 前置配置

使用语音提问前,需要完成以下配置:

必需配置

  1. 语音设置 - 配置麦克风设备,测试语音识别
  2. 模型设置 - 配置大语言模型,用于生成答案

可选配置: 3. 系统设置 - 设置系统语言、默认模型

6.2 服务依赖

语音提问功能依赖以下服务:

  • cuemate-asr 服务:语音识别(端口 10095)- 仅语音提问需要
  • LLM Router 服务:大模型路由(端口 3002)
  • Web API 服务:数据管理(端口 3001)

6.3 权限要求

  • 麦克风权限:用于语音采集(首次使用会弹窗请求)- 仅语音提问需要

6.4 性能优化

语音识别

  • 识别延迟约 1-2 秒
  • 建议在安静环境下使用
  • 麦克风距离保持 10-30cm

AI 答案生成

  • 延迟取决于所选模型
    • GPT-4:较慢但质量高
    • GPT-3.5-turbo:快速且质量不错(推荐)
    • 国产模型:速度快,中文效果好

7. 常见问题

7.1 语音识别不准确

问题:语音识别的文字不准确

解决方案

  1. 检查麦克风距离(建议 10-30cm)
  2. 说话清晰,语速适中
  3. 避免环境噪音
  4. 先进行语音测试确认设备正常

7.2 无法开始语音输入

问题:点击"按住说话"没有反应

解决方案

  1. 检查麦克风权限是否授予
  2. 检查 cuemate-asr 服务是否正常运行
  3. 查看容器监控确认服务状态
  4. 查看日志管理中的错误信息

7.3 AI 回答延迟

问题:AI 回答速度很慢

解决方案

  1. 更换响应更快的模型(如 GPT-3.5-turbo)
  2. 检查网络连接
  3. 查看模型设置中的模型配置
  4. 尝试使用国产模型(如智谱 AI、Kimi)

7.4 历史记录丢失

问题:之前的对话记录找不到了

解决方案

  1. 检查是否误删了记录
  2. 查看AI 对话记录页面
  3. 所有记录都保存在数据库中,不会自动删除

相关页面

Released under the GPL-3.0 License.