配置 SiliconFlow
SiliconFlow(硅基流动)是国内领先的 AI 推理加速平台,提供高性能的大模型 API 服务。支持 Qwen、DeepSeek、Llama 等主流开源模型,以极致性价比和超低延迟著称。
1. 获取 SiliconFlow API Key
1.1 访问 SiliconFlow 硅基流动平台
访问 SiliconFlow 并登录:https://cloud.siliconflow.cn/
![]()
1.2 进入 API 管理页面
登录后,点击左侧菜单的 API 密钥。
![]()
1.3 创建新的 API Key
点击 创建 API 密钥 按钮。
![]()
1.4 设置 API Key 信息
在弹出的对话框中:
- 输入 API Key 的名称(例如:CueMate)
- 点击 确定 按钮
![]()
1.5 复制 API Key
创建成功后,系统会显示 API Key。
重要:请立即复制并妥善保存,API Key 以 sk- 开头。
![]()
点击复制按钮,API Key 已复制到剪贴板。
2. 在 CueMate 中配置 SiliconFlow 模型
2.1 进入模型设置页面
登录 CueMate 系统后,点击右上角下拉菜单的 模型设置。

2.2 添加新模型
点击右上角的 添加模型 按钮。

2.3 选择 SiliconFlow 服务商
在弹出的对话框中:
- 服务商类型:选择 SILICONFLOW
- 点击后 自动进入下一步
![]()
2.4 填写配置信息
在配置页面填写以下信息:
基础配置
- 模型名称:为这个模型配置起个名字(例如:SF DeepSeek R1)
- API URL:保持默认
https://api.siliconflow.cn/v1 - API Key:粘贴 SiliconFlow 的 API Key
- 模型版本:选择或输入要使用的模型
2025 最新高性能模型(推荐):
deepseek-ai/DeepSeek-R1:DeepSeek R1 完整版(32K 输出)deepseek-ai/DeepSeek-V3:DeepSeek V3(32K 输出)deepseek-ai/DeepSeek-V3.2-Exp:DeepSeek V3.2 实验版(64K 输出)Qwen/Qwen2.5-72B-Instruct:Qwen 2.5 72B 旗舰版(128K 上下文)Qwen/Qwen2.5-32B-Instruct:Qwen 2.5 32B(32K 输出)meta-llama/Llama-3.3-70B-Instruct:Llama 3.3 70B(32K 输出)
其他可用模型:
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B:DeepSeek R1 蒸馏版 32BQwen/QwQ-32B:Qwen QwQ 32B 推理模型Qwen/Qwen2.5-7B-Instruct:Qwen 2.5 7BQwen/Qwen2.5-Coder-7B-Instruct:Qwen 2.5 Coder 7B(代码优化)THUDM/glm-4-9b-chat:GLM-4 9B 对话版internlm/internlm2_5-7b-chat:InternLM 2.5 7B
![]()
高级配置(可选)
展开 高级配置 面板,可以调整以下参数:
CueMate 界面可调参数:
温度(temperature):控制输出随机性
- 范围:0-2
- 推荐值:0.7
- 作用:值越高输出越随机创新,值越低输出越稳定保守
- 使用建议:
- 创意写作/头脑风暴:1.0-1.5
- 常规对话/问答:0.7-0.9
- 代码生成/精确任务:0.3-0.5
输出最大 tokens(max_tokens):限制单次输出长度
- 范围:256 - 64000(根据模型而定)
- 推荐值:8192
- 作用:控制模型单次响应的最大字数
- 模型限制:
- DeepSeek-R1、V3、Qwen2.5、Llama-3.3:最大 32K tokens
- DeepSeek-V3.2-Exp:最大 64K tokens
- 使用建议:
- 简短问答:1024-2048
- 常规对话:4096-8192
- 长文生成:16384-32768
- 超长输出:65536(仅 V3.2-Exp)
![]()
SiliconFlow API 支持的其他高级参数:
虽然 CueMate 界面只提供 temperature 和 max_tokens 调整,但如果你通过 API 直接调用 SiliconFlow,还可以使用以下高级参数(SiliconFlow 采用 OpenAI 兼容的 API 格式):
top_p(nucleus sampling)
- 范围:0-1
- 默认值:1
- 作用:从概率累积达到 p 的最小候选集中采样
- 与 temperature 的关系:通常只调整其中一个
- 使用建议:
- 保持多样性但避免离谱:0.9-0.95
- 更保守的输出:0.7-0.8
frequency_penalty(频率惩罚)
- 范围:-2.0 到 2.0
- 默认值:0
- 作用:降低重复相同词汇的概率(基于词频)
- 使用建议:
- 减少重复:0.3-0.8
- 允许重复:0(默认)
- 强制多样化:1.0-2.0
presence_penalty(存在惩罚)
- 范围:-2.0 到 2.0
- 默认值:0
- 作用:降低已出现过的词汇再次出现的概率(基于是否出现)
- 使用建议:
- 鼓励新话题:0.3-0.8
- 允许重复话题:0(默认)
stop(停止序列)
- 类型:字符串或数组
- 默认值:null
- 作用:当生成内容包含指定字符串时停止
- 示例:
["###", "用户:", "\n\n"] - 使用场景:
- 结构化输出:使用分隔符控制格式
- 对话系统:防止模型代替用户说话
stream(流式输出)
- 类型:布尔值
- 默认值:false
- 作用:启用 SSE 流式返回,边生成边返回
- CueMate 中:自动处理,无需手动设置
参数组合建议:
| 序号 | 场景 | temperature | max_tokens | top_p | frequency_penalty | presence_penalty |
|---|---|---|---|---|---|---|
| 1 | 创意写作 | 1.0-1.2 | 4096-8192 | 0.95 | 0.5 | 0.5 |
| 2 | 代码生成 | 0.2-0.5 | 2048-4096 | 0.9 | 0.0 | 0.0 |
| 3 | 问答系统 | 0.7 | 1024-2048 | 0.9 | 0.0 | 0.0 |
| 4 | 摘要总结 | 0.3-0.5 | 512-1024 | 0.9 | 0.0 | 0.0 |
| 5 | 复杂推理 | 0.7 | 32768-65536 | 0.9 | 0.0 | 0.0 |
2.5 测试连接
填写完配置后,点击 测试连接 按钮,验证配置是否正确。

如果配置正确,会显示测试成功的提示,并返回模型的响应示例。
![]()
如果配置错误,会显示测试错误的日志,并且可以通过日志管理,查看具体报错信息。
2.6 保存配置
测试成功后,点击 保存 按钮,完成模型配置。
![]()
3. 使用模型
通过右上角下拉菜单,进入系统设置界面,在大模型供应商栏目选择想要使用的模型配置。
配置完成后,可以在面试训练、问题生成等功能中选择使用此模型, 当然也可以在面试的选项中单此选择此次面试的模型配置。

4. 支持的模型列表
4.1 DeepSeek 系列(2025 最新)
| 序号 | 模型名称 | 模型 ID | 最大输出 | 适用场景 |
|---|---|---|---|---|
| 1 | DeepSeek R1 完整版 | deepseek-ai/DeepSeek-R1 | 32K tokens | 顶级推理能力、复杂技术面试 |
| 2 | DeepSeek V3 | deepseek-ai/DeepSeek-V3 | 32K tokens | 代码生成、技术推理 |
| 3 | DeepSeek V3.2 实验版 | deepseek-ai/DeepSeek-V3.2-Exp | 64K tokens | 最新实验特性、超长输出 |
| 4 | DeepSeek R1 蒸馏版 32B | deepseek-ai/DeepSeek-R1-Distill-Qwen-32B | 32K tokens | 推理增强、高性价比 |
4.2 Qwen 2.5 系列
| 序号 | 模型名称 | 模型 ID | 最大输出 | 适用场景 |
|---|---|---|---|---|
| 1 | Qwen 2.5 72B 旗舰版 | Qwen/Qwen2.5-72B-Instruct | 32K tokens | 最强性能、128K 上下文 |
| 2 | Qwen 2.5 32B | Qwen/Qwen2.5-32B-Instruct | 32K tokens | 均衡性能、长文档处理 |
| 3 | Qwen 2.5 7B | Qwen/Qwen2.5-7B-Instruct | 32K tokens | 通用对话、性价比高 |
| 4 | Qwen 2.5 Coder 7B | Qwen/Qwen2.5-Coder-7B-Instruct | 32K tokens | 代码生成、技术问答 |
| 5 | Qwen QwQ 32B | Qwen/QwQ-32B | 32K tokens | 推理优化、问答增强 |
4.3 其他高性能模型
| 序号 | 模型名称 | 模型 ID | 最大输出 | 适用场景 |
|---|---|---|---|---|
| 1 | Llama 3.3 70B | meta-llama/Llama-3.3-70B-Instruct | 32K tokens | 开源旗舰、多语言支持 |
| 2 | GLM-4 9B | THUDM/glm-4-9b-chat | 32K tokens | 中文理解、对话生成 |
| 3 | InternLM 2.5 7B | internlm/internlm2_5-7b-chat | 32K tokens | 中文对话优化 |
5. 常见问题
5.1 API Key 无效
现象:测试连接时提示 API Key 错误
解决方案:
- 检查 API Key 是否以
sk-开头 - 确认 API Key 完整复制
- 检查账户是否有可用额度
5.2 模型不可用
现象:提示模型不存在或未授权
解决方案:
- 确认模型 ID 拼写正确
- 检查账户是否有该模型的访问权限
- 验证模型是否在 SiliconFlow 平台可用
5.3 请求超时
现象:测试连接或使用时长时间无响应
解决方案:
- 检查网络连接是否正常
- 确认 API URL 配置正确
- 检查防火墙设置
5.4 配额限制
现象:提示超出请求配额
解决方案:
- 登录 SiliconFlow 平台查看配额使用情况
- 充值或申请更多配额
- 优化使用频率
