配置 Regolo

Regolo 是本地模型服务，整合了全球主流大模型服务商的 API 接口。提供统一的接入方式、灵活的计费模式和高可用性保障，简化多模型设置和切换。

1. 获取 Regolo API Key

1.1 访问 Regolo 平台

访问 Regolo AI 平台并注册登录：https://api.regolo.ai/

访问 Regolo 平台

1.2 进入 Virtual Keys 管理页面

登录后，在左侧菜单栏点击 Virtual Keys 进入 API 密钥管理页面。

1.3 创建新的 API Key

点击右上角的 Create Key 按钮，打开创建对话框。

1.4 配置 API Key 信息

在 Create Key 对话框中配置以下信息：

1.4.1 设置 Key Alias（密钥别名）

输入一个便于识别的名称，例如 CueMate。

命名建议：

使用项目名称或用途作为前缀
区分开发/测试/生产环境（如 CueMate-Dev、CueMate-Prod）
避免包含敏感信息

1.4.2 选择授权模型（Models）

点击 Models 下拉框，选择该 API Key 可以访问的模型：

可选模式：

All models：授权访问所有模型（推荐用于生产环境）
指定模型：仅授权访问特定模型（推荐用于开发测试）

模型选择建议：

生产环境：选择 "All models" 以便灵活切换
开发环境：仅选择需要测试的模型，降低误用风险
按需授权：根据实际业务场景选择对应模型

当前可选的 LLM 模型：

deepseek-r1-70b：DeepSeek R1 推理模型（最大 64K tokens）
llama-guard3-8b：Llama Guard 3 安全审核模型
qwen3-30b：Qwen3 30B 通用模型（最大 32K tokens）
qwen3-coder-30b：Qwen3 代码专用模型（最大 256K tokens）
mistral-small3.2：Mistral Small 3.2 轻量模型（最大 32K tokens）
gpt-oss-120b：开源 GPT 120B 大模型
Llama-3.3-70B-Instruct：Llama 3.3 最新版本
Llama-3.1-8B-Instruct：Llama 3.1 8B 高性价比
maestrale-chat-v0.4-beta：Regolo 原创对话模型
Qwen3-8B：Qwen3 8B 轻量模型（最大 32K tokens）
gemma-3-27b-it：Google Gemma 3 27B（最大 128K tokens）

1.4.3 设置速率限制（Rate Limits）

点击 Edit Limits 按钮，可配置该 API Key 的请求速率限制：

RPM（Requests Per Minute）：每分钟请求数
TPM（Tokens Per Minute）：每分钟 token 数
RPD（Requests Per Day）：每天请求数

速率限制建议：

开发测试：RPM=60, TPM=100000, RPD=10000
生产环境：根据实际业务量设置，避免意外超额

1.4.4 完成创建

配置完成后，点击 Save 按钮。

设置 API Key 信息

1.5 保存 API Key

创建成功后，系统会显示 API Key。

重要提示：

API Key 仅显示一次，关闭对话框后无法再次查看
请立即复制并保存到安全的位置（如密码管理器）
如果遗失，需要删除旧的 Key 并重新创建

复制 API Key

保存方式推荐：

点击复制按钮，API Key 已复制到剪贴板
粘贴到密码管理器（如 1Password、Bitwarden）
或保存到安全的文本文件中，并妥善保管（不要分享给他人）

1.6 验证 API Key

在 Virtual Keys 列表中可以看到刚创建的 Key：

状态：显示 Key 是否启用
授权模型：显示可访问的模型列表
创建时间：记录创建日期
操作：可以编辑限制或删除 Key

2. 在 CueMate 中配置 Regolo 模型

2.1 进入模型设置页面

2.2 添加新模型

点击右上角的 添加模型 按钮。

点击添加模型

2.3 选择 Regolo 服务商

在弹出的对话框中：

服务商类型：选择 Regolo
点击后 自动进入下一步

选择 Regolo

2.4 填写配置信息

在配置页面填写以下信息：

基础配置

模型名称：为这个模型配置起个名字（例如：Regolo Phi-4）
API URL：保持默认 https://api.regolo.ai/v1
API Key：粘贴 Regolo 的 API Key
模型版本：选择或输入要使用的模型
- Microsoft 系列：
  - Phi-4：Microsoft Phi-4，轻量高效
- DeepSeek R1 系列：
  - DeepSeek-R1-Distill-Qwen-32B：DeepSeek R1 蒸馏版 32B
  - DeepSeek-R1-Distill-Qwen-14B：DeepSeek R1 蒸馏版 14B
  - DeepSeek-R1-Distill-Qwen-7B：DeepSeek R1 蒸馏版 7B
  - DeepSeek-R1-Distill-Llama-8B：DeepSeek R1 Llama 8B
- Regolo 原创：
  - maestrale-chat-v0.4-beta：Maestrale 对话模型
- Llama 系列：
  - Llama-3.3-70B-Instruct：Llama 3.3 70B 指令版
  - Llama-3.1-70B-Instruct：Llama 3.1 70B 指令版
  - Llama-3.1-8B-Instruct：Llama 3.1 8B 指令版
- DeepSeek Coder：
  - DeepSeek-Coder-6.7B-Instruct：DeepSeek Coder 6.7B
- Qwen 系列：
  - Qwen2.5-72B-Instruct：Qwen 2.5 72B 指令版

填写基础配置

高级配置（可选）

展开 高级配置 面板，可以调整以下参数：

CueMate 界面可调参数：

温度（temperature）：控制输出随机性
- 范围：0-2（不同模型上限不同）
- 推荐值：0.7
- 作用：值越高输出越随机创新，值越低输出越稳定保守
- 使用建议：
  - 创意写作/头脑风暴：1.0-1.5
  - 常规对话/问答：0.7-0.9
  - 代码生成/精确任务：0.3-0.5
输出最大 tokens（max_tokens）：限制单次输出长度
- 范围：256 - 262144（根据模型而定）
- 推荐值：8192
- 作用：控制模型单次响应的最大字数
- 模型限制：
  - deepseek-r1-70b：最大 64K tokens
  - gemma-3-27b-it：最大 128K tokens
  - qwen3-coder-30b：最大 256K tokens
  - 其他模型：8K-32K tokens
- 使用建议：
  - 简短问答：1024-2048
  - 常规对话：4096-8192
  - 长文生成：16384-32768
  - 超长文档：65536+（仅支持的模型）

高级配置

Regolo API 支持的其他高级参数：

虽然 CueMate 界面只提供 temperature 和 max_tokens 调整，但如果你通过 API 直接调用 Regolo，还可以使用以下高级参数（Regolo 采用 OpenAI 兼容的 API 格式）：

top_p（nucleus sampling）
- 范围：0-1
- 默认值：0.9
- 作用：从概率累积达到 p 的最小候选集中采样
- 与 temperature 的关系：通常只调整其中一个
- 使用建议：
  - 保持多样性但避免离谱：0.9-0.95
  - 更保守的输出：0.7-0.8
top_k
- 范围：1-100
- 默认值：50
- 作用：从概率最高的 k 个候选词中采样
- 使用建议：
  - 更多样化：50-100
  - 更保守：10-30
frequency_penalty
- 范围：-2.0 到 2.0
- 默认值：0
- 作用：降低重复相同词汇的概率（基于频率）
- 使用建议：
  - 减少重复：0.3-0.8
  - 允许重复：0（默认）
  - 强制多样化：1.0-2.0
presence_penalty
- 范围：-2.0 到 2.0
- 默认值：0
- 作用：降低已出现过的词汇再次出现的概率（基于是否出现）
- 使用建议：
  - 鼓励新话题：0.3-0.8
  - 允许重复话题：0（默认）
stop（停止序列）
- 类型：字符串数组
- 默认值：null
- 作用：当生成内容包含指定字符串时停止
- 示例：["###", "用户:", "\n\n"]
- 使用场景：
  - 结构化输出：使用分隔符控制格式
  - 对话系统：防止模型代替用户说话
stream（流式输出）
- 类型：布尔值
- 默认值：false
- 作用：启用 SSE 流式返回，边生成边返回
- CueMate 中：自动处理，无需手动设置
seed（随机种子）
- 类型：整数
- 默认值：null
- 作用：固定随机种子，相同输入产生相同输出
- 使用场景：
  - 可复现的测试
  - 对比实验
- 注意：不是所有模型都支持

参数组合建议：

序号	场景	temperature	max_tokens	top_p	frequency_penalty	presence_penalty
1	创意写作	1.0-1.2	4096-8192	0.95	0.5	0.5
2	代码生成	0.2-0.5	2048-4096	0.9	0.0	0.0
3	问答系统	0.7	1024-2048	0.9	0.0	0.0
4	摘要总结	0.3-0.5	512-1024	0.9	0.0	0.0
5	头脑风暴	1.2-1.5	2048-4096	0.95	0.8	0.8

2.5 测试连接

填写完配置后，点击 测试连接 按钮，验证配置是否正确。

测试连接

如果配置正确，会显示测试成功的提示，并返回模型的响应示例。

测试成功

如果配置错误，会显示测试错误的日志，并且可以通过日志管理，查看具体报错信息。

2.6 保存配置

测试成功后，点击保存按钮，完成模型配置。

保存配置

3. 使用模型

通过右上角下拉菜单，进入系统设置界面，在大模型供应商栏目选择想要使用的模型配置。

配置完成后，可以在面试训练、问题生成等功能中选择使用此模型，当然也可以在面试的选项中单此选择此次面试的模型配置。

选择模型

4. 支持的模型列表

4.1 DeepSeek 系列

序号	模型名称	模型 ID	参数量	最大输出	适用场景
1	DeepSeek R1 70B	`deepseek-r1-70b`	70B	64K tokens	推理增强、复杂任务、超长上下文

4.2 Llama 系列

序号	模型名称	模型 ID	参数量	最大输出	适用场景
1	Llama Guard 3 8B	`llama-guard3-8b`	8B	8K tokens	内容安全审核、风险检测
2	Llama 3.3 70B	`Llama-3.3-70B-Instruct`	70B	8K tokens	最新版本、高性能通用任务
3	Llama 3.1 8B	`Llama-3.1-8B-Instruct`	8B	8K tokens	标准任务、高性价比

4.3 Qwen 系列

序号	模型名称	模型 ID	参数量	最大输出	适用场景
1	Qwen3 30B	`qwen3-30b`	30B	32K tokens	通用对话、长文本处理
2	Qwen3 8B	`Qwen3-8B`	8B	32K tokens	轻量高效、快速响应
3	Qwen3 Coder 30B	`qwen3-coder-30b`	30B	256K tokens	代码生成、超长代码上下文

4.4 Mistral 系列

序号	模型名称	模型 ID	参数量	最大输出	适用场景
1	Mistral Small 3.2	`mistral-small3.2`	-	32K tokens	轻量模型、多语言支持

4.5 Google Gemma 系列

序号	模型名称	模型 ID	参数量	最大输出	适用场景
1	Gemma 3 27B	`gemma-3-27b-it`	27B	128K tokens	超长上下文、文档分析

4.6 开源社区模型

序号	模型名称	模型 ID	参数量	最大输出	适用场景
1	GPT OSS 120B	`gpt-oss-120b`	120B	8K tokens	开源超大模型、实验性任务

4.7 Regolo 原创

序号	模型名称	模型 ID	参数量	最大输出	适用场景
1	Maestrale Chat v0.4	`maestrale-chat-v0.4-beta`	-	8K tokens	对话优化、多语言（意大利语增强）

5. 常见问题

5.1 API Key 无效

现象：测试连接时提示 API Key 错误

解决方案：

检查 API Key 是否完整复制
确认 API Key 未过期或被禁用
验证 API Key 权限设置正确

5.2 模型不可用

现象：提示模型不存在或未授权

解决方案：

确认模型 ID 拼写正确
检查账户是否有该模型的访问权限
验证账户余额充足

5.3 请求超时

现象：测试连接或使用时长时间无响应

解决方案：

检查网络连接是否正常
确认 API URL 配置正确
检查防火墙设置

5.4 配额限制

现象：提示超出请求配额

解决方案：

登录 Regolo 平台查看配额使用情况
充值或申请更多配额
优化使用频率

Regolo 平台特点

5.5 企业级服务

高可用性保障
专业技术支持
灵活的定价方案

5.6 模型丰富

支持多种主流开源模型
Regolo 原创优化模型
持续更新最新模型

5.7 性能优化

分布式推理集群
低延迟响应
高并发支持

5.8 数据安全

数据加密传输
隐私保护机制
合规认证

定价说明

Regolo 采用按使用量计费模式：

模型级别	输入价格	输出价格	单位
轻量级（<10B）	¥0.001	¥0.003	/1K tokens
标准级（10B-30B）	¥0.003	¥0.009	/1K tokens
高性能（>30B）	¥0.006	¥0.018	/1K tokens

注意：具体价格以 Regolo 官网为准。

使用建议

5.9 模型选择

开发测试：使用 7B-14B 参数的模型，成本低
生产环境：根据性能需求选择 32B-70B 模型
代码生成：优先选择 DeepSeek Coder 系列
通用对话：推荐 Llama 3.3 或 Qwen 2.5 系列

5.10 成本优化

合理设置 max_tokens 参数
使用缓存减少重复请求
选择合适参数量的模型
监控 API 使用量

适用场景

5.1 企业应用

内部知识库问答
客户服务自动化
文档生成与处理

5.2 开发者

应用原型开发
AI 功能集成
算法验证测试

5.3 私有化需求

支持私有化部署方案
定制化模型训练
专属技术支持

配置 Regolo

1. 获取 Regolo API Key ​

1.1 访问 Regolo 平台 ​

1.2 进入 Virtual Keys 管理页面 ​

1.3 创建新的 API Key ​

1.4 配置 API Key 信息 ​

1.4.1 设置 Key Alias（密钥别名） ​

1.4.2 选择授权模型（Models） ​

1.4.3 设置速率限制（Rate Limits） ​

1.4.4 完成创建 ​

1.5 保存 API Key ​

1.6 验证 API Key ​

2. 在 CueMate 中配置 Regolo 模型 ​

2.1 进入模型设置页面 ​

2.2 添加新模型 ​

2.3 选择 Regolo 服务商 ​

2.4 填写配置信息 ​

基础配置 ​

高级配置（可选） ​

2.5 测试连接 ​

2.6 保存配置 ​

3. 使用模型 ​

4. 支持的模型列表 ​

4.1 DeepSeek 系列 ​

4.2 Llama 系列 ​

4.3 Qwen 系列 ​

4.4 Mistral 系列 ​

4.5 Google Gemma 系列 ​

4.6 开源社区模型 ​

4.7 Regolo 原创 ​

5. 常见问题 ​

5.1 API Key 无效 ​

5.2 模型不可用 ​

5.3 请求超时 ​

5.4 配额限制 ​

Regolo 平台特点 ​

5.5 企业级服务 ​

5.6 模型丰富 ​

5.7 性能优化 ​

5.8 数据安全 ​

定价说明 ​

使用建议 ​

5.9 模型选择 ​

5.10 成本优化 ​

相关链接 ​

适用场景 ​

5.1 企业应用 ​

5.2 开发者 ​

5.3 私有化需求 ​

1. 获取 Regolo API Key

1.1 访问 Regolo 平台

1.2 进入 Virtual Keys 管理页面

1.3 创建新的 API Key

1.4 配置 API Key 信息

1.4.1 设置 Key Alias（密钥别名）

1.4.2 选择授权模型（Models）

1.4.3 设置速率限制（Rate Limits）

1.4.4 完成创建

1.5 保存 API Key

1.6 验证 API Key

2. 在 CueMate 中配置 Regolo 模型

2.1 进入模型设置页面

2.2 添加新模型

2.3 选择 Regolo 服务商

2.4 填写配置信息

基础配置

高级配置（可选）

2.5 测试连接

2.6 保存配置

3. 使用模型

4. 支持的模型列表

4.1 DeepSeek 系列

4.2 Llama 系列

4.3 Qwen 系列

4.4 Mistral 系列

4.5 Google Gemma 系列

4.6 开源社区模型

4.7 Regolo 原创

5. 常见问题

5.1 API Key 无效

5.2 模型不可用

5.3 请求超时

5.4 配额限制

Regolo 平台特点

5.5 企业级服务

5.6 模型丰富

5.7 性能优化

5.8 数据安全

定价说明

使用建议

5.9 模型选择

5.10 成本优化

相关链接

适用场景

5.1 企业应用

5.2 开发者

5.3 私有化需求