配置 Regolo
Regolo 是本地模型服務,整合了全球主流大模型服務商的 API 介面。提供統一的接入方式、靈活的計費模式和高可用性保障,簡化多模型設定和切換。
1. 獲取 Regolo API Key
1.1 訪問 Regolo 平臺
訪問 Regolo AI 平臺並註冊登入:https://api.regolo.ai/

1.2 進入 Virtual Keys 管理頁面
登入後,在左側選單欄點選 Virtual Keys 進入 API 金鑰管理頁面。

1.3 建立新的 API Key
點選右上角的 Create Key 按鈕,開啟建立對話方塊。

1.4 配置 API Key 資訊
在 Create Key 對話方塊中配置以下資訊:
1.4.1 設定 Key Alias(金鑰別名)
輸入一個便於識別的名稱,例如 CueMate。
命名建議:
- 使用專案名稱或用途作為字首
- 區分開發/測試/生產環境(如
CueMate-Dev、CueMate-Prod) - 避免包含敏感資訊
1.4.2 選擇授權模型(Models)
點選 Models 下拉框,選擇該 API Key 可以訪問的模型:
可選模式:
- All models:授權訪問所有模型(推薦用於生產環境)
- 指定模型:僅授權訪問特定模型(推薦用於開發測試)
模型選擇建議:
- 生產環境:選擇 "All models" 以便靈活切換
- 開發環境:僅選擇需要測試的模型,降低誤用風險
- 按需授權:根據實際業務場景選擇對應模型
當前可選的 LLM 模型:
deepseek-r1-70b:DeepSeek R1 推理模型(最大 64K tokens)llama-guard3-8b:Llama Guard 3 安全稽覈模型qwen3-30b:Qwen3 30B 通用模型(最大 32K tokens)qwen3-coder-30b:Qwen3 程式碼專用模型(最大 256K tokens)mistral-small3.2:Mistral Small 3.2 輕量模型(最大 32K tokens)gpt-oss-120b:開源 GPT 120B 大模型Llama-3.3-70B-Instruct:Llama 3.3 最新版本Llama-3.1-8B-Instruct:Llama 3.1 8B 高價效比maestrale-chat-v0.4-beta:Regolo 原創對話模型Qwen3-8B:Qwen3 8B 輕量模型(最大 32K tokens)gemma-3-27b-it:Google Gemma 3 27B(最大 128K tokens)
1.4.3 設定速率限制(Rate Limits)
點選 Edit Limits 按鈕,可配置該 API Key 的請求速率限制:
- RPM(Requests Per Minute):每分鐘請求數
- TPM(Tokens Per Minute):每分鐘 token 數
- RPD(Requests Per Day):每天請求數
速率限制建議:
- 開發測試:RPM=60, TPM=100000, RPD=10000
- 生產環境:根據實際業務量設定,避免意外超額
1.4.4 完成建立
配置完成後,點選 Save 按鈕。

1.5 儲存 API Key
建立成功後,系統會顯示 API Key。
重要提示:
- API Key 僅顯示一次,關閉對話方塊後無法再次檢視
- 請立即複製並儲存到安全的位置(如密碼管理器)
- 如果遺失,需要刪除舊的 Key 並重新建立

儲存方式推薦:
- 點選複製按鈕,API Key 已複製到剪貼簿
- 貼上到密碼管理器(如 1Password、Bitwarden)
- 或儲存到安全的文字檔案中,並妥善保管(不要分享給他人)
1.6 驗證 API Key
在 Virtual Keys 列表中可以看到剛建立的 Key:
- 狀態:顯示 Key 是否啟用
- 授權模型:顯示可訪問的模型列表
- 建立時間:記錄建立日期
- 操作:可以編輯限制或刪除 Key
2. 在 CueMate 中配置 Regolo 模型
2.1 進入模型設定頁面
登入 CueMate 系統後,點選右上角下拉選單的 模型設定。

2.2 新增新模型
點選右上角的 新增模型 按鈕。

2.3 選擇 Regolo 服務商
在彈出的對話方塊中:
- 服務商型別:選擇 Regolo
- 點選後 自動進入下一步

2.4 填寫配置資訊
在配置頁面填寫以下資訊:
基礎配置
- 模型名稱:為這個模型配置起個名字(例如:Regolo Phi-4)
- API URL:保持預設
https://api.regolo.ai/v1 - API Key:貼上 Regolo 的 API Key
- 模型版本:選擇或輸入要使用的模型
- Microsoft 系列:
Phi-4:Microsoft Phi-4,輕量高效
- DeepSeek R1 系列:
DeepSeek-R1-Distill-Qwen-32B:DeepSeek R1 蒸餾版 32BDeepSeek-R1-Distill-Qwen-14B:DeepSeek R1 蒸餾版 14BDeepSeek-R1-Distill-Qwen-7B:DeepSeek R1 蒸餾版 7BDeepSeek-R1-Distill-Llama-8B:DeepSeek R1 Llama 8B
- Regolo 原創:
maestrale-chat-v0.4-beta:Maestrale 對話模型
- Llama 系列:
Llama-3.3-70B-Instruct:Llama 3.3 70B 指令版Llama-3.1-70B-Instruct:Llama 3.1 70B 指令版Llama-3.1-8B-Instruct:Llama 3.1 8B 指令版
- DeepSeek Coder:
DeepSeek-Coder-6.7B-Instruct:DeepSeek Coder 6.7B
- Qwen 系列:
Qwen2.5-72B-Instruct:Qwen 2.5 72B 指令版
- Microsoft 系列:

高階配置(可選)
展開 高階配置 面板,可以調整以下引數:
CueMate 介面可調引數:
溫度(temperature):控制輸出隨機性
- 範圍:0-2(不同模型上限不同)
- 推薦值:0.7
- 作用:值越高輸出越隨機創新,值越低輸出越穩定保守
- 使用建議:
- 創意寫作/頭腦風暴:1.0-1.5
- 常規對話/問答:0.7-0.9
- 程式碼生成/精確任務:0.3-0.5
輸出最大 tokens(max_tokens):限制單次輸出長度
- 範圍:256 - 262144(根據模型而定)
- 推薦值:8192
- 作用:控制模型單次響應的最大字數
- 模型限制:
- deepseek-r1-70b:最大 64K tokens
- gemma-3-27b-it:最大 128K tokens
- qwen3-coder-30b:最大 256K tokens
- 其他模型:8K-32K tokens
- 使用建議:
- 簡短問答:1024-2048
- 常規對話:4096-8192
- 長文生成:16384-32768
- 超長文件:65536+(僅支援的模型)

Regolo API 支援的其他高階引數:
雖然 CueMate 介面只提供 temperature 和 max_tokens 調整,但如果你透過 API 直接呼叫 Regolo,還可以使用以下高階引數(Regolo 採用 OpenAI 相容的 API 格式):
top_p(nucleus sampling)
- 範圍:0-1
- 預設值:0.9
- 作用:從機率累積達到 p 的最小候選集中取樣
- 與 temperature 的關係:通常只調整其中一個
- 使用建議:
- 保持多樣性但避免離譜:0.9-0.95
- 更保守的輸出:0.7-0.8
top_k
- 範圍:1-100
- 預設值:50
- 作用:從機率最高的 k 個候選詞中取樣
- 使用建議:
- 更多樣化:50-100
- 更保守:10-30
frequency_penalty
- 範圍:-2.0 到 2.0
- 預設值:0
- 作用:降低重複相同詞彙的機率(基於頻率)
- 使用建議:
- 減少重複:0.3-0.8
- 允許重複:0(預設)
- 強制多樣化:1.0-2.0
presence_penalty
- 範圍:-2.0 到 2.0
- 預設值:0
- 作用:降低已出現過的詞彙再次出現的機率(基於是否出現)
- 使用建議:
- 鼓勵新話題:0.3-0.8
- 允許重複話題:0(預設)
stop(停止序列)
- 型別:字串陣列
- 預設值:null
- 作用:當生成內容包含指定字串時停止
- 示例:
["###", "使用者:", "\n\n"] - 使用場景:
- 結構化輸出:使用分隔符控制格式
- 對話系統:防止模型代替使用者說話
stream(流式輸出)
- 型別:布林值
- 預設值:false
- 作用:啟用 SSE 流式返回,邊生成邊返回
- CueMate 中:自動處理,無需手動設定
seed(隨機種子)
- 型別:整數
- 預設值:null
- 作用:固定隨機種子,相同輸入產生相同輸出
- 使用場景:
- 可復現的測試
- 對比實驗
- 注意:不是所有模型都支援
| 序號 | 場景 | temperature | max_tokens | top_p | frequency_penalty | presence_penalty |
|---|---|---|---|---|---|---|
| 1 | 創意寫作 | 1.0-1.2 | 4096-8192 | 0.95 | 0.5 | 0.5 |
| 2 | 程式碼生成 | 0.2-0.5 | 2048-4096 | 0.9 | 0.0 | 0.0 |
| 3 | 問答系統 | 0.7 | 1024-2048 | 0.9 | 0.0 | 0.0 |
| 4 | 摘要總結 | 0.3-0.5 | 512-1024 | 0.9 | 0.0 | 0.0 |
| 5 | 頭腦風暴 | 1.2-1.5 | 2048-4096 | 0.95 | 0.8 | 0.8 |
2.5 測試連線
填寫完配置後,點選 測試連線 按鈕,驗證配置是否正確。

如果配置正確,會顯示測試成功的提示,並返回模型的響應示例。

如果配置錯誤,會顯示測試錯誤的日誌,並且可以透過日誌管理,檢視具體報錯資訊。
2.6 儲存配置
測試成功後,點選 儲存 按鈕,完成模型配置。

3. 使用模型
透過右上角下拉選單,進入系統設定介面,在大模型服務商欄目選擇想要使用的模型配置。
配置完成後,可以在面試訓練、問題生成等功能中選擇使用此模型, 當然也可以在面試的選項中單此選擇此次面試的模型配置。

4. 支援的模型列表
4.1 DeepSeek 系列
| 序號 | 模型名稱 | 模型 ID | 引數量 | 最大輸出 | 適用場景 |
|---|---|---|---|---|---|
| 1 | DeepSeek R1 70B | deepseek-r1-70b | 70B | 64K tokens | 推理增強、複雜任務、超長上下文 |
4.2 Llama 系列
| 序號 | 模型名稱 | 模型 ID | 引數量 | 最大輸出 | 適用場景 |
|---|---|---|---|---|---|
| 1 | Llama Guard 3 8B | llama-guard3-8b | 8B | 8K tokens | 內容安全稽覈、風險檢測 |
| 2 | Llama 3.3 70B | Llama-3.3-70B-Instruct | 70B | 8K tokens | 最新版本、高效能通用任務 |
| 3 | Llama 3.1 8B | Llama-3.1-8B-Instruct | 8B | 8K tokens | 標準任務、高價效比 |
4.3 Qwen 系列
| 序號 | 模型名稱 | 模型 ID | 引數量 | 最大輸出 | 適用場景 |
|---|---|---|---|---|---|
| 1 | Qwen3 30B | qwen3-30b | 30B | 32K tokens | 通用對話、長文字處理 |
| 2 | Qwen3 8B | Qwen3-8B | 8B | 32K tokens | 輕量高效、快速響應 |
| 3 | Qwen3 Coder 30B | qwen3-coder-30b | 30B | 256K tokens | 程式碼生成、超長程式碼上下文 |
4.4 Mistral 系列
| 序號 | 模型名稱 | 模型 ID | 引數量 | 最大輸出 | 適用場景 |
|---|---|---|---|---|---|
| 1 | Mistral Small 3.2 | mistral-small3.2 | - | 32K tokens | 輕量模型、多語言支援 |
4.5 Google Gemma 系列
| 序號 | 模型名稱 | 模型 ID | 引數量 | 最大輸出 | 適用場景 |
|---|---|---|---|---|---|
| 1 | Gemma 3 27B | gemma-3-27b-it | 27B | 128K tokens | 超長上下文、文件分析 |
4.6 開源社羣模型
| 序號 | 模型名稱 | 模型 ID | 引數量 | 最大輸出 | 適用場景 |
|---|---|---|---|---|---|
| 1 | GPT OSS 120B | gpt-oss-120b | 120B | 8K tokens | 開源超大模型、實驗性任務 |
4.7 Regolo 原創
| 序號 | 模型名稱 | 模型 ID | 引數量 | 最大輸出 | 適用場景 |
|---|---|---|---|---|---|
| 1 | Maestrale Chat v0.4 | maestrale-chat-v0.4-beta | - | 8K tokens | 對話最佳化、多語言(義大利語增強) |
5. 常見問題
5.1 API Key 無效
現象:測試連線時提示 API Key 錯誤
解決方案:
- 檢查 API Key 是否完整複製
- 確認 API Key 未過期或被禁用
- 驗證 API Key 許可權設定正確
5.2 模型不可用
現象:提示模型不存在或未授權
解決方案:
- 確認模型 ID 拼寫正確
- 檢查賬戶是否有該模型的訪問許可權
- 驗證賬戶餘額充足
5.3 請求超時
現象:測試連線或使用時長時間無響應
解決方案:
- 檢查網路連線是否正常
- 確認 API URL 配置正確
- 檢查防火牆設定
5.4 配額限制
現象:提示超出請求配額
解決方案:
- 登入 Regolo 平臺檢視配額使用情況
- 充值或申請更多配額
- 最佳化使用頻率
5.5 企業級服務
- 高可用性保障
- 專業技術支援
- 靈活的定價方案
5.6 模型豐富
- 支援多種主流開源模型
- Regolo 原創最佳化模型
- 持續更新最新模型
5.7 效能最佳化
- 分散式推理叢集
- 低延遲響應
- 高併發支援
5.8 資料安全
- 資料加密傳輸
- 隱私保護機制
- 合規認證
Regolo 採用按使用量計費模式:
| 模型級別 | 輸入價格 | 輸出價格 | 單位 |
|---|---|---|---|
| 輕量級(<10B) | ¥0.001 | ¥0.003 | /1K tokens |
| 標準級(10B-30B) | ¥0.003 | ¥0.009 | /1K tokens |
| 高效能(>30B) | ¥0.006 | ¥0.018 | /1K tokens |
注意:具體價格以 Regolo 官網為準。
5.9 模型選擇
- 開發測試:使用 7B-14B 引數的模型,成本低
- 生產環境:根據效能需求選擇 32B-70B 模型
- 程式碼生成:優先選擇 DeepSeek Coder 系列
- 通用對話:推薦 Llama 3.3 或 Qwen 2.5 系列
5.10 成本最佳化
- 合理設定
max_tokens引數 - 使用快取減少重複請求
- 選擇合適引數量的模型
- 監控 API 使用量
相關連結
5.1 企業應用
- 內部知識庫問答
- 客戶服務自動化
- 文件生成與處理
5.2 開發者
- 應用原型開發
- AI 功能整合
- 演算法驗證測試
5.3 私有化需求
- 支援私有化部署方案
- 定製化模型訓練
- 專屬技術支援
