Skip to content
Regolo

配置 Regolo

Regolo 是本地模型服務,整合了全球主流大模型服務商的 API 介面。提供統一的接入方式、靈活的計費模式和高可用性保障,簡化多模型設定和切換。

1. 獲取 Regolo API Key

1.1 訪問 Regolo 平臺

訪問 Regolo AI 平臺並註冊登入:https://api.regolo.ai/

訪問 Regolo 平臺

1.2 進入 Virtual Keys 管理頁面

登入後,在左側選單欄點選 Virtual Keys 進入 API 金鑰管理頁面。

進入 Virtual Keys

1.3 建立新的 API Key

點選右上角的 Create Key 按鈕,開啟建立對話方塊。

點選建立按鈕

1.4 配置 API Key 資訊

Create Key 對話方塊中配置以下資訊:

1.4.1 設定 Key Alias(金鑰別名)

輸入一個便於識別的名稱,例如 CueMate

命名建議:

  • 使用專案名稱或用途作為字首
  • 區分開發/測試/生產環境(如 CueMate-DevCueMate-Prod
  • 避免包含敏感資訊

1.4.2 選擇授權模型(Models)

點選 Models 下拉框,選擇該 API Key 可以訪問的模型:

可選模式:

  1. All models:授權訪問所有模型(推薦用於生產環境)
  2. 指定模型:僅授權訪問特定模型(推薦用於開發測試)

模型選擇建議:

  • 生產環境:選擇 "All models" 以便靈活切換
  • 開發環境:僅選擇需要測試的模型,降低誤用風險
  • 按需授權:根據實際業務場景選擇對應模型

當前可選的 LLM 模型:

  • deepseek-r1-70b:DeepSeek R1 推理模型(最大 64K tokens)
  • llama-guard3-8b:Llama Guard 3 安全稽覈模型
  • qwen3-30b:Qwen3 30B 通用模型(最大 32K tokens)
  • qwen3-coder-30b:Qwen3 程式碼專用模型(最大 256K tokens)
  • mistral-small3.2:Mistral Small 3.2 輕量模型(最大 32K tokens)
  • gpt-oss-120b:開源 GPT 120B 大模型
  • Llama-3.3-70B-Instruct:Llama 3.3 最新版本
  • Llama-3.1-8B-Instruct:Llama 3.1 8B 高價效比
  • maestrale-chat-v0.4-beta:Regolo 原創對話模型
  • Qwen3-8B:Qwen3 8B 輕量模型(最大 32K tokens)
  • gemma-3-27b-it:Google Gemma 3 27B(最大 128K tokens)

1.4.3 設定速率限制(Rate Limits)

點選 Edit Limits 按鈕,可配置該 API Key 的請求速率限制:

  • RPM(Requests Per Minute):每分鐘請求數
  • TPM(Tokens Per Minute):每分鐘 token 數
  • RPD(Requests Per Day):每天請求數

速率限制建議:

  • 開發測試:RPM=60, TPM=100000, RPD=10000
  • 生產環境:根據實際業務量設定,避免意外超額

1.4.4 完成建立

配置完成後,點選 Save 按鈕。

設定 API Key 資訊

1.5 儲存 API Key

建立成功後,系統會顯示 API Key。

重要提示:

  • API Key 僅顯示一次,關閉對話方塊後無法再次檢視
  • 立即複製並儲存到安全的位置(如密碼管理器)
  • 如果遺失,需要刪除舊的 Key 並重新建立

複製 API Key

儲存方式推薦:

  1. 點選複製按鈕,API Key 已複製到剪貼簿
  2. 貼上到密碼管理器(如 1Password、Bitwarden)
  3. 或儲存到安全的文字檔案中,並妥善保管(不要分享給他人)

1.6 驗證 API Key

在 Virtual Keys 列表中可以看到剛建立的 Key:

  • 狀態:顯示 Key 是否啟用
  • 授權模型:顯示可訪問的模型列表
  • 建立時間:記錄建立日期
  • 操作:可以編輯限制或刪除 Key

2. 在 CueMate 中配置 Regolo 模型

2.1 進入模型設定頁面

登入 CueMate 系統後,點選右上角下拉選單的 模型設定

進入模型設定

2.2 新增新模型

點選右上角的 新增模型 按鈕。

點選新增模型

2.3 選擇 Regolo 服務商

在彈出的對話方塊中:

  1. 服務商型別:選擇 Regolo
  2. 點選後 自動進入下一步

選擇 Regolo

2.4 填寫配置資訊

在配置頁面填寫以下資訊:

基礎配置

  1. 模型名稱:為這個模型配置起個名字(例如:Regolo Phi-4)
  2. API URL:保持預設 https://api.regolo.ai/v1
  3. API Key:貼上 Regolo 的 API Key
  4. 模型版本:選擇或輸入要使用的模型
    • Microsoft 系列
      • Phi-4:Microsoft Phi-4,輕量高效
    • DeepSeek R1 系列
      • DeepSeek-R1-Distill-Qwen-32B:DeepSeek R1 蒸餾版 32B
      • DeepSeek-R1-Distill-Qwen-14B:DeepSeek R1 蒸餾版 14B
      • DeepSeek-R1-Distill-Qwen-7B:DeepSeek R1 蒸餾版 7B
      • DeepSeek-R1-Distill-Llama-8B:DeepSeek R1 Llama 8B
    • Regolo 原創
      • maestrale-chat-v0.4-beta:Maestrale 對話模型
    • Llama 系列
      • Llama-3.3-70B-Instruct:Llama 3.3 70B 指令版
      • Llama-3.1-70B-Instruct:Llama 3.1 70B 指令版
      • Llama-3.1-8B-Instruct:Llama 3.1 8B 指令版
    • DeepSeek Coder
      • DeepSeek-Coder-6.7B-Instruct:DeepSeek Coder 6.7B
    • Qwen 系列
      • Qwen2.5-72B-Instruct:Qwen 2.5 72B 指令版

填寫基礎配置

高階配置(可選)

展開 高階配置 面板,可以調整以下引數:

CueMate 介面可調引數:

  1. 溫度(temperature):控制輸出隨機性

    • 範圍:0-2(不同模型上限不同)
    • 推薦值:0.7
    • 作用:值越高輸出越隨機創新,值越低輸出越穩定保守
    • 使用建議
      • 創意寫作/頭腦風暴:1.0-1.5
      • 常規對話/問答:0.7-0.9
      • 程式碼生成/精確任務:0.3-0.5
  2. 輸出最大 tokens(max_tokens):限制單次輸出長度

    • 範圍:256 - 262144(根據模型而定)
    • 推薦值:8192
    • 作用:控制模型單次響應的最大字數
    • 模型限制
      • deepseek-r1-70b:最大 64K tokens
      • gemma-3-27b-it:最大 128K tokens
      • qwen3-coder-30b:最大 256K tokens
      • 其他模型:8K-32K tokens
    • 使用建議
      • 簡短問答:1024-2048
      • 常規對話:4096-8192
      • 長文生成:16384-32768
      • 超長文件:65536+(僅支援的模型)

高階配置

Regolo API 支援的其他高階引數:

雖然 CueMate 介面只提供 temperature 和 max_tokens 調整,但如果你透過 API 直接呼叫 Regolo,還可以使用以下高階引數(Regolo 採用 OpenAI 相容的 API 格式):

  1. top_p(nucleus sampling)

    • 範圍:0-1
    • 預設值:0.9
    • 作用:從機率累積達到 p 的最小候選集中取樣
    • 與 temperature 的關係:通常只調整其中一個
    • 使用建議
      • 保持多樣性但避免離譜:0.9-0.95
      • 更保守的輸出:0.7-0.8
  2. top_k

    • 範圍:1-100
    • 預設值:50
    • 作用:從機率最高的 k 個候選詞中取樣
    • 使用建議
      • 更多樣化:50-100
      • 更保守:10-30
  3. frequency_penalty

    • 範圍:-2.0 到 2.0
    • 預設值:0
    • 作用:降低重複相同詞彙的機率(基於頻率)
    • 使用建議
      • 減少重複:0.3-0.8
      • 允許重複:0(預設)
      • 強制多樣化:1.0-2.0
  4. presence_penalty

    • 範圍:-2.0 到 2.0
    • 預設值:0
    • 作用:降低已出現過的詞彙再次出現的機率(基於是否出現)
    • 使用建議
      • 鼓勵新話題:0.3-0.8
      • 允許重複話題:0(預設)
  5. stop(停止序列)

    • 型別:字串陣列
    • 預設值:null
    • 作用:當生成內容包含指定字串時停止
    • 示例["###", "使用者:", "\n\n"]
    • 使用場景
      • 結構化輸出:使用分隔符控制格式
      • 對話系統:防止模型代替使用者說話
  6. stream(流式輸出)

    • 型別:布林值
    • 預設值:false
    • 作用:啟用 SSE 流式返回,邊生成邊返回
    • CueMate 中:自動處理,無需手動設定
  7. seed(隨機種子)

    • 型別:整數
    • 預設值:null
    • 作用:固定隨機種子,相同輸入產生相同輸出
    • 使用場景
      • 可復現的測試
      • 對比實驗
    • 注意:不是所有模型都支援
序號場景temperaturemax_tokenstop_pfrequency_penaltypresence_penalty
1創意寫作1.0-1.24096-81920.950.50.5
2程式碼生成0.2-0.52048-40960.90.00.0
3問答系統0.71024-20480.90.00.0
4摘要總結0.3-0.5512-10240.90.00.0
5頭腦風暴1.2-1.52048-40960.950.80.8

2.5 測試連線

填寫完配置後,點選 測試連線 按鈕,驗證配置是否正確。

測試連線

如果配置正確,會顯示測試成功的提示,並返回模型的響應示例。

測試成功

如果配置錯誤,會顯示測試錯誤的日誌,並且可以透過日誌管理,檢視具體報錯資訊。

2.6 儲存配置

測試成功後,點選 儲存 按鈕,完成模型配置。

儲存配置

3. 使用模型

透過右上角下拉選單,進入系統設定介面,在大模型服務商欄目選擇想要使用的模型配置。

配置完成後,可以在面試訓練、問題生成等功能中選擇使用此模型, 當然也可以在面試的選項中單此選擇此次面試的模型配置。

選擇模型

4. 支援的模型列表

4.1 DeepSeek 系列

序號模型名稱模型 ID引數量最大輸出適用場景
1DeepSeek R1 70Bdeepseek-r1-70b70B64K tokens推理增強、複雜任務、超長上下文

4.2 Llama 系列

序號模型名稱模型 ID引數量最大輸出適用場景
1Llama Guard 3 8Bllama-guard3-8b8B8K tokens內容安全稽覈、風險檢測
2Llama 3.3 70BLlama-3.3-70B-Instruct70B8K tokens最新版本、高效能通用任務
3Llama 3.1 8BLlama-3.1-8B-Instruct8B8K tokens標準任務、高價效比

4.3 Qwen 系列

序號模型名稱模型 ID引數量最大輸出適用場景
1Qwen3 30Bqwen3-30b30B32K tokens通用對話、長文字處理
2Qwen3 8BQwen3-8B8B32K tokens輕量高效、快速響應
3Qwen3 Coder 30Bqwen3-coder-30b30B256K tokens程式碼生成、超長程式碼上下文

4.4 Mistral 系列

序號模型名稱模型 ID引數量最大輸出適用場景
1Mistral Small 3.2mistral-small3.2-32K tokens輕量模型、多語言支援

4.5 Google Gemma 系列

序號模型名稱模型 ID引數量最大輸出適用場景
1Gemma 3 27Bgemma-3-27b-it27B128K tokens超長上下文、文件分析

4.6 開源社羣模型

序號模型名稱模型 ID引數量最大輸出適用場景
1GPT OSS 120Bgpt-oss-120b120B8K tokens開源超大模型、實驗性任務

4.7 Regolo 原創

序號模型名稱模型 ID引數量最大輸出適用場景
1Maestrale Chat v0.4maestrale-chat-v0.4-beta-8K tokens對話最佳化、多語言(義大利語增強)

5. 常見問題

5.1 API Key 無效

現象:測試連線時提示 API Key 錯誤

解決方案

  1. 檢查 API Key 是否完整複製
  2. 確認 API Key 未過期或被禁用
  3. 驗證 API Key 許可權設定正確

5.2 模型不可用

現象:提示模型不存在或未授權

解決方案

  1. 確認模型 ID 拼寫正確
  2. 檢查賬戶是否有該模型的訪問許可權
  3. 驗證賬戶餘額充足

5.3 請求超時

現象:測試連線或使用時長時間無響應

解決方案

  1. 檢查網路連線是否正常
  2. 確認 API URL 配置正確
  3. 檢查防火牆設定

5.4 配額限制

現象:提示超出請求配額

解決方案

  1. 登入 Regolo 平臺檢視配額使用情況
  2. 充值或申請更多配額
  3. 最佳化使用頻率

5.5 企業級服務

  • 高可用性保障
  • 專業技術支援
  • 靈活的定價方案

5.6 模型豐富

  • 支援多種主流開源模型
  • Regolo 原創最佳化模型
  • 持續更新最新模型

5.7 效能最佳化

  • 分散式推理叢集
  • 低延遲響應
  • 高併發支援

5.8 資料安全

  • 資料加密傳輸
  • 隱私保護機制
  • 合規認證

Regolo 採用按使用量計費模式:

模型級別輸入價格輸出價格單位
輕量級(<10B)¥0.001¥0.003/1K tokens
標準級(10B-30B)¥0.003¥0.009/1K tokens
高效能(>30B)¥0.006¥0.018/1K tokens

注意:具體價格以 Regolo 官網為準。

5.9 模型選擇

  1. 開發測試:使用 7B-14B 引數的模型,成本低
  2. 生產環境:根據效能需求選擇 32B-70B 模型
  3. 程式碼生成:優先選擇 DeepSeek Coder 系列
  4. 通用對話:推薦 Llama 3.3 或 Qwen 2.5 系列

5.10 成本最佳化

  1. 合理設定 max_tokens 引數
  2. 使用快取減少重複請求
  3. 選擇合適引數量的模型
  4. 監控 API 使用量

相關連結

5.1 企業應用

  • 內部知識庫問答
  • 客戶服務自動化
  • 文件生成與處理

5.2 開發者

  • 應用原型開發
  • AI 功能整合
  • 演算法驗證測試

5.3 私有化需求

  • 支援私有化部署方案
  • 定製化模型訓練
  • 專屬技術支援

Released under the GPL-3.0 License.