Skip to content
Ollama

配置 Ollama

Ollama 是一個輕量級本地大模型執行框架,支援在個人電腦上快速部署和執行開源大語言模型。提供簡單的命令列工具和 API 介面,讓本地 AI 部署變得簡單高效。

1. 安裝 Ollama

1.1 下載 Ollama

訪問 Ollama 官網下載對應系統的安裝包:https://ollama.com/

訪問 Ollama 官網

1.2 安裝 Ollama

下載對應系統的安裝包並執行安裝程式:

  • macOS:下載 .dmg 檔案,拖拽到 Applications 資料夾
  • Windows:下載 .exe 安裝包,雙擊執行安裝
  • Linux:下載對應發行版的安裝包(.deb / .rpm)或使用包管理器安裝

安裝 Ollama

1.3 驗證安裝

開啟終端,執行以下命令驗證安裝:

bash
ollama --version

驗證安裝

1.4 選擇模型

在 CueMate 的模型選擇介面,你可以看到兩種型別的模型:

  • 雲端模型(名稱包含 -cloud):

    • 無需下載,直接透過網路呼叫
    • 示例:deepseek-v3.1:671b-cloudqwen3-coder:480b-cloudglm-4.6:cloud
    • 優勢:無需本地儲存空間,支援超大引數模型(如 671B)
  • 本地模型(標記 ↓,無 -cloud 字尾):

    • 首次選擇時會自動下載到本地
    • 示例:gpt-oss:120bgemma3:27bdeepseek-r1:8bqwen3:8b
    • 優勢:執行速度快,無需網路連線,資料隱私性高

模型選擇介面

1.5 雲端模型配置(使用雲端模型必做)

如果你選擇使用雲端模型(如 deepseek-v3.1:671b-cloud),需要先在 Ollama 官網建立模型:

1.5.1 訪問 Ollama 官網

訪問 https://ollama.com/ 並登入或註冊賬號。

1.5.2 建立雲端模型

  1. 登入後,點選 Models 選單
  2. 點選 Create a new model 按鈕
  3. 填寫模型名稱(例如:CueMate)
  4. 選擇 Private(私有)或 Public(公開)
  5. 點選 Create model 完成建立

建立模型步驟 1

建立後會進入模型詳情頁:

建立模型步驟 2

1.5.3 推送模型到雲端

建立模型後,頁面會顯示推送命令。有兩種方式:

方式一:基於現有模型建立並推送

bash
# 1. 拉取基礎模型
ollama pull llama3.2

# 2. 建立 Modelfile
echo "FROM llama3.2" >> Modelfile
echo "SYSTEM You are a friendly assistant." >> Modelfile

# 3. 建立自定義模型
ollama create -f Modelfile 你的使用者名稱/CueMate

# 4. 推送到雲端
ollama push 你的使用者名稱/CueMate

方式二:直接複製現有模型並推送

bash
# 複製現有模型
ollama cp llama3.2 你的使用者名稱/CueMate

# 推送到雲端
ollama push 你的使用者名稱/CueMate

模型推送說明

1.5.4 檢視雲端模型地址

推送成功後,頁面會顯示你的雲端模型訪問地址:

You can find your model at:
https://ollama.com/你的使用者名稱/CueMate

這個地址就是你的雲端模型連結,可以分享給其他人使用。

1.5.5 獲取 API Key(在 CueMate 中使用)

在 CueMate 中配置雲端模型時需要 API Key:

  1. 訪問 Ollama 官網設定頁面:https://ollama.com/settings/keys
  2. 點選 Create new key 建立新的 API Key
  3. 複製生成的 API Key 儲存備用

API Key

在 CueMate 中配置時填寫:

  • 模型名稱你的使用者名稱/CueMate(雲端模型無需新增 :cloud 字尾)
  • API URLhttps://ollama.com
  • API Key:剛才建立的 API Key

1.6 本地模型配置(使用本地模型必做)

如果你選擇使用本地模型(如 gemma3:12bdeepseek-r1:8b),需要啟動本地 Ollama 服務:

  • Ollama 安裝後會自動啟動服務,預設監聽 http://localhost:11434
  • 驗證服務是否執行:
    bash
    curl http://localhost:11434/api/version
  • 本地模型首次使用時會自動下載

2. 在 CueMate 中配置 Ollama 模型

2.1 進入模型設定頁面

登入 CueMate 系統後,點選右上角下拉選單的 模型設定

進入模型設定

2.2 新增新模型

點選右上角的 新增模型 按鈕。

點選新增模型

2.3 選擇 Ollama 服務商

在彈出的對話方塊中:

  1. 服務商型別:選擇 Ollama
  2. 點選後 自動進入下一步

選擇 Ollama

2.4 填寫配置資訊

在配置頁面填寫以下資訊:

基礎配置

  1. 模型名稱:為這個模型配置起個名字(例如:本地 DeepSeek R1)
  2. API URL:保持預設 http://localhost:11434(如果 Ollama 執行在其他地址,需修改)
  3. 模型版本:輸入已下載的模型名稱

2025 推薦模型

  • 雲端模型deepseek-v3.1:671b-cloudqwen3-coder:480b-cloudqwen3-vl:235b-cloudglm-4.6:cloudminimax-m2:cloud
  • 本地模型gpt-oss:120bgemma3:27bgemma3:12bdeepseek-r1:8bqwen3-coder:30bqwen3-vl:30bqwen3:30bqwen3:8b

注意:本地模型首次使用時會自動下載,雲端模型無需下載。

填寫基礎配置

高階配置(可選)

展開 高階配置 面板,可以調整以下引數:

CueMate 介面可調引數:

  1. 溫度(temperature):控制輸出隨機性

    • 範圍:0-2
    • 推薦值:0.7
    • 作用:值越高輸出越隨機創新,值越低輸出越穩定保守
    • 使用建議
      • 創意寫作/頭腦風暴:1.0-1.5
      • 常規對話/問答:0.7-0.9
      • 程式碼生成/精確任務:0.3-0.5
  2. 輸出最大 tokens(max_tokens):限制單次輸出長度

    • 範圍:256 - 32768(根據模型而定)
    • 推薦值:8192
    • 作用:控制模型單次響應的最大字數
    • 使用建議
      • 簡短問答:1024-2048
      • 常規對話:4096-8192
      • 長文生成:16384-32768

高階配置

Ollama API 支援的其他高階引數:

雖然 CueMate 介面只提供 temperature 和 max_tokens 調整,但如果你透過 API 直接呼叫 Ollama,還可以使用以下高階引數(Ollama 採用 OpenAI 相容的 API 格式):

  1. top_p(nucleus sampling)

    • 範圍:0-1
    • 預設值:1
    • 作用:從機率累積達到 p 的最小候選集中取樣
    • 與 temperature 的關係:通常只調整其中一個
    • 使用建議
      • 保持多樣性但避免離譜:0.9-0.95
      • 更保守的輸出:0.7-0.8
  2. top_k

    • 範圍:0-100
    • 預設值:40
    • 作用:從機率最高的 k 個候選詞中取樣
    • 使用建議
      • 更多樣化:50-100
      • 更保守:10-30
  3. frequency_penalty(頻率懲罰)

    • 範圍:-2.0 到 2.0
    • 預設值:0
    • 作用:降低重複相同詞彙的機率(基於詞頻)
    • 使用建議
      • 減少重複:0.3-0.8
      • 允許重複:0(預設)
  4. presence_penalty(存在懲罰)

    • 範圍:-2.0 到 2.0
    • 預設值:0
    • 作用:降低已出現過的詞彙再次出現的機率(基於是否出現)
    • 使用建議
      • 鼓勵新話題:0.3-0.8
      • 允許重複話題:0(預設)
  5. stop(停止序列)

    • 型別:字串或陣列
    • 預設值:null
    • 作用:當生成內容包含指定字串時停止
    • 示例["###", "使用者:", "\n\n"]
    • 使用場景
      • 結構化輸出:使用分隔符控制格式
      • 對話系統:防止模型代替使用者說話
  6. stream(流式輸出)

    • 型別:布林值
    • 預設值:false
    • 作用:啟用 SSE 流式返回,邊生成邊返回
    • CueMate 中:自動處理,無需手動設定
  7. seed(隨機種子)

    • 型別:整數
    • 預設值:null
    • 作用:固定隨機種子,相同輸入產生相同輸出
    • 使用場景
      • 可復現的測試
      • 對比實驗
序號場景temperaturemax_tokenstop_ptop_kfrequency_penaltypresence_penalty
1創意寫作1.0-1.24096-81920.95500.50.5
2程式碼生成0.2-0.52048-40960.9400.00.0
3問答系統0.71024-20480.9400.00.0
4摘要總結0.3-0.5512-10240.9300.00.0
5頭腦風暴1.2-1.52048-40960.95600.80.8

2.5 測試連線

填寫完配置後,點選 測試連線 按鈕,驗證配置是否正確。

測試連線

如果配置正確,會顯示測試成功的提示,並返回模型的響應示例。

測試成功

如果配置錯誤,會顯示測試錯誤的日誌,並且可以透過日誌管理,檢視具體報錯資訊。

2.6 儲存配置

測試成功後,點選 儲存 按鈕,完成模型配置。

儲存配置

3. 使用模型

透過右上角下拉選單,進入系統設定介面,在大模型服務商欄目選擇想要使用的模型配置。

配置完成後,可以在面試訓練、問題生成等功能中選擇使用此模型, 當然也可以在面試的選項中單此選擇此次面試的模型配置。

選擇模型

4. 支援的模型列表

4.1 雲端模型(Cloud Models)

序號模型名稱模型 ID引數量特點
1GPT-OSS 120B Cloudgpt-oss:120b-cloud120B開源 GPT 雲端版
2GPT-OSS 20B Cloudgpt-oss:20b-cloud20B開源 GPT 雲端版
3DeepSeek V3.1deepseek-v3.1:671b-cloud671B超大規模推理模型
4Qwen3 Coderqwen3-coder:480b-cloud480B程式碼生成專用
5Qwen3 VLqwen3-vl:235b-cloud235B視覺語言模型
6MiniMax M2minimax-m2:cloud-MiniMax 雲端模型
7GLM-4.6glm-4.6:cloud-智譜 GLM 最新版

4.2 本地模型(Local Models)

GPT-OSS 系列

序號模型名稱模型 ID引數量適用場景
1GPT-OSS 120Bgpt-oss:120b120B開源 GPT 超大模型
2GPT-OSS 20Bgpt-oss:20b20B開源 GPT 中型模型

Gemma 3 系列(Google)

序號模型名稱模型 ID引數量適用場景
1Gemma3 27Bgemma3:27b27BGoogle 最新旗艦模型
2Gemma3 12Bgemma3:12b12B中等規模任務
3Gemma3 4Bgemma3:4b4B輕量級任務
4Gemma3 1Bgemma3:1b1B超輕量級

DeepSeek R1 系列

序號模型名稱模型 ID引數量適用場景
1DeepSeek R1 8Bdeepseek-r1:8b8B推理增強

Qwen 3 系列

序號模型名稱模型 ID引數量適用場景
1Qwen3 Coder 30Bqwen3-coder:30b30B程式碼生成
2Qwen3 VL 30Bqwen3-vl:30b30B視覺語言
3Qwen3 VL 8Bqwen3-vl:8b8B視覺語言
4Qwen3 VL 4Bqwen3-vl:4b4B視覺語言
5Qwen3 30Bqwen3:30b30B通用對話
6Qwen3 8Bqwen3:8b8B通用對話
7Qwen3 4Bqwen3:4b4B輕量級任務

5. 常見問題

5.1 Ollama 服務未啟動

現象:測試連線時提示連線失敗

解決方案

  1. 確認 Ollama 服務是否執行:ollama list
  2. 重啟 Ollama 服務
  3. 檢查埠 11434 是否被佔用:lsof -i :11434

5.2 模型未下載

現象:提示模型不存在

解決方案

  1. 使用 ollama list 檢視已下載的模型
  2. 使用 ollama pull <model-name> 下載模型
  3. 確認模型名稱拼寫正確

5.3 效能問題

現象:模型響應速度慢

解決方案

  1. 選擇引數量較小的模型(如 7B 而非 70B)
  2. 確保有足夠的 GPU 記憶體或系統記憶體
  3. 檢查系統資源使用情況

5.4 API URL 錯誤

現象:無法連線到 Ollama 服務

解決方案

  1. 確認 API URL 配置正確(預設 http://localhost:11434
  2. 如果 Ollama 執行在 Docker 中,使用容器的內部地址
  3. 檢查防火牆設定

5.5 模型選擇

  1. 開發測試:使用 7B-14B 引數的模型,響應快,資源消耗低
  2. 生產環境:根據效能需求選擇 14B-32B 引數的模型
  3. 資源受限:使用 0.5B-3B 引數的輕量級模型

5.6 硬體要求

模型引數最小記憶體推薦記憶體GPU
0.5B-3B4GB8GB可選
7B-14B8GB16GB推薦
32B-70B32GB64GB必需

相關連結

Released under the GPL-3.0 License.