配置 Ollama

Ollama 是一个轻量级本地大模型运行框架，支持在个人电脑上快速部署和运行开源大语言模型。提供简单的命令行工具和 API 接口，让本地 AI 部署变得简单高效。

1. 安装 Ollama

1.1 下载 Ollama

访问 Ollama 官网下载对应系统的安装包：https://ollama.com/

访问 Ollama 官网

1.2 安装 Ollama

下载对应系统的安装包并运行安装程序：

macOS：下载 .dmg 文件，拖拽到 Applications 文件夹
Windows：下载 .exe 安装包，双击运行安装
Linux：下载对应发行版的安装包（.deb / .rpm）或使用包管理器安装

安装 Ollama

1.3 验证安装

打开终端，运行以下命令验证安装：

bash

ollama --version

验证安装

1.4 选择模型

在 CueMate 的模型选择界面，你可以看到两种类型的模型：

云端模型（名称包含 -cloud）：
- 无需下载，直接通过网络调用
- 示例：deepseek-v3.1:671b-cloud、qwen3-coder:480b-cloud、glm-4.6:cloud
- 优势：无需本地存储空间，支持超大参数模型（如 671B）
本地模型（标记 ↓，无 -cloud 后缀）：
- 首次选择时会自动下载到本地
- 示例：gpt-oss:120b、gemma3:27b、deepseek-r1:8b、qwen3:8b
- 优势：运行速度快，无需网络连接，数据隐私性高

模型选择界面

1.5 云端模型配置（使用云端模型必做）

如果你选择使用云端模型（如 deepseek-v3.1:671b-cloud），需要先在 Ollama 官网创建模型：

1.5.1 访问 Ollama 官网

访问 https://ollama.com/ 并登录或注册账号。

1.5.2 创建云端模型

登录后，点击 Models 菜单
点击 Create a new model 按钮
填写模型名称（例如：CueMate）
选择 Private（私有）或 Public（公开）
点击 Create model 完成创建

创建模型步骤 1

创建后会进入模型详情页：

创建模型步骤 2

1.5.3 推送模型到云端

创建模型后，页面会显示推送命令。有两种方式：

方式一：基于现有模型创建并推送

bash

# 1. 拉取基础模型
ollama pull llama3.2

# 2. 创建 Modelfile
echo "FROM llama3.2" >> Modelfile
echo "SYSTEM You are a friendly assistant." >> Modelfile

# 3. 创建自定义模型
ollama create -f Modelfile 你的用户名/CueMate

# 4. 推送到云端
ollama push 你的用户名/CueMate

方式二：直接复制现有模型并推送

bash

# 复制现有模型
ollama cp llama3.2 你的用户名/CueMate

# 推送到云端
ollama push 你的用户名/CueMate

模型推送说明

1.5.4 查看云端模型地址

推送成功后，页面会显示你的云端模型访问地址：

You can find your model at:
https://ollama.com/你的用户名/CueMate

这个地址就是你的云端模型链接，可以分享给其他人使用。

1.5.5 获取 API Key（在 CueMate 中使用）

在 CueMate 中配置云端模型时需要 API Key：

访问 Ollama 官网设置页面：https://ollama.com/settings/keys
点击 Create new key 创建新的 API Key
复制生成的 API Key 保存备用

API Key

在 CueMate 中配置时填写：

模型名称：你的用户名/CueMate（云端模型无需添加 :cloud 后缀）
API URL：https://ollama.com
API Key：刚才创建的 API Key

1.6 本地模型配置（使用本地模型必做）

如果你选择使用本地模型（如 gemma3:12b、deepseek-r1:8b），需要启动本地 Ollama 服务：

Ollama 安装后会自动启动服务，默认监听 http://localhost:11434
验证服务是否运行：
bash
```
curl http://localhost:11434/api/version
```
本地模型首次使用时会自动下载

2. 在 CueMate 中配置 Ollama 模型

2.1 进入模型设置页面

进入模型设置

2.2 添加新模型

点击右上角的 添加模型 按钮。

点击添加模型

2.3 选择 Ollama 服务商

在弹出的对话框中：

服务商类型：选择 Ollama
点击后 自动进入下一步

选择 Ollama

2.4 填写配置信息

在配置页面填写以下信息：

基础配置

模型名称：为这个模型配置起个名字（例如：本地 DeepSeek R1）
API URL：保持默认 http://localhost:11434（如果 Ollama 运行在其他地址，需修改）
模型版本：输入已下载的模型名称

2025 推荐模型：

云端模型：deepseek-v3.1:671b-cloud、qwen3-coder:480b-cloud、qwen3-vl:235b-cloud、glm-4.6:cloud、minimax-m2:cloud
本地模型：gpt-oss:120b、gemma3:27b、gemma3:12b、deepseek-r1:8b、qwen3-coder:30b、qwen3-vl:30b、qwen3:30b、qwen3:8b

注意：本地模型首次使用时会自动下载，云端模型无需下载。

填写基础配置

高级配置（可选）

展开 高级配置 面板，可以调整以下参数：

CueMate 界面可调参数：

温度（temperature）：控制输出随机性
- 范围：0-2
- 推荐值：0.7
- 作用：值越高输出越随机创新，值越低输出越稳定保守
- 使用建议：
  - 创意写作/头脑风暴：1.0-1.5
  - 常规对话/问答：0.7-0.9
  - 代码生成/精确任务：0.3-0.5
输出最大 tokens（max_tokens）：限制单次输出长度
- 范围：256 - 32768（根据模型而定）
- 推荐值：8192
- 作用：控制模型单次响应的最大字数
- 使用建议：
  - 简短问答：1024-2048
  - 常规对话：4096-8192
  - 长文生成：16384-32768

高级配置

Ollama API 支持的其他高级参数：

虽然 CueMate 界面只提供 temperature 和 max_tokens 调整，但如果你通过 API 直接调用 Ollama，还可以使用以下高级参数（Ollama 采用 OpenAI 兼容的 API 格式）：

top_p（nucleus sampling）
- 范围：0-1
- 默认值：1
- 作用：从概率累积达到 p 的最小候选集中采样
- 与 temperature 的关系：通常只调整其中一个
- 使用建议：
  - 保持多样性但避免离谱：0.9-0.95
  - 更保守的输出：0.7-0.8
top_k
- 范围：0-100
- 默认值：40
- 作用：从概率最高的 k 个候选词中采样
- 使用建议：
  - 更多样化：50-100
  - 更保守：10-30
frequency_penalty（频率惩罚）
- 范围：-2.0 到 2.0
- 默认值：0
- 作用：降低重复相同词汇的概率（基于词频）
- 使用建议：
  - 减少重复：0.3-0.8
  - 允许重复：0（默认）
presence_penalty（存在惩罚）
- 范围：-2.0 到 2.0
- 默认值：0
- 作用：降低已出现过的词汇再次出现的概率（基于是否出现）
- 使用建议：
  - 鼓励新话题：0.3-0.8
  - 允许重复话题：0（默认）
stop（停止序列）
- 类型：字符串或数组
- 默认值：null
- 作用：当生成内容包含指定字符串时停止
- 示例：["###", "用户:", "\n\n"]
- 使用场景：
  - 结构化输出：使用分隔符控制格式
  - 对话系统：防止模型代替用户说话
stream（流式输出）
- 类型：布尔值
- 默认值：false
- 作用：启用 SSE 流式返回，边生成边返回
- CueMate 中：自动处理，无需手动设置
seed（随机种子）
- 类型：整数
- 默认值：null
- 作用：固定随机种子，相同输入产生相同输出
- 使用场景：
  - 可复现的测试
  - 对比实验

序号	场景	temperature	max_tokens	top_p	top_k	frequency_penalty	presence_penalty
1	创意写作	1.0-1.2	4096-8192	0.95	50	0.5	0.5
2	代码生成	0.2-0.5	2048-4096	0.9	40	0.0	0.0
3	问答系统	0.7	1024-2048	0.9	40	0.0	0.0
4	摘要总结	0.3-0.5	512-1024	0.9	30	0.0	0.0
5	头脑风暴	1.2-1.5	2048-4096	0.95	60	0.8	0.8

2.5 测试连接

填写完配置后，点击 测试连接 按钮，验证配置是否正确。

测试连接

如果配置正确，会显示测试成功的提示，并返回模型的响应示例。

测试成功

如果配置错误，会显示测试错误的日志，并且可以通过日志管理，查看具体报错信息。

2.6 保存配置

测试成功后，点击保存按钮，完成模型配置。

保存配置

3. 使用模型

通过右上角下拉菜单，进入系统设置界面，在大模型服务商栏目选择想要使用的模型配置。

配置完成后，可以在面试训练、问题生成等功能中选择使用此模型，当然也可以在面试的选项中单此选择此次面试的模型配置。

选择模型

4. 支持的模型列表

4.1 云端模型（Cloud Models）

序号	模型名称	模型 ID	参数量	特点
1	GPT-OSS 120B Cloud	`gpt-oss:120b-cloud`	120B	开源 GPT 云端版
2	GPT-OSS 20B Cloud	`gpt-oss:20b-cloud`	20B	开源 GPT 云端版
3	DeepSeek V3.1	`deepseek-v3.1:671b-cloud`	671B	超大规模推理模型
4	Qwen3 Coder	`qwen3-coder:480b-cloud`	480B	代码生成专用
5	Qwen3 VL	`qwen3-vl:235b-cloud`	235B	视觉语言模型
6	MiniMax M2	`minimax-m2:cloud`	-	MiniMax 云端模型
7	GLM-4.6	`glm-4.6:cloud`	-	智谱 GLM 最新版

4.2 本地模型（Local Models）

GPT-OSS 系列

序号	模型名称	模型 ID	参数量	适用场景
1	GPT-OSS 120B	`gpt-oss:120b`	120B	开源 GPT 超大模型
2	GPT-OSS 20B	`gpt-oss:20b`	20B	开源 GPT 中型模型

Gemma 3 系列（Google）

序号	模型名称	模型 ID	参数量	适用场景
1	Gemma3 27B	`gemma3:27b`	27B	Google 最新旗舰模型
2	Gemma3 12B	`gemma3:12b`	12B	中等规模任务
3	Gemma3 4B	`gemma3:4b`	4B	轻量级任务
4	Gemma3 1B	`gemma3:1b`	1B	超轻量级

DeepSeek R1 系列

序号	模型名称	模型 ID	参数量	适用场景
1	DeepSeek R1 8B	`deepseek-r1:8b`	8B	推理增强

Qwen 3 系列

序号	模型名称	模型 ID	参数量	适用场景
1	Qwen3 Coder 30B	`qwen3-coder:30b`	30B	代码生成
2	Qwen3 VL 30B	`qwen3-vl:30b`	30B	视觉语言
3	Qwen3 VL 8B	`qwen3-vl:8b`	8B	视觉语言
4	Qwen3 VL 4B	`qwen3-vl:4b`	4B	视觉语言
5	Qwen3 30B	`qwen3:30b`	30B	通用对话
6	Qwen3 8B	`qwen3:8b`	8B	通用对话
7	Qwen3 4B	`qwen3:4b`	4B	轻量级任务

5. 常见问题

5.1 Ollama 服务未启动

现象：测试连接时提示连接失败

解决方案：

确认 Ollama 服务是否运行：ollama list
重启 Ollama 服务
检查端口 11434 是否被占用：lsof -i :11434

5.2 模型未下载

现象：提示模型不存在

解决方案：

使用 ollama list 查看已下载的模型
使用 ollama pull <model-name> 下载模型
确认模型名称拼写正确

5.3 性能问题

现象：模型响应速度慢

解决方案：

选择参数量较小的模型（如 7B 而非 70B）
确保有足够的 GPU 内存或系统内存
检查系统资源使用情况

5.4 API URL 错误

现象：无法连接到 Ollama 服务

解决方案：

确认 API URL 配置正确（默认 http://localhost:11434）
如果 Ollama 运行在 Docker 中，使用容器的内部地址
检查防火墙设置

5.5 模型选择

开发测试：使用 7B-14B 参数的模型，响应快，资源消耗低
生产环境：根据性能需求选择 14B-32B 参数的模型
资源受限：使用 0.5B-3B 参数的轻量级模型

5.6 硬件要求

模型参数	最小内存	推荐内存	GPU
0.5B-3B	4GB	8GB	可选
7B-14B	8GB	16GB	推荐
32B-70B	32GB	64GB	必需

配置 Ollama

1. 安装 Ollama ​

1.1 下载 Ollama ​

1.2 安装 Ollama ​

1.3 验证安装 ​

1.4 选择模型 ​

1.5 云端模型配置（使用云端模型必做） ​

1.5.1 访问 Ollama 官网 ​

1.5.2 创建云端模型 ​

1.5.3 推送模型到云端 ​

1.5.4 查看云端模型地址 ​

1.5.5 获取 API Key（在 CueMate 中使用） ​

1.6 本地模型配置（使用本地模型必做） ​

2. 在 CueMate 中配置 Ollama 模型 ​

2.1 进入模型设置页面 ​

2.2 添加新模型 ​

2.3 选择 Ollama 服务商 ​

2.4 填写配置信息 ​

基础配置 ​

高级配置（可选） ​

2.5 测试连接 ​

2.6 保存配置 ​

3. 使用模型 ​

4. 支持的模型列表 ​

4.1 云端模型（Cloud Models） ​

4.2 本地模型（Local Models） ​

GPT-OSS 系列 ​

Gemma 3 系列（Google） ​

DeepSeek R1 系列 ​

Qwen 3 系列 ​

5. 常见问题 ​

5.1 Ollama 服务未启动 ​

5.2 模型未下载 ​

5.3 性能问题 ​

5.4 API URL 错误 ​

5.5 模型选择 ​

5.6 硬件要求 ​

相关链接 ​

1. 安装 Ollama

1.1 下载 Ollama

1.2 安装 Ollama

1.3 验证安装

1.4 选择模型

1.5 云端模型配置（使用云端模型必做）

1.5.1 访问 Ollama 官网

1.5.2 创建云端模型

1.5.3 推送模型到云端

1.5.4 查看云端模型地址

1.5.5 获取 API Key（在 CueMate 中使用）

1.6 本地模型配置（使用本地模型必做）

2. 在 CueMate 中配置 Ollama 模型

2.1 进入模型设置页面

2.2 添加新模型

2.3 选择 Ollama 服务商

2.4 填写配置信息

基础配置

高级配置（可选）

2.5 测试连接

2.6 保存配置

3. 使用模型

4. 支持的模型列表

4.1 云端模型（Cloud Models）

4.2 本地模型（Local Models）

GPT-OSS 系列

Gemma 3 系列（Google）

DeepSeek R1 系列

Qwen 3 系列

5. 常见问题

5.1 Ollama 服务未启动

5.2 模型未下载

5.3 性能问题

5.4 API URL 错误

5.5 模型选择

5.6 硬件要求

相关链接