热门
最新
红包
立Flag
投票
同城
我的
发布
Ollama 0.2来了!并发现在已默认启用。
https://ollama.com/download
这解锁了两大功能:
并行请求
Ollama现在可以同时处理多个请求,每个请求只使用少量额外内存。这使得以下用例成为可能:
- 同时处理多个聊天会话
- 为你的团队托管代码补全的LLM
- 同时处理文档的不同部分
- 同时运行多个代理
运行多个模型
Ollama现在支持同时加载不同的模型。这改善了多种用例:
- 检索增强生成(RAG):嵌入和文本补全模型可以同时加载到内存中。
- 代理:多个版本的代理现在可以同时运行
- 并列运行大模型和小模型
模型将根据请求和可用的GPU内存自动加载和卸载。
CSDN App 扫码分享
22
240
- 复制链接
- 举报