在使用大型语言模型(LLM)相关工具(如 KrillinAI、LM Studio、Web UI、各种插件等)时,**“LLM 服务源”**这个词通常指的是:提供语言模型推理服务的来源或地址。它可以是本地部署的模型服务,也可以是云端的 API 接口。
LLM 服务源的几种形式
1. 本地模型服务源
这是你在自己电脑或服务器上部署的 LLM 模型。
例如:
本地运行的 llama.cpp
、text-generation-webui
通过 Ollama
启动的模型(如 http://localhost:11434
)
LMDeploy
, vLLM
, TGI
等框架运行的 API 地址
你可能会看到如下格式的地址:
http://127.0.0.1:8000/v1/chat/completions http://localhost:11434
2. 云端 API 服务源
这类服务源通常是大厂提供的模型 API,比如:
OpenAI API:
https://api.openai.com/v1/chat/completions
Gemini (Google AI Studio):
https://generativelanguage.googleapis.com
Claude (Anthropic):
https://api.anthropic.com/v1/messages
百度、讯飞、智谱等国产 LLM API
需要配合使用 API Key。
3. 自定义/代理服务源
一些用户会通过代理或网关(如 OneAPI、FastChat、LocalAI 等)统一接入多种模型,此时你看到的服务源是自建的:
例如:
http://myproxy.llmserver.com/api http://192.168.1.100:8000/v1
总结
LLM 服务源 就是你告诉程序:“你要用哪个模型,它在哪里提供服务”。
这个地址可以是: