Appearance
快速接入
LLMGateway 对外暴露 OpenAI-compatible API。业务侧只需要把 OpenAI SDK 的 base_url 指向网关,并使用网关签发的 API Key。
Python SDK: Chat Completions
python
from openai import OpenAI
client = OpenAI(
base_url="https://llm.lytokens.com/v1",
api_key="sk-gtw-REPLACE_ME",
)
stream = client.chat.completions.create(
model="qwen3.6-plus",
messages=[{"role": "user", "content": "请只回复 OK"}],
max_tokens=64,
stream=True,
stream_options={"include_usage": True},
)
for chunk in stream:
if chunk.choices:
delta = chunk.choices[0].delta
if delta.content:
print(delta.content, end="", flush=True)Python SDK: Responses API
新版 OpenAI SDK 推荐使用 Responses API。LLMGateway 已支持文本输入、函数工具透传、非流式和流式输出。
python
from openai import OpenAI
client = OpenAI(
base_url="https://llm.lytokens.com/v1",
api_key="sk-gtw-REPLACE_ME",
)
response = client.responses.create(
model="qwen3.6-plus",
input="请只回复 OK",
max_output_tokens=64,
)
print(response.output_text)流式调用:
python
with client.responses.stream(
model="qwen3.6-plus",
input="请只回复 OK",
max_output_tokens=64,
) as stream:
for event in stream:
if event.type == "response.output_text.delta":
print(event.delta, end="", flush=True)如果需要主动停止一个正在运行的 Responses 请求,可以在收到 response.created 事件里的 response.id 后调用:
python
client.responses.cancel("resp_xxx")Python SDK: Embeddings
python
from openai import OpenAI
client = OpenAI(
base_url="https://llm.lytokens.com/v1",
api_key="sk-gtw-REPLACE_ME",
)
response = client.embeddings.create(
model="text-embedding-v4",
input="需要向量化的文本",
)
print(len(response.data[0].embedding), response.usage.total_tokens)Python requests: Rerank
Rerank 是文档重排序接口,不走 Chat Completions 或 Responses SDK。
python
import requests
response = requests.post(
"https://llm.lytokens.com/v1/rerank",
headers={"Authorization": "Bearer sk-gtw-REPLACE_ME"},
json={
"model": "qwen3-rerank",
"query": "什么是自动续签风险?",
"documents": [
"合同到期前 30 天未通知则自动续签一年。",
"付款方式为每月 10 日前转账。"
],
"top_n": 2,
"return_documents": True,
},
)
print(response.json())curl: Chat Completions
bash
curl -N https://llm.lytokens.com/v1/chat/completions \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-gtw-REPLACE_ME' \
--data-raw '{
"model": "qwen3.6-plus",
"messages": [{"role": "user", "content": "解释什么是 RESTful API"}],
"max_tokens": 2048,
"stream": true,
"stream_options": {"include_usage": true}
}'curl: Responses API
bash
curl -N https://llm.lytokens.com/v1/responses \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer sk-gtw-REPLACE_ME' \
--data-raw '{
"model": "qwen3.6-plus",
"input": "解释什么是 RESTful API",
"max_output_tokens": 2048,
"stream": true
}'常用模型
| 模型 ID | 备注 |
|---|---|
qwen3.6-plus | 支持 OpenAI SDK 流式调用 |
qwen3.5-plus | 支持 OpenAI SDK 流式调用 |
deepseek-v4-flash | DeepSeek V4 低延迟模型,支持 OpenAI SDK 非流式和流式调用 |
deepseek-v4-pro | DeepSeek V4 高质量模型,支持 OpenAI SDK 非流式和流式调用 |
模型 ID 大小写敏感,请使用 /v1/models 返回的原始值。
DeepSeek V4 接入建议
deepseek-v4-pro 和 deepseek-v4-flash 已通过 OpenAI-compatible 接入验证。正常的非流式、流式、多轮上下文、max_tokens、stop、temperature、top_p 和流式 usage 均可用。
建议按场景选择:
| 模型 | 建议场景 | 客户端建议 |
|---|---|---|
deepseek-v4-flash | 低延迟对话、常规业务生成、在线交互 | 使用常规 chat 超时即可 |
deepseek-v4-pro | 高质量回答、复杂推理、代码和长文本 | 设置更长请求超时,流式消费时不要使用过短客户端超时 |
Node.js 客户端如遇到偶发连接超时,可优先使用 IPv4 DNS 顺序:
bash
NODE_OPTIONS=--dns-result-order=ipv4first node app.js请求体中请始终传入有效的 model 和非空 messages。LLMGateway 会尽量在入口层返回标准 400,避免把上游参数错误暴露成服务端错误。