Skip to content

快速接入

LLMGateway 对外暴露 OpenAI-compatible API。业务侧只需要把 OpenAI SDK 的 base_url 指向网关,并使用网关签发的 API Key。

Python SDK: Chat Completions

python
from openai import OpenAI

client = OpenAI(
    base_url="https://llm.lytokens.com/v1",
    api_key="sk-gtw-REPLACE_ME",
)

stream = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "请只回复 OK"}],
    max_tokens=64,
    stream=True,
    stream_options={"include_usage": True},
)

for chunk in stream:
    if chunk.choices:
        delta = chunk.choices[0].delta
        if delta.content:
            print(delta.content, end="", flush=True)

Python SDK: Responses API

新版 OpenAI SDK 推荐使用 Responses API。LLMGateway 已支持文本输入、函数工具透传、非流式和流式输出。

python
from openai import OpenAI

client = OpenAI(
    base_url="https://llm.lytokens.com/v1",
    api_key="sk-gtw-REPLACE_ME",
)

response = client.responses.create(
    model="qwen3.6-plus",
    input="请只回复 OK",
    max_output_tokens=64,
)

print(response.output_text)

流式调用:

python
with client.responses.stream(
    model="qwen3.6-plus",
    input="请只回复 OK",
    max_output_tokens=64,
) as stream:
    for event in stream:
        if event.type == "response.output_text.delta":
            print(event.delta, end="", flush=True)

如果需要主动停止一个正在运行的 Responses 请求,可以在收到 response.created 事件里的 response.id 后调用:

python
client.responses.cancel("resp_xxx")

Python SDK: Embeddings

python
from openai import OpenAI

client = OpenAI(
    base_url="https://llm.lytokens.com/v1",
    api_key="sk-gtw-REPLACE_ME",
)

response = client.embeddings.create(
    model="text-embedding-v4",
    input="需要向量化的文本",
)

print(len(response.data[0].embedding), response.usage.total_tokens)

Python requests: Rerank

Rerank 是文档重排序接口,不走 Chat Completions 或 Responses SDK。

python
import requests

response = requests.post(
    "https://llm.lytokens.com/v1/rerank",
    headers={"Authorization": "Bearer sk-gtw-REPLACE_ME"},
    json={
        "model": "qwen3-rerank",
        "query": "什么是自动续签风险?",
        "documents": [
            "合同到期前 30 天未通知则自动续签一年。",
            "付款方式为每月 10 日前转账。"
        ],
        "top_n": 2,
        "return_documents": True,
    },
)

print(response.json())

curl: Chat Completions

bash
curl -N https://llm.lytokens.com/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer sk-gtw-REPLACE_ME' \
  --data-raw '{
    "model": "qwen3.6-plus",
    "messages": [{"role": "user", "content": "解释什么是 RESTful API"}],
    "max_tokens": 2048,
    "stream": true,
    "stream_options": {"include_usage": true}
  }'

curl: Responses API

bash
curl -N https://llm.lytokens.com/v1/responses \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer sk-gtw-REPLACE_ME' \
  --data-raw '{
    "model": "qwen3.6-plus",
    "input": "解释什么是 RESTful API",
    "max_output_tokens": 2048,
    "stream": true
  }'

常用模型

模型 ID备注
qwen3.6-plus支持 OpenAI SDK 流式调用
qwen3.5-plus支持 OpenAI SDK 流式调用
deepseek-v4-flashDeepSeek V4 低延迟模型,支持 OpenAI SDK 非流式和流式调用
deepseek-v4-proDeepSeek V4 高质量模型,支持 OpenAI SDK 非流式和流式调用

模型 ID 大小写敏感,请使用 /v1/models 返回的原始值。

DeepSeek V4 接入建议

deepseek-v4-prodeepseek-v4-flash 已通过 OpenAI-compatible 接入验证。正常的非流式、流式、多轮上下文、max_tokensstoptemperaturetop_p 和流式 usage 均可用。

建议按场景选择:

模型建议场景客户端建议
deepseek-v4-flash低延迟对话、常规业务生成、在线交互使用常规 chat 超时即可
deepseek-v4-pro高质量回答、复杂推理、代码和长文本设置更长请求超时,流式消费时不要使用过短客户端超时

Node.js 客户端如遇到偶发连接超时,可优先使用 IPv4 DNS 顺序:

bash
NODE_OPTIONS=--dns-result-order=ipv4first node app.js

请求体中请始终传入有效的 model 和非空 messages。LLMGateway 会尽量在入口层返回标准 400,避免把上游参数错误暴露成服务端错误。

OpenAI-compatible API documentation.