快速接入

LLMGateway 对外暴露 OpenAI-compatible API。业务侧只需要把 OpenAI SDK 的 base_url 指向网关，并使用网关签发的 API Key。

准备工作

登录控制台，进入“模型广场”。
为当前租户开通需要调用的模型。
创建 API Key。
调用 /v1/models 确认可用模型列表，再把返回的模型 ID 用到请求里。

如果 /v1/models 返回为空，通常表示当前租户还没有开通可路由模型，或当前 API Key 被限制了可调用模型范围。

Python SDK: Chat Completions

python

from openai import OpenAI

client = OpenAI(
    base_url="https://llm.xiaoyue9527.xyz/v1",
    api_key="sk-gtw-REPLACE_ME",
)

stream = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "请只回复 OK"}],
    max_tokens=64,
    stream=True,
    stream_options={"include_usage": True},
)

for chunk in stream:
    if chunk.choices:
        delta = chunk.choices[0].delta
        if delta.content:
            print(delta.content, end="", flush=True)

Python SDK: Responses API

新版 OpenAI SDK 推荐使用 Responses API。LLMGateway 已支持文本输入、函数工具透传、非流式和流式输出。

python

from openai import OpenAI

client = OpenAI(
    base_url="https://llm.xiaoyue9527.xyz/v1",
    api_key="sk-gtw-REPLACE_ME",
)

response = client.responses.create(
    model="qwen3.6-plus",
    input="请只回复 OK",
    max_output_tokens=64,
)

print(response.output_text)

流式调用：

python

with client.responses.stream(
    model="qwen3.6-plus",
    input="请只回复 OK",
    max_output_tokens=64,
) as stream:
    for event in stream:
        if event.type == "response.output_text.delta":
            print(event.delta, end="", flush=True)

如果需要主动停止一个正在运行的 Responses 请求，可以在收到 response.created 事件里的 response.id 后调用：

python

client.responses.cancel("resp_xxx")

Python SDK: Embeddings

python

from openai import OpenAI

client = OpenAI(
    base_url="https://llm.xiaoyue9527.xyz/v1",
    api_key="sk-gtw-REPLACE_ME",
)

response = client.embeddings.create(
    model="text-embedding-v4",
    input="需要向量化的文本",
)

print(len(response.data[0].embedding), response.usage.total_tokens)

Python requests: Rerank

Rerank 是文档重排序接口，不走 Chat Completions 或 Responses SDK。

python

import requests

response = requests.post(
    "https://llm.xiaoyue9527.xyz/v1/rerank",
    headers={"Authorization": "Bearer sk-gtw-REPLACE_ME"},
    json={
        "model": "qwen3-rerank",
        "query": "什么是自动续签风险？",
        "documents": [
            "合同到期前 30 天未通知则自动续签一年。",
            "付款方式为每月 10 日前转账。"
        ],
        "top_n": 2,
        "return_documents": True,
    },
)

print(response.json())

curl: Chat Completions

bash

curl -N https://llm.xiaoyue9527.xyz/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer sk-gtw-REPLACE_ME' \
  --data-raw '{
    "model": "qwen3.6-plus",
    "messages": [{"role": "user", "content": "解释什么是 RESTful API"}],
    "max_tokens": 2048,
    "stream": true,
    "stream_options": {"include_usage": true}
  }'

curl: Responses API

bash

curl -N https://llm.xiaoyue9527.xyz/v1/responses \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer sk-gtw-REPLACE_ME' \
  --data-raw '{
    "model": "qwen3.6-plus",
    "input": "解释什么是 RESTful API",
    "max_output_tokens": 2048,
    "stream": true
  }'

常用模型

以下是模型 ID 示例，实际可用范围以控制台开通状态和 /v1/models 返回为准。

模型 ID	备注
`qwen3.6-plus`	支持 OpenAI SDK 流式调用
`qwen3.5-plus`	支持 OpenAI SDK 流式调用
`deepseek-v4-flash`	DeepSeek V4 低延迟模型，支持 OpenAI SDK 非流式和流式调用
`deepseek-v4-pro`	DeepSeek V4 高质量模型，支持 OpenAI SDK 非流式和流式调用

模型 ID 大小写敏感，请使用 /v1/models 返回的原始值。

DeepSeek V4 接入建议

deepseek-v4-pro 和 deepseek-v4-flash 已通过 OpenAI-compatible 接入验证。正常的非流式、流式、多轮上下文、max_tokens、stop、temperature、top_p 和流式 usage 均可用。

建议按场景选择：

模型	建议场景	客户端建议
`deepseek-v4-flash`	低延迟对话、常规业务生成、在线交互	使用常规 chat 超时即可
`deepseek-v4-pro`	高质量回答、复杂推理、代码和长文本	设置更长请求超时，流式消费时不要使用过短客户端超时

Node.js 客户端如遇到偶发连接超时，可优先使用 IPv4 DNS 顺序：

bash

NODE_OPTIONS=--dns-result-order=ipv4first node app.js

请求体中请始终传入有效的 model 和非空 messages。LLMGateway 会尽量在入口层返回标准 400，避免把上游参数错误暴露成服务端错误。

快速接入 ​

准备工作 ​

Python SDK: Chat Completions ​

Python SDK: Responses API ​

Python SDK: Embeddings ​

Python requests: Rerank ​

curl: Chat Completions ​

curl: Responses API ​

常用模型 ​

DeepSeek V4 接入建议 ​

快速接入

准备工作

Python SDK: Chat Completions

Python SDK: Responses API

Python SDK: Embeddings

Python requests: Rerank

curl: Chat Completions

curl: Responses API

常用模型

DeepSeek V4 接入建议