Chat Completions

接口：

text

POST /v1/chat/completions

SDK：

python

client.chat.completions.create(...)

请求字段

字段	类型	必填	说明
`model`	string	是	使用 `/v1/models` 返回的模型 ID
`messages`	array	是	OpenAI Chat messages
`max_tokens`	number	否	最大输出 token 数；如传入必须大于等于 `0`
`max_completion_tokens`	number	否	新版 OpenAI 兼容字段，按上游能力透传
`temperature`	number	否	采样温度
`top_p`	number	否	核采样参数
`presence_penalty`	number	否	Presence penalty，按上游能力生效
`frequency_penalty`	number	否	Frequency penalty，按上游能力生效
`n`	integer	否	候选数量，是否支持多个候选取决于上游
`stream`	boolean	否	`true` 时返回 SSE
`stream_options.include_usage`	boolean	否	流式输出结束时包含 usage
`tools`	array	否	OpenAI function tools
`tool_choice`	string/object	否	支持常见 OpenAI tool choice
`parallel_tool_calls`	boolean	否	并行工具调用开关，按上游能力透传
`enable_thinking`	boolean	否	兼容 Qwen 官方字段，显式控制 thinking/reasoning；OpenAI SDK 可放在 `extra_body`
`llmgw_thinking`	boolean	否	网关扩展字段，显式开启或关闭 thinking/reasoning
`response_format`	object	否	如 `{"type":"json_object"}` / JSON schema，控制输出格式
`stop`	string/array	否	停止序列
`seed`	integer	否	采样种子（上游支持时生效）
`reasoning_effort`	string	否	推理强度，如 `low`/`medium`/`high`（上游支持时生效）
`logprobs` / `top_logprobs`	boolean/integer	否	token 概率信息，按上游能力透传

网关还会接受并按上游能力透传 do_sample、verbosity、metadata、modalities、prediction、audio、logit_bias、prompt cache 和搜索类扩展字段。供应商不支持某个字段时，可能忽略或返回上游参数错误；业务代码不应假设所有模型行为一致。

多模态输入

图片输入使用 OpenAI 标准 content parts：

json

{
  "role": "user",
  "content": [
    {"type": "text", "text": "这张图里有什么？"},
    {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
  ]
}

也支持 data:image/...;base64,...。请先用 /v1/model-catalog/{model} 判断模型是否包含 modalities.input: ["image"]。

响应字段

非流式返回 OpenAI chat.completion 对象：

字段	说明
`id`	请求 ID
`object`	`chat.completion`
`model`	实际响应模型
`choices[].message.content`	文本输出；仅返回 tool_calls 时为 `null`
`choices[].message.tool_calls`	工具调用数组（`{id,type:"function",function:{name,arguments}}`），无工具调用时不返回
`choices[].message.reasoning_content`	V1 非流式响应不返回；需要非流式 reasoning 字段时使用 V2
`choices[].finish_reason`	停止原因：`stop`、`length`、`tool_calls` 等
`usage`	token 用量

流式返回 chat.completion.chunk SSE，最后一帧为：

text

data: [DONE]

流式文本位于 choices[].delta.content；如果已显式开启 thinking 且上游返回思考内容，流式 reasoning 位于 choices[].delta.reasoning_content。

边界

边界	说明
模型能力	文本模型不能传图片
thinking	网关扩展 `llmgw_thinking` / `enable_thinking` 按模型转换：`qwen3.` 使用 `enable_thinking`；`deepseek-v4-` 显式开启时追加 `/think`，默认不会因显式关闭就追加 `/no_think`（带 tools 且未开启 thinking 时可能使用 `/no_think` 保持工具链）；`glm-*` 使用 `thinking` 对象；其他模型按原生字段能力处理
reasoning	只有上游返回 reasoning 字段时才会出现
流式超时	客户端应设置较长 read timeout

示例

bash

curl -N https://llm.xiaoyue9527.xyz/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer sk-gtw-REPLACE_ME' \
  --data-raw '{
    "model": "qwen3.6-plus",
    "messages": [{"role": "user", "content": "解释什么是 RESTful API"}],
    "max_tokens": 2048,
    "stream": true,
    "stream_options": {"include_usage": true}
  }'

Chat Completions ​

请求字段 ​

多模态输入 ​

响应字段 ​

边界 ​

示例 ​

Chat Completions

请求字段

多模态输入

响应字段

边界

示例