音频转文本

POST

/v1/audio/transcriptions

Audio

请求参数

Authorization

在 Header 添加参数

Authorization

，其值为在 Bearer 之后拼接 Token

示例：

Authorization: Bearer ********************

Body 参数multipart/form-data

file

必需

要转录的音频文件对象（非文件名），格式为以下之一：flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav或webm。

model

string

必需

使用模型的ID。选项有 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 whisper-1

示例值:

gpt-4o-transcribe

language

string

可选

输入音频的语言。以ISO-639-1（例如en）格式提供输入语言将提高准确性和延迟。

prompt

string

可选

可选文本，用于指导模型的风格或继续之前的音频片段。

response_format

string

可选

输出格式，以下选项之一：json、text、srt、verbose_json 或 vtt。

temperature

number

可选

采样温度，介于0和1之间。更高的值，如0.8，会使输出更随机，而更低的值，如0.2，会使输出更集中和确定。如果设置为0，模型将使用对数概率自动增加温度，直到达到某些阈值。

默认值:

示例值:

include[]

array[string]

可选

附加信息，包括在转录响应中。

logprobs 将返回响应中标记的对数概率，以了解模型对转录的置信度。

logprobs 仅在将 response_format 设置为 json 时有效，并且仅与 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型一起使用。

枚举值:

logprobs

timestamp_granularities[]

array[string]

可选

此转录要填充的时间戳粒度。必须将response_format设置为verbose_json才能使用时间戳粒度。支持以下一个或两个选项：word或segment。注意：分段时间戳不会增加额外延迟，但生成单词时间戳会增加额外延迟。

枚举值:

wordsegment

默认值:

segment

示例值:

["segment"]

stream

boolean | null

可选

如果设置为true，模型响应数据将随着生成实时传输到客户端，使用的是服务器端事件。

请参阅语音转文字指南中的流式传输部分获取更多信息。

注意：whisper-1模型不支持流式传输，将被忽略。

默认值:

false

示例值:

false

示例代码

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

curl --location --request POST 'https://api.uniapi.io/v1/audio/transcriptions' \
--form 'file=@""' \
--form 'model="gpt-4o-transcribe"'

返回响应

🟢200成功

application/json

Body

可选

One of

音频转文本JSON响应

音频转文本VerboseJson响应

音频转文本StreamEvent响应

表示由模型根据提供的输入返回的转录响应。

text

string

转录文本。

必需

logprobs

array [object {3}]

可选

转录中标记的对数概率。仅当在 include 数组中添加了 logprobs 时，才会随模型 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 返回。

示例

{
    "text": "string",
    "logprobs": [
        {
            "token": "string",
            "logprob": 0,
            "bytes": [
                0
            ]
        }
    ]
}

修改于 2025-05-18 07:36:21

文本生成音频

创建转录