UniAPI API Doc
  1. Audio
UniAPI API Doc
  • OpenAI
    • Audio
      • 文本生成音频
        POST
      • 音频转文本
        POST
      • 创建转录
        POST
    • Chat
      • 聊天接口
    • Completions
      • 自动补全
    • Embeddings
      • 向量接口
    • Images
      • 图像编辑
      • 图像生成
      • 图像变体
    • Models
      • 获取模型列表
    • Moderations
      • 审核
    • Responses
      • response
  • 平台接口
    • 余额
      GET
  • 音乐模型
    • Suno
      • 创建音乐
      • 创建歌词
      • 批量获取任务
      • 查询单个任务
    • Udio
      • 创建音乐
      • 查询任务
  • 图像模型
    • MidJourney
      • 提交swap_face任务
      • 绘图变化(UPSCALE; VARIATION; REROLL)
      • 执行动作(所有的关联按钮动作UPSCALE; VARIATION; REROLL; ZOOM等)
      • 绘图变化-simple(UPSCALE; VARIATION; REROLL)
      • 提交Blend任务(图生图)
      • 提交Describe任务(图生文)
      • 提交Imagine任务(文生图、文图生图)
      • 提交Modal(提交局部重绘、ZOOM)
      • 提交Shorten任务(prompt分析)
    • ideogram
      • Generates(文生图)
      • Remix(混合图)
      • Upscale(放大高清)
      • Describe(描述)
    • FalAI
      • Openai 格式
      • 提交任务
      • 获取任务状态
      • 获取任务结果
    • 即梦
      • Openai 格式
    • Kling
      • 图像生成(文生图/图生图)
      • 图像生成 获取状态
      • 虚拟试穿
      • 虚拟试穿 获取状态
  • 视频模型
    • Luma
      • 生成视频
      • 扩展视频
      • 获取下载地址
      • 获取任务
    • FalAI
      • 提交任务
      • 获取任务状态
      • 获取任务结果
    • Kling
      • 图像生成(文生图/图生图)
      • 图像生成 获取状态
      • 文生视频
      • 文生视频 获取状态
      • 图生视频
      • 图生视频 获取状态
      • 虚拟试穿
      • 虚拟试穿 获取状态
  1. Audio

音频转文本

POST
/v1/audio/transcriptions
Audio

请求参数

Authorization
在 Header 添加参数
Authorization
,其值为在 Bearer 之后拼接 Token
示例:
Authorization: Bearer ********************
Body 参数multipart/form-data
file
file 
必需
要转录的音频文件对象(非文件名),格式为以下之一:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav或webm。
model
string 
必需
使用模型的ID。选项有 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 whisper-1
示例值:
gpt-4o-transcribe
language
string 
可选
输入音频的语言。以ISO-639-1(例如en)格式提供输入语言将提高准确性和延迟。
prompt
string 
可选
可选文本,用于指导模型的风格或继续之前的音频片段。
response_format
string 
可选
输出格式,以下选项之一:json、text、srt、verbose_json 或 vtt。
temperature
number 
可选
采样温度,介于0和1之间。更高的值,如0.8,会使输出更随机,而更低的值,如0.2,会使输出更集中和确定。如果设置为0,模型将使用对数概率自动增加温度,直到达到某些阈值。
默认值:
0
示例值:
0
include[]
array[string]
可选
附加信息,包括在转录响应中。
logprobs 将返回响应中标记的对数概率,以了解模型对转录的置信度。
logprobs 仅在将 response_format 设置为 json 时有效,并且仅与 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型一起使用。
枚举值:
logprobs
timestamp_granularities[]
array[string]
可选
此转录要填充的时间戳粒度。必须将response_format设置为verbose_json才能使用时间戳粒度。支持以下一个或两个选项:word或segment。注意:分段时间戳不会增加额外延迟,但生成单词时间戳会增加额外延迟。
枚举值:
wordsegment
默认值:
segment
示例值:
["segment"]
stream
boolean  | null 
可选
如果设置为true,模型响应数据将随着生成实时传输到客户端,使用的是服务器端事件。
请参阅语音转文字指南中的流式传输部分获取更多信息。
注意:whisper-1模型不支持流式传输,将被忽略。
默认值:
false
示例值:
false

示例代码

Shell
JavaScript
Java
Swift
Go
PHP
Python
HTTP
C
C#
Objective-C
Ruby
OCaml
Dart
R
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'https://api.uniapi.io/v1/audio/transcriptions' \
--form 'file=@""' \
--form 'model="gpt-4o-transcribe"'

返回响应

🟢200成功
application/json
OK
Body
可选
One of
表示由模型根据提供的输入返回的转录响应。
text
string 
转录文本。
必需
logprobs
array [object {3}] 
可选
转录中标记的对数概率。仅当在 include 数组中添加了 logprobs 时,才会随模型 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 返回。
示例
{
    "text": "string",
    "logprobs": [
        {
            "token": "string",
            "logprob": 0,
            "bytes": [
                0
            ]
        }
    ]
}
修改于 2025-05-18 07:36:21
上一页
文本生成音频
下一页
创建转录
Built with