功能介绍

为开发者提供精准的语音识别服务,支持多种音频格式包括mp3、wav、pcm等。主要应用于字幕生成、语音质检、会议记录等场景,能快速准确的将录音文件转化成文字,节省成本,提高效率。

使用方式背景图
常见问题
  • 问:方言和采样率都支持,为什么返回是不支持的文件类型?

    答:
    不同的采样率支持不同的方言、语种的识别,可能存在一些采样率和方言、语种的搭配是不识别的,具体信息详见录音识别文档。
  • 问:识别准确率低,相比原文差距大?

    答:
    请检查音频请求头是否设置正确,包括音频频率等,音频格式是否与上传的音频相符合,上传音频的速度是否过快。
  • 问:识别的输入数据的时间间隔?

    答:
    每发送2048字节,建议间隔64ms,上传音频速度过快会导致音频转译不及时而返回空结果。