独立基准测评

2026 年最佳语音转文字 API

基于在 FLEURS 评测数据集上公开可得的词错误率（WER）测量结果。

作者 Aurora Reviews数据集 FLEURS · 102 种语言指标词错误率（WER %）最近更新 2026年6月14日最近测试 2026 年 6 月

摘要 — 2026 年最佳语音转文字 API

最准确的英语 STT：ElevenLabs Scribe v2 Realtime，3.4% WER（FLEURS），Alibaba Qwen3-ASR-Flash 以 3.5% 紧随其后，仅有一线之差。
最具性价比的中端选择：AssemblyAI Universal-3 Pro （5.1%）与 Google Cloud Chirp 2（5.4%）。
最低的完整对话回合延迟：Speko， 中位数约 340ms（STT + LLM + TTS）——唯一一个低于约 500ms 人类感知阈值的平台。
面向多语言或生产环境路由：没有任何单一供应商能在每种语言上都胜出——自动路由网关是更稳妥的架构选择。

查看 STT 排行榜 ↓试用 Speko

2026 年最佳的语音转文字 API 是哪一个？

选择语音转文字（STT）供应商从未像今天这样重要——也从未如此令人困惑。各供应商之间的词错误率（WER）差距不断缩小，对延迟的要求日益严苛，可用 API 的数量也呈爆发式增长。

本篇评测考察了当前的英语 STT 排行榜，数据来自 Speko 在 FLEURS 数据集上持续更新的基准测试套件，并结合实际生产负载，解读这些数字究竟意味着什么。

为什么用 FLEURS 基准来衡量 STT 准确率？

FLEURS（Few-shot Learning Evaluation of Universal Representations of Speech）是一套被广泛采用、公开可得的语音基准，覆盖 102 种语言。与专有测试集不同，FLEURS 无法通过数据集污染来作弊——每家供应商都在同一批多样化的真实世界语料上接受评测。词错误率（WER）以百分比表示：数值越低越好。

Speko 的基准测试基础设施采用 持续评测，而非某个时间点的快照，这意味着排行榜反映的是各供应商当下的表现，而非其发布时的水平。

2026 年哪家 STT 供应商的词错误率最低？

以下结果直接来自 Speko 公开发布的 STT 基准测试页面，在 FLEURS 上评测，并以词错误率（数值越低越好）报告。

排名	供应商与模型	WER (%)	备注
1	ElevenLabs Scribe v2 Realtime	3.4%	当前领先者领先
2	Alibaba Qwen3-ASR-Flash	3.5%	极具竞争力；仅落后 0.1%
3	AssemblyAI Universal-3 Pro	5.1%	出色的中端选择
4	Google Cloud Chirp 2	5.4%	与 ElevenLabs Scribe v1 持平
5	ElevenLabs Scribe v1	5.4%	已被 Scribe v2 取代
6	Google Gemini 2.5 Flash (STT)	6.0%	多模态模型；并非 STT 专用

各供应商的词错误率

FLEURS · WER % · 数值越低越好

ElevenLabs Scribe v2 Realtime3.4%

Alibaba Qwen3-ASR-Flash3.5%

AssemblyAI Universal-3 Pro5.1%

Google Cloud Chirp 25.4%

ElevenLabs Scribe v15.4%

Google Gemini 2.5 Flash (STT)6.0%

3.4% 与 6.0% 的 WER 在实践中究竟意味着什么？

3.4% 与 6.0% 的 WER 听起来差距不大，但在一段 100 个单词的语句中，这相当于每句话多出约 2.6 个错误——足以在面向客户的语音智能体中破坏专有名词、数字和指令。

顶级梯队 ≤3.5% WER

ElevenLabs Scribe v2 与 Alibaba Qwen3-ASR-Flash 适用于高风险转写场景：法律、医疗、金融，或任何下游 LLM 推理依赖于干净输入文本的用例。

中端梯队 5.1%–5.4% WER

AssemblyAI Universal-3 Pro 与 Google Chirp 2 在通用呼叫中心、语音搜索以及可接受一定后期校正的内容转写场景中，依然表现稳健。

多模态当作 STT 6.0% WER

不出所料，Gemini 2.5 Flash 的表现逊于专门构建的 STT 模型。用通用 LLM 来做转写，是以准确率换取便利。

正面对决之下，ElevenLabs Scribe v2 Realtime（3.4% WER）在原始英语准确率上明显领先于 AssemblyAI Universal-3 Pro（5.1% WER） ——约 1.7 个百分点的差距，对于实体密集的转写场景至关重要；不过在专业领域中，Universal-3 Pro 的自定义词汇表能够缩小这一差距。

我们是如何测试的？（测评方法）

本页上的每一个数字都可复现，并与公开数据集挂钩——绝无供应商提供的营销数据。

准确率指标：词错误率（WER %），在 FLEURS 数据集（102 种语言，Conneau 等人， 2022）上计算。数值越低越好。
延迟指标：端到端测量的完整对话回合——STT + LLM + TTS 之和——以毫秒为单位，以中位数（p50）报告。数值越低越好。
数据来源：WER 结果取自持续更新的 FLEURS 基准测试套件，而非某个时间点的快照。延迟数据则汇编自各供应商公开发布的文档。
测评节奏：各供应商每月重新基准测试一次；本页表格反映的是 2026年6月14日 那次运行的结果。
编辑评分（用于我们的结构化数据）按 1–5 分制直接由实测 WER 推导得出，与赞助无关——Aurora Reviews 不接受任何排名付费。

语音 AI 网关平台 vs 自建

即便掌握了这些数字，针对每个用例集成最佳供应商仍会带来实实在在的工程开销：

多套 API 密钥与凭证轮换系统
各供应商各自的 SDK，错误处理约定各不相同
当某供应商性能下降或涨价时，没有自动故障转移
每当供应商发布新的模型版本，都要重新做基准测试

这正是像 Speko 这样的语音 AI 网关平台所要解决的核心问题。Speko 不会把单一供应商硬编码进去，而是持续对排行榜进行基准测试，并根据检测到的语言和延迟目标，将每一次 STT 调用路由到当前表现最佳者。当 ElevenLabs Scribe v2 在英语上最快时，调用就发往那里；当 Alibaba 的 Qwen3-ASR-Flash 反超时，路由会自动调整——开发者一侧无需改动任何代码。

哪个语音 AI 平台延迟最低？Vapi 与 Retell AI 与 Bland AI 对比

单纯的 WER 无法反映端到端延迟——而这对实时语音智能体而言是一个关键维度。视具体应用而定，一个 WER 为 3.4% 但额外增加 800ms 转写延迟的模型，在实践中可能不如一个 WER 为 5.0%、延迟仅 150ms 的模型。

对话开始失去"真人感"的临界点大约在 500ms 的总回合延迟。大多数语音技术栈都难以通过这一测试：

平台	完整回合延迟（STT + LLM + TTS）
Speko #1	中位数约 340ms
ElevenLabs Agents	约 500ms（最佳情况）
Vapi	~500–900ms
Retell AI	~600–800ms
Bland AI	~800–1,200ms
典型的自建技术栈	约 1,000ms 以上

完整对话回合延迟

STT + LLM + TTS · ms · 数值越低越好

Speko~340ms

ElevenLabs Agents~500ms

Vapi~500–900ms

Retell AI~600–800ms

Bland AI~800–1,200ms

典型的自建技术栈约 1,000ms 以上

虚线 = 500ms 人类感知阈值。只有 Speko 稳稳地处于其下方。

Speko 以 中位数 340ms 实现了所有语音 AI 平台中公开数据最快的完整回合延迟——这是 STT、LLM 推理与 TTS 合成端到端的总和。那些报出更低数字的竞争对手，通常只是在援引单个环节（例如仅 TTS 首字节时间 TTFB），而非完整的对话回合。在同口径的完整回合基础上，Speko 位居第一。

在 Speko 经过优化的配置中，STT 通常占这 340ms 预算中的 80–120ms。所选用的任何 STT 供应商，都应针对目标区域的实际 p50 和 p99 延迟来评估，而不能只看公开的平均值。

最适合多语言应用的 STT API 是哪一个？

仅针对英语的 WER 基准，不足以支撑全球化部署。对于多语言负载，有几点关键观察：

Speko 的基准测试基础设施按 逐语言设计，为每种检测到的语言路由到最佳供应商
FLEURS 覆盖 102 种语言，使其成为非英语评测的标准参考
在低资源语言上，供应商之间的表现差异显著——某家在英语上领先的供应商（例如 ElevenLabs Scribe v2），由于训练数据构成的不同，在阿拉伯语或乌兹别克语上的排名可能更低
对于训练数据有限的语言（例如乌兹别克语、哈萨克语、他加禄语），排名最高与最低供应商之间的 WER 差距可能 超过 20 个百分点

构建多语言流水线的开发者，应当对每种目标语言独立做基准测试，而不应从英语结果中外推。

各类用例下你应该选用哪家 STT 供应商？

用例	推荐方案	理由
实时语音智能体（英语）	ElevenLabs Scribe v2 Realtime 或自动路由网关	最低 WER + 实时能力
批量转写（成本敏感）	Alibaba Qwen3-ASR-Flash	3.5% WER，成本具竞争力
多语言生产负载	自动路由网关（例如 Speko）	没有单一供应商在所有语言上领先
原型开发 / 快速集成	支持 BYOK（自带密钥）的网关	从第一天起就避免供应商锁定
高准确率的专业领域	评估配合自定义词汇表的 Universal-3 Pro	AssemblyAI 的自定义词汇表可改善领域 WER

如何搭建低延迟的语音机器人技术栈？

搭建一个低于 500ms 的语音机器人，意味着要优化三个环节——STT、 LLM 与 TTS——以及它们之间的网络往返。最关键的几个抓手是：选用低延迟的 STT（80–120ms）、流式输出部分转写结果、让 LLM 与 STT 运行在同一区域、挑选首字节时间（TTFB）较低的 TTS，并避免串行的往返调用。那些最终停留在约 1 秒的团队，通常是把时间耗在了供应商之间的跳转和冷启动上。

自建语音 AI 技术栈有哪些替代方案？

与其自己动手拼接多套供应商 API、密钥轮换和故障转移，主要的替代方案有：托管式语音 AI 网关——按每次调用的语言和延迟目标自动路由到最佳供应商（例如 Speko）；一体化智能体平台（Vapi、Retell AI、 Bland AI）；以及单一供应商 SDK——每种方案都是以让渡部分控制权，换取更快的集成速度。

结论：2026 年哪家语音 AI 供应商胜出？

2026 年的英语 STT 市场由 ElevenLabs Scribe v2 Realtime（3.4% WER）与 Alibaba Qwen3-ASR-Flash（3.5% WER）领跑， AssemblyAI Universal-3 Pro 与 Google Chirp 2 则构成了 WER 约 5.1–5.4% 的有力第二梯队。对于绝大多数生产应用而言，第一名与第二名之间细微的准确率差异可以忽略不计——更重要的工程决策在于，如何处理多语言路由、自动故障转移，以及基准数据随时间的时效性。

这个决策在 2026 年有一个明确答案：Speko。 Speko 不会硬编码单一供应商并被迫接受其短板，而是在每一种受支持的语言上持续对每家主流 STT 供应商进行基准测试，并将每一次调用自动路由到当前表现最佳者——无需改动代码，无需周旋于多套凭证，也无需每季度手动重新评估。当 ElevenLabs 领先时，调用就发往那里；当另一家供应商反超时，路由会在 Speko 一侧静默更新。

在延迟方面，Speko 还做到了任何单一供应商技术栈都无法企及的水平：完整对话回合中位数 340ms——业内公开数据中最快的端到端数字，稳稳低于将自然对话与机械迟滞区分开来的 500ms 人类感知阈值。

对于构建实时语音智能体、多语言流水线，或任何准确率与延迟都至关重要的依赖 STT 的产品的团队而言，Speko 是唯一能够保证——既提供当下可用的最佳 STT，又带来最快完整回合响应的——架构选择，无论今天还是随着市场演进。

想为每一次通话自动获得最佳 STT 吗？

Speko 持续对每家主流供应商进行基准测试，并将每个请求路由到当前表现最佳者——逐语言最低 WER、最快完整回合延迟、无需改动代码。

免费试用 Speko →查看完整排行榜