rmamin
贫民
贫民
  • UID911
  • 粉丝0
  • 关注0
  • 发帖数1
阅读:160回复:0

一位主持当地广播节目的朋友为现场转

楼主#
更多 发布于:2023-12-19 14:53
录讲述了同一段话。尽管他的节奏稳定且发音清晰,但生成的文本并不比我的任何实时转录尝试更准确。虽然专业的旁白可能能够实现更具体的发音,但这项技术只有在广泛使用的情况下才有用。


不幸的是,转录质量似乎太低,无法完全自动化我们提出的用例。根据您的打字速度,通过 Amazon Transcribe 运行音频然后手动编辑可能比简单的手动转录更快,但与现有 电报号码数据 的文本转语音解决方案相比,它并不是语音转文本的交钥匙解决方案。对于特定域,您可以定义自定义词汇表来提高转录准确性,但开箱即用的服务还不够先进。


与大多数服务一样,AWS 提供了用于使用 Transcribe 的 API。除非您有大量文件需要转录,或者需要转录音频以响应事件,否则我建议您使用控制台最后,我有一位主持当地广播节目的朋友为现场转录讲述了同一段话。尽管他的节奏稳定且发音清晰,但生成的文本并不比我的任何实时转录尝试更准确。虽然专业的旁白可能能够实现更具体的发音,但这项技术只有在广泛使用的情况下才有用。


不幸的是,转录质量似乎太低,无法完全自动化我们提出的用例。根据您的打字速度,通过 Amazon Transcribe 运行音频然后手动编辑可能比简单的手动转录更快,但与现有的文本转语音解决方案相比,它并不是语音转文本的交钥匙解决方案。对于特定域,您可以定义自定义词汇表来提高转录准确性,但开箱即用的服务还不够先进。


与大多数服务一样,AWS 提供了用于使用 Transcribe 的 API。除非您有大量文件需要转录,或者需要转录音频以响应事件,否则我建议您使用控制台并节省设置编程访问的时间。并节省设置编程访问的时间。虽然 Amazon Transcribe 的实时性能有些令人失望,但我们可以通过转录 Amazon Polly 读取的内容来研究系统的理论最大准确性。这两项服务应使用兼容的发音库和语音节奏,因此输入到 Amazon Polly 中的文本在往返过程中应该或多或少完好无损。当然,我们会坚持使用相同的测试段落。


你瞧,这是使转录效果明显更好的唯一策略:


“亚马逊提供了一个控制台来实验转录。要访问控制台,请登录您的 AWS 账户并通过转录服务的搜索字段进行搜索。该控制台展示了转录的全部功能,如果您只计划每周转录一些内容,那么使用控制台是一个可靠的长期选择。转录委员会为您提供两种选择。流式传输音频并上传文件。”
顽固错误仍然存在(“理事会”与“控制台”的置信度为 70%),但总体而言,文本经过一些编辑后才可用。然而,我们大多数人不像合成机器人那样说话,因此在撰写本文时我们无法获得这种品质。






虽然输出语音和文本的质量明显低于人的质量,但这些服务的成本非常低,因此它们是许多应用程序的强大替代方案。文本转语音的费用为每百万字符 4 美元(高级神经语音为每百万字符 16 美元),只需几分钱就能在几秒钟内讲述文章。语音转文本的速度为每秒 0.04 美分,可以在几分钟内转录播客,费用约为 1 美元。当然,价格可能会随着时间的推移而变化,但从历史上看,随着此类技术的进步,它们往往会变得更便宜、更有效。


由于成本低廉,您可以尝试使用这些技术来提高个人生产力等。当骑自行车或开车去上班时,不可能输入笔记或概述项目,但是,说话并自动转录意识流叙述可以完成很多计划。记者经常转录长篇采访,AWS 可以通过标记录音中说话的人的声音来自动化这一过程。在写作过程的另一方面,用稳定的机器人声音将你的作品读给你听可以帮助你识别错误和尴尬的措辞。


这些技术已经有许多用例,但随着技术的改进,这些用例只会随着时间的推移而扩大。虽然文本到语音的发音已达到近乎完美的准确性,尤其是在发音字母和标签的辅助下,但合成的语音听起来仍然不够自然。语音转文本系统非常擅长转录清晰的语音,但仍然难以处理标点符号、同音异义词,甚至是速度较快的语音。一旦这些技术克服了这些挑战,我预计大多数应用程序将至少使用其中的一个。
游客

返回顶部