了解独特的文本转语音应用-电子发烧友网

虚拟助手在用户发出命令后就会作出语音回复。而生成语音回复的技术被称为文本转语音（TTS）。

TTS 应用能够让辅助器具使用者访问更多内容，因此非常实用。最新的 TTS 技术可以从一段几分钟的音频数据中生成合成声音，非常适合仅留存了有限录音的失音者。

事实上，TTS 的应用正在因技术进步而不断增长：

在几毫秒内运行端到端 TTS 流程，以实现自然互动。
在推断时自定义 AI 模型和流程，以产生具有表现力的合成语音。
部署在所有云、数据中心、边缘或嵌入式设备上。

本文将说明语音合成系统如何运作，然后介绍 TTS 技术的常见用途和新用途。

语音合成系统如何工作

顾名思义，文本转语音或语音合成是将书面文本转换成自然、类似人类的语音音频的过程。在端到端 TTS 流程中用于实现这一转换的关键模型和模块包括：

文本规范化和预处理：将数字和缩略语变成文字。
文本编码：将文本转换为输入到声谱图生成器的编码向量。
声谱图生成器：从编码文本向量中生成声谱图。
语音编码器模型：输入声谱图并生成一个人们可以听到的合成语音。

一般来说，TTS 是虚拟助手、数字人和服务机器人等应用的最终阶段。

常见的 TTS 应用

2021 年 IDC 对话式 AI 采用情况调查共调研了 251 家公司，其中 74.5% 在语音对话式 AI 解决方案中使用 TTS，68.5% 在无障碍解决方案中使用 TTS（图 1）。

图 1. IDC 关于常见 TTS 用例的调查

语音合成的功能用途正得到许多行业的认可，人们可能已经看到过以下 TTS 技术用例。

虚拟网红

虚拟网红正在改变未来与企业或名人沟通的方式。虚拟网红也称为虚拟品牌大使或品牌代言人，它们可以协助公司推广产品和服务，名人也可以通过它们与粉丝保持全天候的联系。

在这些用例中 TTS 技术生成了自定义声音，然后被整合到动画虚拟网红或数字大使身上。

文本叙述

文本叙述能够大声朗读所有类型的文本。这项 TTS 功能可用于网站及阅读类应用，为喜欢音频类节目的人带来了福音。有视觉障碍的人也可以使用文字叙述听到他们喜欢的内容。

TTS 用于在这些应用程序上将文本转换成语音并朗读出来。但这项工作并不像表面上那么简单。为了提升收听体验，此类应用的声音必须抑扬顿挫、富有节奏和表现力。

常见的语音转文本准确性问题

对于生活在现代社会的人来说，最流行和具有吸引力的媒介莫过于音频和视频内容。TTS 技术可以帮助内容创作者为视频配音或创建播客。

为了获得更多的受众，创作者还可以使用 TTS 技术将博客、新闻文章等文本内容转换成音频。

TTS 的使用十分灵活，用户可以在变声器等应用中改变语音的音调、节奏和音量，使声音变得更具表现力。

独特的 TTS 应用

除了这些日常应用外，企业家们正在探索各种新颖的 TTS 应用。下文将介绍开发独特语音合成技术的公司。

用于智慧医院的语音通知亭：Artisight

Artisight 是一个应用于医院的物联网传感器网络，可改善医院的运营、财务业绩和患者体验。该公司帮助美国许多顶尖医院提高运营效率，同时通过任务自动化给患者带来更好的体验，比如呼叫患者到挂号窗口和化验等。

医院可以使用 TTS 技术与患者和访客分享有关医院服务、设施位置和一般健康公告的信息。该技术也可以使用多种语言帮助可能不会说医院当地语言的人。

视频 1. Artisight “诊所协调员”解决方案演示

上面的视频演示了医院通知亭的文字转语音技术如何读出患者排队单上的号码。

挑战和解决方案

过去，医院接待人员需要手动登记患者信息并在轮到患者就诊时通知他们。这种耗时的登记流程降低了医院的效率和患者的满意度。

Artisight 开发的语音签到、通知亭等智慧医院解决方案可提升患者的体验。

Artisight 和 NVIDIA Riva 赋能的通知亭实现了有效、快速的患者登记流程，将等待时间缩短了一半并避免了数据输入错误，最终提高了员工的工作效率和患者的满意度。

为数字虚拟形象提供类似人类声音：NVIDIA

TTS 技术使计算机能够将书面文字转换成语音，进而让数字人能够“开口说话”并以更加自然、有代入感的方式与用户交流。

为了取得用户的信任，数字人所说的话必须高度准确，尤其是当它们被用于教育、娱乐或其他互动用途时。使用 TTS 技术生成自然、类似人类的语音可以帮助数字人吸引用户的注意力和兴趣。

正如 NVIDIA Omniverse Avatar Cloud Engine（ACE）演示所示，AI 虚拟形象Toy Jensen 能够理解黄仁勋的问题并作出自然的回答。Toy Jensen 的声音使用 NVIDIA Riva 创建。

视频 2. 用于构建实时、交互式 AI 助手的 NVIDIA Omniverse ACE 平台

挑战和解决方案

开发用于数字人的 TTS 可能有一定的难度，尤其是在创造自然、真实的语音方面，并且难度取决于地区和语言。这是因为使用传统和统计算法创建的 TTS 系统可能导致语音听起来像是机器人或机械发出的，而用户对此可能不会“买账”。

此外，由于 TTS 系统受数据集、所使用的模型和模块类型等诸多因素影响，因此要为数字人应用创建灵活的自适应语音具有一定的难度。这使开发者难以生成具有细微差别和富有表现力的语音。

最后，数字人需要在不牺牲质量的情况下实时生成大量语音，因此创建高效、可扩展的 TTS 系统至关重要。

NVIDIA 为数字人和虚拟形象生成了自定义语音，比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可帮助开发只需短短几毫秒就能实时运行且精准的 TTS 流程，满足实现自然语音的必要条件，还可以灵活调整音调、持续时间和音量等，使生成的声音更具表现力。

开始使用语音合成

用户现在就可以开始将 TTS 功能集成到应用中，例如阅读内容或生成数字网红独特声音等。NVIDIA Riva 等 SDK 可以帮助用户开发出提供高准确度并进行高性能推理的应用。

点击“阅读原文”试用 NVIDIA Riva TTS。

扫描下方海报二维码，观看 NVIDIA 创始人兼 CEO 黄仁勋在 COMPUTEX 2023 的主题演讲直播回放，主题演讲中文字幕版已上线，了解 AI、图形及其他领域的最新进展！

原文标题：了解独特的文本转语音应用

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3775

浏览量
91029

原文标题：了解独特的文本转语音应用

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

ASR语音识别技术应用

ASR（Automatic Speech Recognition）语音识别技术，是计算机科学与人工智能领域的重要突破，能将人类语音转换为文本，广泛应用于智能家居、医疗、交通等多个领域。以下是对ASR

发表于 11-18 15:12 •614次阅读

助盲环境感知装置设计方案

今天为大家带来的是来自创作者X同学的作品：助盲环境感知装置. 这个装置主要利用Grove Vision AI V2-Camera module识别环境中的物体，并利用XIAO ESP32S3和树莓派进行语音输出，结合了物体检测和文本转语

发表于 11-05 11:42 •221次阅读

TMS320C6000 MCBSP转语音带音频处理器(VBAP)接口

电子发烧友网站提供《TMS320C6000 MCBSP转语音带音频处理器(VBAP)接口.pdf》资料免费下载

发表于 10-26 10:17 •0次下载

WT2605C TTS在线语音合成芯片：赋能多行业领域，引领产品智能化

在当今科技日新月异的时代，语音技术正逐步渗透到我们生活的方方面面，而TTS（Text-To-Speech，文本到语音）技术作为其中的重要一环，更是以其独特的魅力改变了人机交互的方式。W

发表于 09-12 15:54 •303次阅读

收款机TTS语音芯片新方案：WT3000T8，双语合成流畅，字库解码多样！

一：方案背景概述随着科技的飞速发展，人工智能和语音识别技术在各个领域都得到了广泛应用。其中，文本转语音（TTS）技术以其独特的优势，在收款机语音

发表于 07-27 08:38 •654次阅读

【算能RADXA微服务器试用体验】+ GPT语音与视觉交互：4，文字转语音

文字转语音使用的技术简称为TTS。一般情况下我用的都是在线的EDGE-TTS服务。但非常幸运的是，BM1684X上居然有适配好的本地运行TTS，那自然是要体验一番。先转到project文件夹

发表于 07-15 23:18

Jacob：从ElevenLabs解决的行业问题来看，AI创业的思路与互联网时代并不相同

人声是最原始、最个性的表达方式之一，为了提高效率，很多时候我们会使用合成语音来代替人声，涉及到的商业场景有很多，例如虚拟智能助理、客户呼叫中心、有声读物和媒体内容创作。文本转语音（TTS）是合成

发表于 07-10 08:05 •232次阅读

收款机TTS语音芯片新方案：WT3000T8，双语合成流畅，字库解码多样！

不同播报要求下语音占用大量资源空间的问题。可以实现低成本低功耗的文本转语音，支持中英文两种功能，实现播报语音自由配置无需通过升级方式替换语音

发表于 06-26 11:17 •657次阅读

讯飞星火长文本功能全新升级

科大讯飞近日宣布，其首个长文本、长图文、长语音大模型已完成全新升级。这一大模型不仅具备强大的学习能力，可以快速吸收海量文本、图文资料以及会议录音等多元化信息，更能在各行业场景中提供精准、专业的回答。

发表于 05-06 11:22 •555次阅读

科大讯飞创新推出长文本、长图文、长语音大模型，解决落地难题

近期，科大讯飞推出了首个支持长文本、长图及语音大数据处理的大模型，该系统融合了多元化数据源，包括海量文字、图片以及会议音频等，能为各行业场景提供专业化、精准化的答案。

发表于 04-28 09:32 •373次阅读

stm32f0怎么不使用语音IC做合成语音？

我这边板子就一个功放威廉希尔官方网站，要求不使用语音IC做语音，我听别人说去了解MP3这一方面，但我只找到MCU软解码，但我怎么不了解，不清楚怎么做成自己的语音

发表于 04-25 06:00

WT3000T8-TTS语音合成芯片及应用场景介绍

TTS语音合成芯片是一种能够将文本信息转化为自然语音的专用芯片。它通过内置的语音合成算法和音频处理单元，实现了文本到

发表于 04-18 18:03 •885次阅读

玩转语音合成芯片（TTS芯片），看这一篇就够了

什么是语音合成芯片：语音合成芯片也称为TTS芯片，即文字转语音芯片，是一种能够将输入的文字信息转换为语音输出的芯片。通过TTS芯片，我们可以将文字信息转化为自然

发表于 03-19 18:13 •1399次阅读

快速全面了解大模型长文本能力

那关于LLM的长文本能力，目前业界通常都是怎么做的？有哪些技术点或者方向？今天我们就来总结一波，供大家快速全面了解。

发表于 02-22 14:04 •855次阅读

亚马逊发布史上最大文本转语音模型BASE TTS

亚马逊的人工智能研究团队近日宣布，他们成功开发出了迄今为止规模最大的文本转语音模型——BASE TTS。这款新模型拥有高达9.8亿个参数，不仅在规模上超越了之前的所有版本，还在能力上实现了质的飞跃。

发表于 02-20 17:04 •854次阅读