近日,国际性语音及语言科学技术领域盛会INTERSPEECH 2023在爱尔兰都柏林举行。云知声联合上海师范大学发表的4篇论文被大会成功收录,成果覆盖语言增强、语音识别、防攻击声纹等研究方向。这是继ACM MM 2023后,云知声AGI技术实力在2023年再次获得国际顶会认可。
INTERSPEECH在国际上享有极高盛誉并具有广泛的学术影响力,是由国际语音通讯协会(ISCA)创办的旗舰级国际会议,是国际性语音及语言科学技术领域的顶级会议之一,对参会企业和单位有着严苛的准入门槛,历届INTERSPEECH会议都倍受全球各地语音研究领域人士的广泛关注。
此次获得国际顶会认可,既是云知声与上海师范大学通力合作、持续探索智能语音技术的结果,也离不开云知声AGI技术架构的有力支撑。
云知声:通过通用人工智能(AGI)创建互联直觉的世界
云知声AI技术体系及U+X战略
作为中国AGI技术产业化的先驱之一,云知声于2016年打造Atlas人工智能基础设施,并构建公司云知大脑(UniBrain)技术中台,以山海(UniGPT)通用认知大模型为核心,包括多模态感知与生成、知识图谱、物联平台等智能组件,并通过领域增强能力,为云知声智慧物联、智慧医疗等业务提供高效的产品化支撑,推动“U(云知大脑)+X(应用场景)”战略落实,践行公司“通过通用人工智能(AGI)创建互联直觉的世界”的使命。
作为云知大脑(UniBrain)的重要组件,智能语音技术包含语音识别、声纹识别、语音合成等,目前已广泛应用于家居、车载、客服等领域。以车载场景为例,在云知声智能语音技术的加持下,可实现多音区识别、连续语音交互、个性化语音播报、所见即可说、模糊指令匹配等强大语音能力,为用户带来更智能更自然的交互体验。随着云知声智能语音技术的不断发展,其在各个场景的落地应用也将进一步提速。此次论文收录,充分印证了云知声在智能语音领域的技术创新实力,同时,也将进一步夯实其AGI技术底座,加速千行百业的智慧化升级。
接下来,云知声将继续践行“U+X”战略,携手上海师范大学等高校机构,共同加强AI基础理论和关键技术的研发,不断拓展AGI应用场景,为智慧物联与智慧医疗两大领域提供更广泛、更深入的人工智能解决方案,致力实现以人工智能赋能千行百业的美好愿景。
以下为入选论文概览:
研究方向:语音增强
目前主流时频语音增强系统以复频谱作为输入,存在着训练工具不支持复数,复数建模方式不易训练,以及基于掩蔽的方法理论上无法完全恢复出干净语音的问题。为解决以上问题,本文提出了一种无需掩蔽的语音增强系统。该系统利用短时离散余弦变换(STDCT)作为特征,不仅与STFT同样具备信息完备性,而且是一种实数特征。我们在MetaFomer基础上,结合MobileNet block的轻量架构以及NAFNet的设计理念构建了全局局部模块,整个网络由此模块堆叠而成。结果表明,相比其他网络,MFNet的性能达到了SOTA水平,且计算量具有优势。
研究方向:语音识别
Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition
低资源重口音语音识别是当前ASR技术在实际应用中面临的重要挑战之一。在这项研究中,我们提出了一个基于Conformer的架构,称为Aformer,以利用大量非口音和有限口音训练数据的声学信息。在Aformer中设计了一个普通编码器和一个口音编码器来提取互补的声学信息。此外,我们使用多通道的方式训练Aformer,并研究了三种交叉信息融合方法,以有效地结合来自一般编码器和口音编码器的信息。结果表明,在六个域内和域外口音测试集上,我们提出的方法优于Conformer基线,词/字错误率相对减少了10.2%到24.5%。
研究方向:语音识别
Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR system
在端到端的自动语音识别(ASR)中,开发有效的目标建模单元是非常重要的,也是大家一直关注的问题。我们提出一种语音辅助的多目标单元(PMU)建模方法,以渐进式表征学习的方式增强Conformer-TransducerASR系统。具体来说,PMU首先使用语音辅助子词建模(PASM)和字节对编码(BPE)分别产生语音诱导和文本诱导的目标单元;在此基础上,我们提出了三种增强声学编码器的框架,包括基本PMU、paraCTC和paCTC,它们集成了不同层次的PASM和BPE单元,用于CTC和transducer多任务训练。在LibriSpeech和口音ASR测试集上的实验结果表明,与传统的BPE相比,提出的PMU方法显著降低了LibriSpeech clean、other和6个重音ASR测试集的WER,分别降低了12.7%、6.0%和7.7%。
研究方向:防攻击声纹
Advanced RawNet2 with Attention-based Channel Masking for Synthetic Speech Detection
自动扬声器验证系统通常很容易受到欺骗攻击,特别是不可见的攻击。由于语音合成和语音转换算法的多样性,如何提高合成语音检测系统的泛化能力是一个具有挑战性的问题。为了解决这个问题,我们提出了一种改进的RawNet2,通过引入一个基于注意力的通道掩蔽模块来改进RawNet2,其中包括三个主要组成部分:SE、通道掩蔽和全局-局部特征聚合。在ASVspoof2019和ASVspoof 2021数据集上评估了该系统的有效性。其中,ARawNet2在ASVspoof 2019 LA任务上达到了4.61%,在ASVspoof 2021 LA和DF任务上的EER分别达到了8.36%和19.03%,比RawNet2基线分别降低了12.00%和14.97%。
审核编辑:彭菁
全部0条评论
快来发表一下你的评论吧 !