完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI 婴儿啼哭是向成年人反映婴儿生理机能的主要交流形式。检测婴儿哭闹的类型有助于了解婴儿的现状,有助于早期发现病理疾病[1]。科学家们认为,婴儿的哭声和成人的哭声一样,因此,对婴儿哭声识别的研究应参考成人的语音识别。婴儿哭闹的声学信息在不同类型的哭闹中显示出显著差异,这将有助于使用机器学习进行婴儿哭闹识别[2]。过去正在进行许多婴儿哭闹识别研究,可将其分为两大类,即使用声学参数的统计分析和分类研究以及与机器学习相关的婴儿哭闹辨识研究。在本文中,我们将建议使用机器学习方法来建立一个模型,该模型可用于对不同类型的婴儿哭声进行分类。成人语音识别中使用的机器学习类型可以在婴儿的哭声识别研究中重复,前提是不同类型哭声的声学特征有明确的边界。因此,婴儿的哭声识别实验过程与成人的语音识别研究过程相同。RBN和CNN是两种著名的深度学习神经网络模型,已用于图像和语音识别[3]。婴儿哭声的声学特征首先被转换为接近人类耳朵感知的数学模型,称为梅尔频率倒谱系数(MFCC)[4]。RBN具有分布式隐藏状态,可以对不同的婴儿哭声进行建模和分类。这可以确保馈送到RBN中的声学特征与不同类型的婴儿哭闹相关联,使得RBN可以将高维的原始数据定位为可以馈送到CNN中的相关的低维数据。由于隐藏层之间没有连接,RBN在很大程度上将原始MFCC分解为仅可见的隐藏连接,这意味着婴儿的哭声识别问题被转换为二分图问题,该问题可以使用RBN中的吉布斯采样或其他数学模型解决[5]。通过将RBN堆叠成几层,形成的深层信任网可以与CNN联系起来。CNN在图像识别中的应用是因为它能够很好地处理通常由曲线和边界形成的图像的原始数据的维度。然而,CNN不适合直接对MFCC本地频率进行模式化,因为在该CNN中存在卷积层,该卷积层具有以有限带宽对输入信号进行卷积的滤波器。为了解决这个问题,我们建议使用RBN作为CNN的预训练,使该MFCC像一个静态频谱一样,可以进行相关变换,并在相关的局部过程频谱中表示婴儿的哭声[6]。 婴儿的哭声样本是在医务人员的帮助下从马来亚大学医学中心采集的。通过将Olympus录音机放在距离哭闹婴儿口腔5厘米的地方,以16 kHz的采样率和8位分辨率记录样本。总共收集了500个婴儿啼哭声,每种啼哭类型都有100个啼哭样本。这些婴儿不到2周大。所有文件都以WAV文件格式记录。分别收集疼痛、寒冷、饥饿、尿布更换和不适(另一个未知的哭泣原因)这五种类型的哭泣。在婴儿接受常规注射时采集疼痛哭闹样本。喂食前采集饥饿哭闹样本。在婴儿进行常规沐浴时采集冷哭样本。换尿布时采集哭闹样本,对于其他未知的自发哭闹,则将其归类为因不适引起的哭闹。每个哭泣样本只对应一种类型或原因。MFCC是机器学习分类相关问题中最常用的特征之一。MFCC源于模拟人类听觉功能的梅尔尺度滤波器组。在这项研究中,只有婴儿哭声的有声部分考虑了将原始数据转换为MFCC。样本通过hamming窗口进行解析,然后只有浊音部分被考虑到分析窗口中。所使用的总窗口大小为145ms,25ms的静态移动窗口与10ms的窗口大小重叠。这创建了每个样本总共13帧((145−25)/10+1)。使用功率谱对数的短时间傅立叶变换来转换每个帧,以形成梅尔尺度滤波器组。然后通过离散傅立叶变换将它们转换为系数。每个帧将采用其原始的13阶MFCC,其一阶和二阶导数形成总共507(3913)个输入节点,这些节点将被馈送到RBN中。通过考虑重叠窗口,翘曲函数可以表示静态窗口中的变化,以便将哭声样本很好地表示为可训练的形式。每个哭声总共有100个样本,形成总共500个训练和测试样本。它们被分为5个交叉验证集,这将有助于下面描述的实验的推广。 使用RBM模型对输入信号的频谱可变性进行建模。在这项研究中,我们使用的RBM只与可见节点和隐藏节点之间的连接有关。RBM中不存在可见-可见连接和隐藏-隐藏连接。每个可见-隐藏连接都由具有权重和偏差值的能量函数表示。由于婴儿的哭声被认为是一个时间序列问题,因此使用的RBM类型是条件RBM,因为它能够通过将可见节点分组为一组来对序列数据进行建模,然后执行条件时间步长从一组移动到另一组。通过这样做,婴儿哭闹的动态可以在喂入隐藏层的下一层之前很好地建模。这里,帧组的总数是13,其中每个组包含39个节点(由转换为MFCC的窗口的每个帧表示)。由于隐藏单元内没有连接,所有隐藏节点都有条件地相互独立。对于实验,我们正在评估不同数量的隐藏节点,它们是200、500、1000或2000。隐藏节点的数量将改变CNN的结构,但是对于应用于CNN输入的具有不同缩放的所有不同数量的隐藏节点,CNN的输入节点的分组方法是相似的。 CNN层由卷积层和最大池化层组成。RBM输出连接到作为卷积层的CNN的输入层。为了简单起见,我们使用一个输入层和一个隐藏层。卷积层将滤波器应用于RBN的输出层,其中每个滤波器沿着输入空间广义化。在这项研究中,我们评估了滤波器大小为4个波段的卷积层,每个波段的总滤波器为100个。RBM中使用的200、500、1000或2000个输出节点与100个滤波器进行卷积。每个带都有自己的共享权重,该共享权重连接到卷积层的隐藏层,每个带都用共享权重卷积到隐藏层,这减少了混合系统中的节点总数,从而减少了可能在CNN层中产生的过拟合。对于最大池化层,我们正在评估最大池化的不同频带大小(1-8)的使用,以确定哪种最适合混合系统。CNN的输出层是一个有五个节点的层,也相当于婴儿哭闹的总数。当每个频带向输出层汇集时,顶层中的较低数量提供了CNN训练的收敛性。RBM-NN混合的整个架构如图所示。1。V和h分别是可见和隐藏的权重连接,B是添加到连接的偏置。 |
|
|
|
920 浏览 2 评论
RK3588 HDMI in 接入设备如何获取HDMI in 传入的音频?
1488 浏览 1 评论
23477 浏览 1 评论
1263 浏览 0 评论
硬创大赛项目专访 | 田奕鑫:专注细分领域创新,我们和行业巨头“化敌为友”
94638 浏览 1 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-12-28 01:56 , Processed in 0.372976 second(s), Total 34, Slave 28 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (威廉希尔官方网站 图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号