在本实验中,我们分析了“Khule Dao”和“Bondho Koro”的真实音频信号。之后,我们开发了一种算法,可以自动识别测试数据。
研究趋势:
这里简要讨论最近关于孟加拉语语音识别的两项研究。
在语音识别方面,世界各地在各种语言中进行了大量的研究实验并取得了成果。但是,在孟加拉语中,该领域的早期研究人员取得了一定的成功,尽管近年来情况正在发生变化。本研究工作旨在开发一种基于神经网络的孟加拉语连接数字识别系统。首先,开发了一个由男性和女性说话者组成的孟加拉语数字语料库。语音以连接方式记录,单词通过自动分割提取。然后计算分割词的 MFCC 特征,并将这些特征值作为输入发送到反向传播神经网络 (BPNN)。BPNN 学习算法用于训练网络。训练网络所需的时间、隐藏层的数量、在训练网络以达到最佳识别精度时,会考虑错误阈值和时期数。这个提议的系统已经使用面向对象的编程实现了,所获得的识别精度非常令人满意和一致。该网络已经针对三种不同的设置进行了测试,数字数据集的最佳识别准确率为 98.46%。[1]
语音识别是一种生物识别技术,用于识别特定的个人语音。特定语音的语音波构成了说话人识别的基础。我们可以在电话银行、电话购物、访问数据库信息和语音邮件等多个应用领域使用语音识别。语音识别的强大应用之一是出于安全目的,一个人可以输入他/她的语音进行身份验证。每种类型的声音都有其独特的特征,称为特征,从单个声音中提取这些特征的过程称为特征提取。将提取的语音特征与数据库中已保存的语音进行比较以进行匹配。[2]
提取技术:
audioread、num2str、strcat、fft、abs、最大值、长度。
1.我们的技术特点是基于快速傅立叶变换(fft)的简单语音识别系统。
2.首先使用MATLAB的audioread函数分析音频信号
对于 I = 1:116
s1 ='Z:\EEE 309\Open_Ended\Train_Data\Train_Open\OP-';
s2 = num2str(i);
s3 = '.mp3';
文件1 = strcat(s1,s2,s3);
如果存在 (file1, 'file') == [y, t] = audioread(file1);
3. 然后对所有循环中的所有信号的给定输入数据应用 fft
NFFT=长度(y);% 找到 y 的长度
x=fft(y, NFFT);
4.使用max函数求最大幅度
x1=abs(x);
F=((0:1/NFFT:1-1/NFFT)*Fs);
max_amp=max(x1);
5.使用find函数找到最大幅度的对应频率
b=find(x1==max_amp(1));
F_KD_max(i)=F(b(1));
6. “Khule Dao”和“Bondho Koro”的频率值相加并取平均值
7. if(F_KD_max(i)>50 && F_KD_max(i)<600)
c1 = c1 +1;
sum1=sum1+F_KD_max(i);
结尾
average_max_frequency_of_Khule_Dao=sum1/c1
8. 我们建议,如果测试数据的频率之差(绝对值)对应于最大幅度,并且“Khule Dao”的平均频率值小于测试数据的频率与“Bondho Koro”的平均频率之差,那么测试数据将被预测为“Khule Dao”,反之亦然“Bondho Koro”
Diff_khule_dao_max(i)= abs(F_max(i)-average_max_frequency_of_Khule_Dao);
Diff_bondo_koro_max(i)= abs(F_max(i)-average_max_frequency_of_bondo_koro);
if(Diff_bondo_koro_max(i) >= Diff_khule_dao_max(i))
disp('Khule 道')
No_of_khule_dao=No_of_khule_dao+1;
别的
disp('邦多科罗')
No_of_bondho_koro=No_of_bondho_koro+1;
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !