本帖最后由 niu!kf 于 2012-3-31 16:36 编辑
语音识别系统按说话人的讲话方式可以分为孤立词(Isolated Word)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。
按识别对象的类型可以分为特定人(Speaker Dependent)语音识别和非特定人(Speaker Independent)语音识别。
输入的模拟语音信号首先要进行预处理,包括预加重、加窗分帧、端点检测等。它的功能主要是通过高频预加重来平滑信号频谱,并通过端点检测来检测出语音信号。
通过预处理后,接下来就是特征参数提取。特征提取主要是完成基于频谱的特征矢量的计算。
最后是训练或识别阶段。在训练阶段,主要是为每个词条得到一个模型,保存为参考模板。在识别阶段,将待测语音生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果进行输出。
本帖最后由 niu!kf 于 2012-3-31 16:36 编辑
语音识别系统按说话人的讲话方式可以分为孤立词(Isolated Word)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。按识别对象的类型可以分为特定人(Speaker Dependent)语音识别和非特定人(Speaker Independent)语音识别。
输入的模拟语音信号首先要进行预处理,包括预加重、加窗分帧、端点检测等。它的功能主要是通过高频预加重来平滑信号频谱,并通过端点检测来检测出语音信号。
通过预处理后,接下来就是特征参数提取。特征提取主要是完成基于频谱的特征矢量的计算。
最后是训练或识别阶段。在训练阶段,主要是为每个词条得到一个模型,保存为参考模板。在识别阶段,将待测语音生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果进行输出。
1
举报