铁路文本分类对于我国铁路事业的发展具有重要的实用意义。现有的中文文本特征提取方法依赖于事先对文本的分词处理,然而面向铁路文本数据进行分词的准确率不髙,导致铁路文本的特征提取存在语乂理解不充分、特征获取不全面等局限性。针对以上问题,提出了一种字符级特征提取方法CLW2( Character level-word2Ⅴec),有效地解决了铁路文本中专业词汇丰富且复杂度高所导致的问题。与基于词汇特征的TF-IDF和Word2Vec方法相比,基于宇符特征的CLw2Ⅴ方法能够提取更为精细的文本特征,解决了传统方法依赖事先分词而导致的特征提取效釆不佳的问题。在铁路安监发牌数据集上进行的实验验证表明,面向铁路文本分类的CLW2Ⅴ特征提取方法优于传统的依赖分词的TF-IF和 Word2vec方法。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !