随着互联网的迅速普及和发展,人们从万维网上获取信息的途径和速度得到极大的拓展和提高,在获得信息的同时,对信息处理也提出了相应的需求。目前,在信息的表示中,声音、图形、图像、文本等类型众多,但是文本仍然是这些类型中最主要的表示载体之一,在信息处理领域中,对于文本聚类、分类、查重等领域往往需要计算两个文本之间的相似度,而且相似度计算往往是其他处理步骤的前提和基础,相似度的计算往往决定着后续处理过程的准确性和有效性。
文本相似度是衡量多个文本之间在表述内容方相似程度的一个具体数值,这个数值越大表明互相比较的两个文本之间在内容方面交集越大,否则就表示相比较的文本之间在内容上相互交集的内容越少。相似度的计算目前已经应用到很多的领域,在机器翻译领域需要通过文本相似度来选取平行语料、在信息检索。领域需要通过文本相似度来扩展或者缩减检索的范围,从而获得用户最希望得到的结果,自动问答领域中往往需要问题自动分类以及答案聚类,这些都需要进行文本相似的计算,文本聚类和文本分类的核心问题就是将相似的对象归为一类,所以文本相似度的计算是一个非常重要和非常基础而且关键的一个技术问题。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !