随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配( DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。
在互联网发展早期,网络上可获取文本数据的渠道(数据源)较少,文本挖掘任务主要面向单源文本数据。随着互联网的快速发展,特别是移动互联网的普及率越来越高,几乎每个人都能上网获取资讯和发表观点,因此出现了各种各样的文本数据生产渠道,如各种社交媒体、新闻门户、博客及william hill官网 等。这些渠道时刻都在产生海量的文本数据,同时对这些文本数据源进行主题信息提取通常具有比较重要的应用价值,如在网络新闻采编和网络舆情分析应用中,需要知道在每个渠道的主题分布,以及某个关注的主题在每个渠道的表现方式等。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !