由于手机普及率的提高和短信通信费的低廉,垃圾短信已经严重侵扰到了手机用户的正常生活,诈骗短信更是使不少用户蒙受损失。《2015上半年中国移动互联网安全报告》显示,全国垃圾短信数量高达199亿条。所以为广大用户建立起来一个可靠、准确、高效、智能的短信过滤平台,对手机短信实施有效的管制,具有重要的意义和价值。
当前垃圾短信过滤技术主要分为基于关键词和基于短信内容的过滤。前者要求只要短信中包括的敏感词汇超过一定数目就被认定为垃圾短信,该方法简单但是误判率比较高;一种是基于短信内容的过滤,通过机器学习的方法把短信自动分为正常短信和垃圾短信。通过对基于机器学习的短信文本自动分类常用算法朴素贝叶斯、SVM、KNN、人工神经网络算法等有缺点进行分析,选取简单高效的朴素贝叶斯算法。针对海量短信数据,本文提出基于MapReduce的朴素贝叶斯垃圾短信过滤方案,将垃圾短信过滤过程移植到云计算平台,充分利用云计算平台对海量数据的高效存储和处理能力,通过MapReduce模型对垃圾短信过滤过程进行并行化处理,实现垃圾短信高效、智能的过滤。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
全部0条评论
快来发表一下你的评论吧 !