完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
` 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法,这个也是在SEO优化中惊颤运用到的技术。
备选文档检索具体做法分为分块、创建索引、文本预处理、获取查询、检索5个步骤: 1)分块。对可疑文档进行切分。对文本进行切分时,本实验采用的是把文本按固定大小(300个单词)进行切分。 2)创建索引。对于参考文档集,按照文本自然段建立索引。每篇可疑文档中的片段都有和它相对应的参考文档。 3)文本预处理。对可疑文档进行预处理,包括停用词的移除、大小写字母转化和词干提取。 4)获取查询。获取单词权重,对于可疑文档利用TF-IDF获得关键词,并排序得到相应的关键词列表。排在前n个的关键词组成一个查询,以此类推,本试验中n=5。 5)检索。在文档检索模块中,提交关键词组成的查询,调整提交查询个数的阈值、返回相关文档数的阈值等。 关键词相关性是相对创意而言的。百度SEO为了更好的匹配:关键词-创意-着陆页面,而提出了组里面的词最好相关,这样的好处在于,好管理后台,分组明确创意好编辑,着陆页面好设置,最终能给用户带来好体验。通过这个思路来实施就可以了。保证 关键词-创意-着陆页面 的统一就可以了。 华强PCB-电子工程师的SEO工厂 -工程师的元器件2016百度优化的风向指南 EasyEDA在线PCB layout工具 ` |
|
相关推荐
|
|
谢谢,好好学习一下。
|
|
|
|
|
|
1125 浏览 0 评论
345 浏览 0 评论
在只有一个电子负载仪的情况下,如何持续监控并记录太阳能充电板的全程充电电流?
2315 浏览 1 评论
6556 浏览 1 评论
9738 浏览 1 评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-12-26 17:07 , Processed in 0.550167 second(s), Total 72, Slave 53 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (威廉希尔官方网站 图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号