第一、关于爬虫抓取(快,全,新)
百度内部对搜索引擎特点有三个主要关键词的概述,分别为快,全,新
针对于快的解释,百度快速的把网页抓取回去
针对于全的解释,百度希望在国内把所有中文网站做成镜像,把全部有价值的东西都搜罗回去
针对于新的解释,对应时效性的问题,尽量做成实时性的
第二、关于解析抽取(易,准)
针对网页建设:
从易来说,希望网页结构简单,可以快速的从网页当中提取出有价值的信息,包括结构正文以及其他结构化的数据。
从准来说,希望网页要做的很准确,不要乱填乱写,别把标题弄成了摘要,这个是不允许的
第三、网页建库(优)
如果以上两步都做到的话,那么第三步体现的数据也都是优质的网页,是水到渠成的了。
感谢您的转载与分享,没关注微信公众号的朋友,可点击添加朋友-添加公众号输入jwzmtbk进行关注!
文,姜文自媒体,原文链接:http://jiangwenseo.com/view/531.html
评论前必须登录!
注册