工作原理分为4个部分:
A.抓取 找ULR
1.深度抓取——>树状结构抓取
2.广度抓取——>同级抓取,一层一层的抓
不抓取js,flash,表格,框架,404错误 Ajax 图片
但是flash可以加文字 图片可以使用alt属性也会被抓取
B.过滤
1.复制的内容卡掉
2.文不对题卡掉
3.没有丰富的内容卡掉
C.收录(存储索引库)
对结果进行有质量提取和组织建立索引库
D.展示结果
根据用户搜索的关键字,通过各种精密算法把收录的结果展示出来
搜索引擎, 工作原理
工作原理分为4个部分:
A.抓取 找ULR
1.深度抓取——>树状结构抓取
2.广度抓取——>同级抓取,一层一层的抓
不抓取js,flash,表格,框架,404错误 Ajax 图片
但是flash可以加文字 图片可以使用alt属性也会被抓取
B.过滤
1.复制的内容卡掉
2.文不对题卡掉
3.没有丰富的内容卡掉
C.收录(存储索引库)
对结果进行有质量提取和组织建立索引库
D.展示结果
根据用户搜索的关键字,通过各种精密算法把收录的结果展示出来
搜索引擎, 工作原理
评论前必须登录!
注册