互联网思维倡导者
改变烟台SEO优化,网站运营,网络营销现状

搜索引擎原理大揭秘–详细笔记哦!

搜索引擎工作原理

在我们开始做SEO 时,随着一点点的了解我们怎是容易忽略SEO中最重要的知识理论–搜索引擎的工作原理。弄明白搜索引擎的工作原理,那么等遇到问题的时候,我们就知道问题的原因所在了,我们就能更好的优化我们的网站了。一个搜索引擎,一般由下面几个模块组成:yuanli

1、抓取模块

2、过滤模块

3、收录模块

4、排序模块

1、1抓取模块

1、搜索引擎抓取程序:蜘蛛

搜索引擎为了可以自动抓取互联网上面数以亿计的网页,必须有一个全自动的页面抓取程序。而这个程序我们一般称之为“蜘蛛”(也可以叫做“机器人”)。无论叫做蜘蛛还是机器人,只要记住指的是搜索引擎的抓取程序就可以了。(不同的搜索引擎叫法不同,如下:)zhizhu

谷歌–谷歌机器人
百度–百度蜘蛛
360–360蜘蛛

2、怎么让蜘蛛来抓取我们的网站

外部链接:在已经被搜索引擎收录的网站上发布自己网站的链接,来吸引蜘蛛。(常用方法:交换友情链接)

提交链接:我们通过链接提交工具提交给百度,百度就会派蜘蛛来抓取我们的网站了。

百度网址提交工具网址:
蜘蛛自己来抓取:如果希望蜘蛛能够定期主动来自己的网站抓取,必须提供优质的网站内容。
3、怎么知道蜘蛛来过我们的网站

(1)百度抓取频次工具

改工具网址为:
(2)服务器日志IIS日志

如果服务器开起了IIS日志功能,通过IIS日志文件看到蜘蛛来过的痕迹。

4、影响蜘蛛抓取的因素

有哪些因素可能造成蜘蛛无法正常抓取我们的网页,我们应该注意以下几点:

(1)网址不能过长:百度建议网址的长度不要超过256个字节(一个英文占一个字节,一个中文占两个字节)

例:蜘蛛喜欢:蜘蛛不喜欢:(2)网址中不要包含中文:百度对于中文网址的抓取效果比较差。

(3)服务器质量差:浏览时总是打不开或打开速度很慢,影响蜘蛛抓取效果

(4)Robot.txt屏蔽:由于SEO人员疏忽在Robot.txt文件里屏蔽了百度想要抓取的的页面。

(5)避免出现蜘蛛难以解析的字符:如
(6)动态参数不要太多太复杂:过多且复杂的路径容易被蜘蛛认为不重要而放弃。

1、2过滤模块

蜘蛛为了保证自己的存储资源是用户和搜索引擎需要的,而过滤掉自己抓取回来无内容且质量低的页面的功能模块,即过滤模块
(1)识别
蜘蛛擅长对文字和链接的识别,不擅长图片和链接的识别。对于蜘蛛不擅长的识别很可能被当做垃圾网站过滤掉。
(2)内容质量
在识别内容的基础上,还会抓取网页内容,与数据库中的内容进行对比,如果与数据库中的内容大部分重复将被过滤掉。

1、3收录模块

通过过滤模块“考核”的网页,进行分词、数据格式标准化,然后将其存储到索引数据库中程序模块,我们称之为收录模块。

1、如何查看某个网页是否被收录

把该网址搜索到复制到百度搜索框中进行搜索。

shoulu

2、如何查看一个网站的收录量

(1)site命令
通过“site:域名”的命令,我们可以看到搜索引擎抓取了某个域名下的页面收录量。

shou2

(2)索引量查询工具

shou3

(3)收录量少怎么办?

a.新站

一般来说新站刚上线,要1-2个月才能收录。前期只收录一个首页,百度为了防止垃圾站的泛滥,故意拉长审核时间,要做的就是提供优质内容。

b.老站

收录量少,是网页内容质量太差导致,应尽快调整网站的内容质量。

1、4排序模块

对存入数据库中的页面,通过一系列算法得到的每个页面的权重,并且将其进行排序处理的程序,称之为排序模块。

1、完善基础优化

要想获得良好的排名,首先要做好网页的基础优化,包括:网站定位、网站结构、网站布局、网站代码、网站内容等

2、综合数据良好

在做好基础优化的基础上,加入你的百度统计后台数据表现良好,用户的忠诚度以及站外推广的效果显著的话,就会在集合线上加分,有利于排名。

1、5总结

了解搜索引擎的原理有什么用呢?就在于当遇到一些SEO技术问题的时候,可以通过搜索引擎的原理找到原因,轻松应对。
更多学习笔记尽在洪新seo博客,http://hongxinseo.com/希望大家共同交流学习

赞(0) 打赏
未经允许不得转载:泥鳅SEO(张弘宇)博客,烟台SEO,互联网思维学习倡导者 » 搜索引擎原理大揭秘–详细笔记哦!
分享到: 更多 (0)

评论 1

评论前必须登录!

 

五网合一企业网站建设

联系我们在线客服

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏