SEO新手入门之搜索引擎的工作原理

2016-07-07 14:43 阅读 220 次 评论 0 条

搜索引擎的工作原理非常复杂,SEO人员不必过于深入研究,简单了解即可。我们所掌握的技术对于搜索引擎来说只是皮毛而已,不过对于大部分SEO人员来说已经够用了。如果不懂搜索引擎的工作原理,就好比盲人摸象,雾里看花,到最后网站关键词排名无法得到有效的提升。搜索引擎的工作原理主要分为六个阶段,抓取网页数据、建立索引库、过滤垃圾页面、收录优质内容、页面排序、展示搜索结果。接下来星辰SEO博客为大家分享。

搜索引擎的工作原理图

一、抓取网页数据

抓取是搜索引擎工作的第一步,完成数据的收集。搜索引擎通过蜘蛛跟踪链接发现和访问页面,读取页面的HTML代码,存入数据库。做为SEO人员要想方设法吸引蜘蛛来抓取网站页面。

1、蜘蛛

搜索引擎会排出抓取程序,俗称蜘蛛或者机器人。百度为百度蜘蛛,英文名称Baiduspider;谷歌为谷歌机器人,英文名称Googlebot;360为360蜘蛛,英文名称360Spider;搜狗为搜狗蜘蛛,英文名称Sogou News Spider;雅虎为雅虎蜘蛛,英文名称“Yahoo! Slurp China”或者Yahoo;必应为必应蜘蛛,英文名称为bingbot;常见的蜘蛛差不多就这些了,当然还有很多,就不一一介绍了。

搜索引擎的工作原理中的蜘蛛

2、跟踪链接

为了抓取互联网上更多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面到另一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的由来。从理论上来说,蜘蛛顺着一个链接一个链接的爬行,都可以爬行到网上的所有链接,但在实际工作中,蜘蛛的带宽资源、时间都是有限的,所有不可能爬行完所有的页面,搜索引擎收录的只是互联网很小的一部分。

3、吸引蜘蛛

要想更多的页面被搜索引擎收录,就要想方设法的吸引蜘蛛来抓取。重要的页面会被蜘蛛优先抓取,那什么是重要的页面呢,主要有以下几点。

①、网站和权重页面:    质量高、资格老的网站被认为权重高,这种网站上的页面被爬行的深度也会比较高,所有会有很多内页被收录。

②、页面更新度:     蜘蛛每次爬行都会把页面数据存储起来,如果下次爬行还和上次一样都是相同内容,久而久之,蜘蛛就不经常来了,做为SEO人员就要经常更新文章,使蜘蛛不断的抓取新的页面。

③、导入链接 :  无论是外部链接还是内部链接,要被蜘蛛抓取,就必须要有导入链接进入页面,否则蜘蛛就不知道页面的存在,高质量的导入链接使页面的爬行深度增加。

④、与首页的点击距离:    离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会就越高。

⑤、RUL结构:        短的、层次浅的RUL可能被搜索引擎认为在网站上的权重相对较高。

4、蜘蛛的抓取顺序

深度优先:蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行;广度优先:蜘蛛在一个页面上发现多个链接,不是顺着一个链接向前爬行,而是把页面上所有链接都爬行一篇,然后沿着第二层页面上的链接爬行到第三层页面上的链接。

搜索引擎蜘蛛抓取的数据存入原始的页面数据库中,我们可以通过百度站长平台和服务器日志查看蜘蛛什么时候来,到底什么蜘蛛访问了我们的网站,下一步就是建立索引库。

二、建立索引库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在链接、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。众所周知,索引库分为优质索引库、普通索引库、较差索引库,60%的检索需求只需调用优质索引库就可以满足需求。哪些网页可以进入优质的索引库呢,主要有以下四点。

1、有时效性且有价值的页面

2、内容优质的专题页面

3、高价值原创内容页面

4、重要个人页面

三、过滤垃圾页面

过滤在现实生活中指的是过滤掉一些我们不喜欢的人或者事情,在搜索引擎中就是过滤掉一些谷歌、百度等搜索引擎不喜欢的内容或者一些低质量的内容,因为搜索引擎搜索出来的信息是要帮助用户解决问题或者找到答案,对用户而言是有价值的信息或者当前需要的问题。

为什么要过滤呢,因为网上存在着垃圾信息,对用户无用或者有害。互联网中并非所有的网页都对用户有意义,比如一些明显的欺骗用户的网页,死链接,空白内容页面等。这些网页对用户、站长、百度、谷歌等搜索引擎来说,都没有足够的价值,因此会自动对这些内容进行过滤,以避免为用户和您的网站带来不必要的麻烦。

四、收录优质内容

搜索引擎收录一个网站页面具体的数量值,收录的数量越多,收录的时间越快,证明此网站对搜索引擎比较友好。那怎么查看搜索引擎收录呢,主要有两种方式,第一种,site:域名;第二种,百度站长平台查看。

做SEO的都想网站收录增加,有收录才有排名,收录是保证排名的前提。影响网站收录的原因呢,主要有以下几种。

1、网站标题

网站标题、描述、关键词的写法在站长们的心目中一直是很慎重的一件事情,直接关系到网站的排名与流量,而且这三大标签在网站上线之后不能轻易修改,这就需要站长们事先做好准备,如果说事先没有考虑好,上线之后又去修改的话百度会认为你的网站不稳定,刚上线就修改关键标签,有作弊嫌疑,然后就把你的网站丢进沙盒,慢慢考察,此时想要百度收录网站至少要等到一个月之后,而且保证这段时间每天给网站添加高质量的文章。

2、外部链接

增加外部链接,能让搜索引擎有效地抓取和收录网页。

3、网站内容

原创的网站内容更容易被收录,采集、复制他人信息等做法一般很难收录。原创文章的最大好处,就是可以一举多得,可以增加网站被搜索引擎收录的概率,也可提升网站优化排名。新站可以到各大搜索引擎入口提交。

 

搜索引擎的工作原理中的网站收录

 

五、页面排序

用户输入关键词进行检索,搜索引擎在排序方面主要做两方面的事情,首先要把相关的网页从索引库中提取,然后按照不同的维度,相关因素进行综合排序。那影响页面的因素有哪些呢,主要有以下几个方面。

1、相关性

页面内容与用户搜索的匹配程度。比如网页内容包含关键词的个数,出现的位置,外部网页使用的锚文本等等。

2、权威性

用户喜欢有一定权威性网站提供的内容,搜索引擎更相信优质站点权威性的内容。

3、时效性

最新出现的网页,并且具有新鲜的内容,这就要求我们SEO人员要关注最新行业动态,提供最新最快内容,时效性内容在搜索引擎中越来越重要。

4、重要性

页面内容与搜索需求匹配的重要程度,或者受欢迎的程度。

5、丰富度

网页内容丰富,可以满足用户需求,内容最好图文并茂,调用视频。

6、受欢迎程度

这个网页受不受欢迎,有没有太多广告,有没有太多弹窗等等。

六、展示搜索结果

网页经历了抓取建库,参与了排序计算,搜索引擎就准备好可以随时处理用户搜索了,用户在搜索框中输入关键词后,排名程序调用索引库数据,计算排名显示给用户,直接展示搜索结果,排名过程是与用户直接互动的,最终目的就是展现在搜索引擎用户面前。比如百度搜索SEO,以下面的图片为例,一看便知。

 

搜索引擎工作原理中的展示搜索结果

 

总结:搜索引擎的工作原理是一个非常复杂的系统工程,SEO人员不必过于纠结,毕竟我们不是搜索引擎工程师,只需了解主要的工作流程即可。大体可分为抓取网页数据并建立索引库,过滤掉垃圾页面,收录优质的内容,进行搜索引擎排名计算,并把最终结果展示给用户。



版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:SEO新手入门之搜索引擎的工作原理 | 星辰seo博客
分类:SEO基础 标签:

发表评论


表情