搜索引擎工作原理了解

SEO常识 seo2020 6年前 (2020-09-06) 1112℃

从事SEO（搜索引擎优化）工作的人可以比喻成搜索引擎的贴身管家，作为一名合格称职的管家必须要了解所服务对象的习性，爱好，健康程度等。

SEO服务的对象是搜索引擎，必须对它的运行规律、工作原理、习性、优缺点等都铭记在心，多多实践操作，平时实践的越多，经验也就越丰富。

搜索引擎是由人创造出来的，所以也是有理可寻的。搜索引擎工作过程有主要的三段工作流程，爬行、预处理及服务输出。

一、爬行抓取：

抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL，访问这个URL，把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面，和用户浏览器访问一样，也会在服务器原始日志中留下记录。

爬行抓取是搜索引擎工作中重要的一步，把所有需要抓取的地方抓取回来处理分析，因此如果在抓取这部分出错，后面就完全瘫痪了。

搜索引擎是事先已经处理好了所抓取的网页。搜集工作也是要按照一定的规律来进行，基本上有以下两种特征：
1、批量收集：对互联网上只要是存在链接的网页都收集一遍，耗时在几周左右。缺点在于增加了额外的带宽消耗，时效性也不高。
2、增量收集：是批量收集的一个技术升级，完美的弥补了批量收集的缺点。在原有的基础上搜集新增加的网页，变更上次收集之后有改变的页面，删除收集重复和不存在的网页。

二、预处理：

搜索引擎蜘蛛抓取的原始页面，并不能直接用于查询排名处理。也不可能直接在用户输入关键词后返回排名结果。因此抓取来的页面必须经过预处理，为最后的查询排名做好准备。

1、提取文字

搜索引擎抓取到页面HTML代码时，首先会做的是从HTML文件中去除标签、程序，提取出可以用于排名处理的页面文字内容。

2、中文分词

分词是中文搜索引擎特有的步骤。英文句子单词与单词之间有空格作为间隔，搜索引擎可以直接把句子划分为单词的集合，中文则不能。搜索引擎需辨认哪些字会组成一个词语，哪些字本身就是一个词。比如“空气开关”将被分为“开关”和“空气”两个词。

中文分词方法基本上有两种：基于词典匹配和基于统计。

基于词典匹配方法是指将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。如果按照扫描方向，基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同，又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合，又可以产生正向最大匹配、逆向最大匹配等不同方法。词典匹配方法计算简单，其准确度在很大程度上取决于词典的完整性和更新情况。

基于统计的分词方法是指分析大量文本字样，计算出字与字相邻出现的统计频率，几个字相邻出现越多，就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速，也有利于消除歧义。

基于词典匹配和基于统计的分词方法各有优劣，实际使用中的分词系统都是混合使用两种方法的，快速高效，又能识别生词、新词，消除歧义。

3、去停止词

无论是英文和中文，页面内容中都会有一些出现频率很高，却对内容没有任何影响的词，如“的”、“地”之类的助词，“啊”、“哈”之类的感叹词，“从而”、“以”、“却”之类的副词或介词。这类词被称为停止词。搜索引擎会在索引页面之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

4、消除噪声

5、去重

同一篇文章会被不同的网站使用，搜索引擎不喜欢这种重复性内容。试想一下，如果用户在前两页看到的都是不同网站的同一篇文章，那势必会造成用户体验差的表现。搜索引擎只希望返回相同文章中的一篇，所以在进行索引前还需要识别和删除重复内容，这个过程叫去重。

去重的基本方法是对页面特征关键词计算指纹，也就是说从页面主体内容中选取最有代表性的一部分关键词（经常是出现频率最高的关键词），然后计算这些关键词的数字指纹。这里的关键词选取是在分词，去停止词，消噪之后。通常识选取10个特征关键词就可以达到比较高的计算准确性，再选取更多词对去重准确性提高的贡献也就不大了。

6、正向索引

正向索引也可以简称为索引。经过前面五个步骤，搜索引擎得到的就是独特的，能反应页面主体内容的、以词为单位的字符串。接下来搜索引擎就可以提取关键词，按照分词程序划分好的词，把页面转化为一个关键词组成的集合，同时记录每一个关键词在页面上的出现频率、出现次数、格式（如出现子啊标题标签、黑体、H标签、锚文字等）、位置等信息。这样，每个页面都可以记录为一串关键词集合，其中每个关键词的词频、格式、位置等权重信息也都记录在案。

7、倒向索引

正向索引还不能直接用于排名。假设用户搜索关键词2（见上图），如果只存在正向索引，排名程序需要扫描所有索引库文件，找出包含关键词2的文件，再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。

8、链接关系计算

搜索引擎在抓取页面内容后，必须事先计算出：页面上有哪些链接指向哪些其他页面，每个页面有哪些导入链接，链接使用了什么锚文字，这些复杂的链接指向关系形成了网站和页面的链接权重。Google PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算，虽然它们并不称之为PR值。

9、特殊文件处理

除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片和视频，对Flash这类非文字内容，以及脚本和程序只能进行有限的处理。

10、质量判断

在预处理阶段，搜索引擎会对页面内容质量、链接质量等作出判断。近几年的百度和Google等推出的算法都是预先计算，然后上线，而不是实时计算的。这里所说的质量判断包含很多因素，并不局限于针对关键词的提取和计算，或者针对链接进行数值计算。比如对页面内容的判断，很可能包括了用户体验、页面排版、广告布局、语法、页面打开速度等，也可能会涉及到模式识别、机器学习，人工智能等方法。

三、服务输出：

1、输出结果

搜索引擎最终会跟用户的搜索输出结果，这里就是我们看到的百度快照了，在前面搜索引擎综合评估的机制原理中，我们可以看到搜索引擎已经做了初步处理，然后再根据用户的实际搜索词来进行具体的调整，然后输出结果。

我们做网站优化的目的就是为了提高关键词的排名，那么我们怎么快速提升关键词排名呢？现场SEO培训刘少庆相信在这部分内容里大家能够找到一些答案。

2、智能完善

搜索引擎还有另外的工作，那就是本身不断的学习和完善，通过这种智能学习，不断完善规则，给搜索用户展现更加符合期望的搜索结果。