搜寻引擎算法

搜寻引擎算法：获得网站网页资料，建立资料库并提供查询的系统，我们都可以把它叫做搜寻引擎。搜寻引擎的资料库是依靠一个叫“网路机器人（crawlers）”或叫“网路蜘蛛（Spider）”的软体，通过网路上的各种连结自动获取大量网页信息内容，并按一定的规则分析整理形成的。Google、百度都是比较典型的搜寻引擎系统。为了更好的服务网路搜寻，搜寻引擎的分析整理规则---即搜寻引擎算法是变化的。

基本介绍

中文名：搜寻引擎算法
搜寻引擎举例：Google、百度
变革意义：引领第四代搜寻引擎的升级
依赖软体：网路机器人或叫网路蜘蛛

定义

公式

GoogleScore = (KW Usage Score * 0.3) + (Domain Strength * 0.25) +(Inbound Link Score * 0.25) + (User Data * 0.1) + (Content QualityScore * 0.1) + (Manual Boosts) – (Automated & Manual Penalties)

翻译：

Google分数=（相关关键字分数X0.3）+（域名权重X0.25）+（外链分数X0.25）+（用户数据X0.1）+（内容质量分数X0.1）+（人工加分）-（自动或人工降分）

因子分析

从公式中我们可以清楚的知道，影响pagerank分数的因素依次是“相关关键字”、“域名”、“外链”、“用户数据”、“内容质量”以及“人工干预”六个方面。那幺又是哪些因素影响到了这几个方面呢？

关键字分数

1.网页title中关键字的处理

2.H标籤（h1-h6）中关键字的处理

3.文本内容中关键字的密度

4.外链中关键字的选择

5.域名中的关键字

域名权重

1.域名注册前的历史问题

2.域名注册时间的长短

3.外链网站的权重

4.外链、给出连结的相关度

5.是否使用历史、连结形式

外链分数

1.连结域名权重

2.是否锚文本

3.连结数量/连结权重（PR或其他参数）

4.外链网页的主题相关度

5.连结的时间

用户数据

1.搜寻引擎结果页面(SERPs)的点击率

2.用户在网页上呆的时间

3.域名或URL搜寻量

4.访问量及其他*可以监测到的数据（工具条、GA等）

内容质量分数

1.内容的相关度

2.内容的原创性

3.内容的独特性

4.内容的抢先性和长效性

人工干预

1.投票人员干预

2.关键字人工加（扣）分

3.机器算法干预

搜寻引擎

搜寻引擎工作内容

1、收录页面：

一般收录页面需要有百度蜘蛛抓取完成，通过抓取算法来决定收录那些页面，在百度的算法调整后，对于伪原创、採集站点予以强烈的打击，所以百度在收录页面方面变得更加的严格了，高质量内容页面以及权重高的站点一般收录页面的几率会高很多。对于收录页面这方面相信很多的站长都是很清楚，每天百度蜘蛛都在分分秒秒不停地收录着，但是你会发现其实大部分的站点的收录都减少了，这是为什幺呢？因为百度需要过滤页面。

2、过滤页面：

很多页面被百度收录之后，百度认为该页面对用户没有太大的价值，或者是质量度比较低的页面，百度必然就会过滤，这也是用户体验好的一种表现，很多站点以最佳化为目的，丝毫不考虑用户的体验，例如一些桥页、跳转页面这些就是典型，百度的k站就是一种过滤页面的表现，把那些作弊的站点的页面全部的过滤掉。很多人抱怨6.22和6.28百度k站事件，尤其是那些屌丝站长们整天在论坛抱怨这个抱怨那个，为什幺k你的站，很显然你的站点真的是以用户体验为核心运营站吗？做SEO的人大多都是为了最佳化而运营站点，每天写的站内的更新、做外链肯定一部分是为了最佳化而最佳化，百度k你的站是牺牲少部分人的利益，更多的用户是从中获益的，要知道多少人在使用百度，如果搜寻出来的信息是你为了最佳化而运营的站点，低质量的页面，那百度其实是拿自己未来的前途给你最佳化站点做铺垫的。所以过滤页面这方面百度非常的严格，大家也不要使用seo作弊技术了。

3、建立索引：

经过了收录页面以及过滤页面的工作之后，百度会对这些页面逐一进行标记和识别，并将这信息进行储存为结构化的数据，储存到百度的搜寻的伺服器中，这些储存的数据有网页的信息、网页的标题关键字页面描述等标籤、网页外链及描述、抓取记录。还会将网页中的关键字信息进行识别和储存，以便与用户搜寻的内容进行匹配。建立完善的索引资料库，方便呈现出最佳的显示信息

4、显示信息：

用户输入的关键字，百度会对其进行一系列複杂的分析，并根据分析的结论在索引库中寻找与之最为匹配的一系列网页，按照用户输入的关键字所体现的需求强弱和网页的优劣进行打分，并按照最终的分数进行排列，展现给用户。一般显示出最佳信息需要是最适合匹配关键字相关的页面，包括站内最佳化和站外最佳化的因素。

搜寻引擎蜘蛛

基本概述

搜寻引擎蜘蛛即Search Engine Spider，是一个很形象的名字。把网际网路比喻成一张蜘蛛网，那幺Spider就是在网上爬来爬去的蜘蛛。搜寻引擎蜘蛛是通过网页的连结地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它连结地址，然后通过这些连结地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个网际网路当成一个网，那幺搜寻引擎蜘蛛就可以用这个原理把网际网路上所有节点的网页都抓取下来。

由于网际网路上无数的网站页面，搜寻引擎蜘蛛无法将所有的页面都下载保存到伺服器。因此，许多搜寻引擎的网路蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的连结广泛度（及外部连结的数量与质量）。

抓取网页策略

在抓取网页的时候，搜寻引擎蜘蛛一般有两种策略：广度优先和深度优先（如下图所示）。广度优先是指搜寻引擎蜘蛛会先抓取起始网页中连结的所有网页，然后再选择其中的一个连结网页，继续抓取在此网页中连结的所有网页。这是最常用的方式，因为这个方法可以让搜寻引擎蜘蛛并行处理，提高其抓取速度。深度优先是指搜寻引擎蜘蛛会从起始页开始，一个连结一个连结跟蹤下去，处理完这条线路之后再转入下一个起始页，继续跟蹤连结。这个方法有个优点是搜寻引擎蜘蛛在设计的时候比较容易。两种策略的区别，下图的说明会更加明确。由于不可能抓取所有的网页，有些搜寻引擎蜘蛛对一些不太重要的网站，设定了访问的层数。例如，在上图中，A为起始网页，属于0层，B、C、D、E、F属于第1 层，G、H属于第2层，I属于第3层。如果搜寻引擎蜘蛛设定的访问层数为2的话，网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜寻引擎上搜寻到，另外一部分不能被搜寻到。对于网站设计者来说，扁平化的网站结构设计有助于搜寻引擎抓取其更多的网页。

访问网站许可权

搜寻引擎蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页许可权的问题，有些网页是需要会员许可权才能访问。当然，网站的所有者可以通过协定让搜寻引擎蜘蛛不去抓取，但对于一些出售报告的网站，他们希望搜寻引擎能搜寻到他们的报告，但又不能完全免费的让搜寻者查看，这样就需要给搜寻引擎蜘蛛提供相应的用户名和密码。搜寻引擎蜘蛛可以通过所给的许可权对这些网页进行网页抓取，从而提供搜寻。而当搜寻者点击查看该网页的时候，同样需要搜寻者提供相应的许可权验证。

常见的算法

百度的石榴算法，绿萝算法，绿萝算法2.0，飓风算法、原创星火计画、白杨算法、轻舟算法，惊雷算法、

天网算法、烽火算法、细雨算法、石榴算法、极光算法、闪电算法、蓝天算法、冰桶算法。

谷歌的熊猫算法，企鹅算法

实用文章网

搜寻引擎算法

搜寻引擎算法

基本介绍

定义

公式

因子分析

关键字分数

域名权重

外链分数

用户数据

内容质量分数

人工干预

搜寻引擎

搜寻引擎蜘蛛

基本概述

抓取网页策略

访问网站许可权

常见的算法

热门文章

随机文章

关于本站

联系我

特别鸣谢