当前位置首页 > 百科资料> 正文

深度优先策略

2022-06-26 10:04:00 百科资料

深度优先策略，"网络蜘蛛" 学名Spider,又叫"网络爬虫"! 关于网络蜘蛛的概述这里就不多讲了今天我主要想说的是关于蜘蛛的爬行设计的方式与方法。

简介

　　"网络蜘蛛" 学名Spider,又叫"网络爬虫"! 关于网络蜘蛛的概述这里就不多讲了今天我主要想说的是关于蜘蛛的爬行设计的方式与方法

　　我们可以分为2种:

　　一种是深度优先策略一种是广度优先策略! 以下我们就围绕这2点进行分析 SWJ 非常欢迎大家一起交流学习与探讨!

　　深度优先顾名思义就是让网络蜘蛛尽量的在抓取网页时往网页更深层次的挖掘进去讲究的是深度!

　　也泛指: 网络蜘蛛将会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接!

　　以下我发张图大家看下: (下面这张是简单化的网页连接模型图其中A为起点也就是蜘蛛索引的起点!)

　　总共分了5条路径供蜘蛛爬行! 讲究的是深度!

　　(下面这张是经过优化的网页连接模型图! 也就是改进过的蜘蛛深度爬行策略图!)

　　根据以上2个表格我们可以得出以下结论:

　　图1:

　　路径1 ==> A --> B --> E --> H

　　路径2 ==> A --> B --> E --> i

　　路径3 ==> A --> C

　　路径4 ==> A --> D --> F --> K --> L

　　路径5 ==> A --> D --> G --> K --> L

　　经过优化后

　　图2: (图片已经帮大家标上方向了!)

　　路径1 ==> A --> B --> E --> H

　　路径2 ==> i

　　路径3 ==> C

　　路径4 ==> D --> F --> K --> L

　　路径5 ==> G

点击展开全文

声明：此文信息来源于网络，登载此文只为提供信息参考，并不用于任何商业目的。如有侵权，请及时联系我们：baisebaisebaise@yeah.net