网络蜘蛛 深度优先或是广度优先
发布时间:2022-02-13 11:21:37 所属栏目:优化 来源:互联网
导读:网络蜘蛛 学名Spider,又叫网络爬虫! 关于网络蜘蛛的概述这里就不多讲了,今天我主要想说的是关于蜘蛛的爬行设计的方式与方法。 我们可以分为2种: 那么什么是深度优先? 什么是广度优先?有什么用? 上海SEO (SWJ) 下面为大家讲解!本人学知浅薄只会用通俗的
"网络蜘蛛" 学名Spider,又叫"网络爬虫"! 关于网络蜘蛛的概述这里就不多讲了,今天我主要想说的是关于蜘蛛的爬行设计的方式与方法。 我们可以分为2种: 那么什么是深度优先? 什么是广度优先?有什么用? 上海SEO (SWJ) 下面为大家讲解!本人学知浅薄只会用通俗的话与道理与大家分析,如有错误请及时联系我 所以还请大家多多见谅包含! 一种是深度优先策略,一种是广度优先策略! 以下我们就围绕这2点进行分析SWJ非常欢迎大家一起交流、学习与探讨! 深度优先顾名思义就是让网络蜘蛛尽量的在抓取网页时往网页更深层次的挖掘进去 讲究的是深度!也泛指: 网络蜘蛛将会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接! 以下我发张图 大家看下: (下面这张是 简单化的网页连接模型图 其中A为起点 也就是蜘蛛索引的起点!) 总共分了5条路径 供蜘蛛爬行! 讲究的是深度! 点此在新窗口中查看原始图片 (下面这张是 经过优化的网页连接模型图! 也就是改进过的蜘蛛深度爬行策略图!) 点此在新窗口中查看原始图片 根据以上2个表格 我们可以得出以下结论: 图1:路径1 ==> A --> B --> E --> H 路径2 ==> A --> B --> E --> i 路径3 ==> A --> C 路径4 ==> A --> D --> F --> K --> L 路径5 ==> A --> D --> G --> K --> L 经过优化后 图2: (图片已经帮大家标上方向了!) 路径1 ==> A --> B --> E --> H 路径2 ==> i 路径3 ==> C 路径4 ==> D --> F --> K --> L 路径5 ==> G 深度爬行的优点是:网络蜘蛛程序在设计的时候相对比较轻易些把 其他我也没发觉有什么优点... 还有就是 蜘蛛的这种 "勇往直前"的精神 值得学习下! ^_^ 接下来 我们介绍下普遍使用的 广度优先策略 大家休息下 喝杯咖啡 看的也累把 我写的也累.... ^^ 广度优先在这里的定义就是层爬行。什么叫蜘蛛层爬行?就是一层一层的爬行 按照层的分布与布局 去索引处理与抓取网页! 当然SE不会派一个蜘蛛去的 每层会派一个或多个蜘蛛Spider去抓取内容! (编辑:海南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐