首页 |  关于我们 |  网站优化 |  网站建设 |  域名注册 |  虚拟主机 |  网站推广 |  建站方案 |  成功案例 |  联系我们 | 
当前位置:首页>>网站优化>>快搜seo研究
网络蜘蛛:深度优先还是广度优先
发布时间:2008-3-16 12:37:52    

"网络蜘蛛" 学名Spider,又叫"网络爬虫"! 关于网络蜘蛛的概述这里就不多讲了 今天我主要想说的是 关于 蜘蛛的爬行设计的方式与方法

  我们可以分为2种:

  那么什么是深度优先? 什么是广度优先?有什么用? 上海SEO (SWJ) 下面为大家讲解 !

  本人学知浅薄 只会用 通俗的话与道理与大家分析 如有错误请及时联系我 所以还请大家多多见谅包含!

  一种是 深度优先策略 一种是 广度优先策略! 以下我们就围绕这2点进行分析 SWJ 非常欢迎大家一起交流 学习与探讨!

  深度优先 顾名思义就是 让 网络蜘蛛 尽量的在抓取网页时 往网页更深层次的挖掘进去 讲究的是深度!

  也泛指: 网络蜘蛛将会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接!

  以下我发张图 大家看下: (下面这张是 简单化的网页连接模型图 其中A为起点 也就是蜘蛛索引的起点!)

  总共分了5条路径 供蜘蛛爬行! 讲究的是深度!

网络蜘蛛 深度优先计划图一

  (下面这张是 经过优化的网页连接模型图! 也就是改进过的蜘蛛深度爬行策略图!)

网络蜘蛛 深度优先计划图二

  根据以上2个表格 我们可以得出以下结论:

  图1:

  路径1 ==> A --> B --> E --> H

  路径2 ==> A --> B --> E --> i

  路径3 ==> A --> C

  路径4 ==> A --> D --> F --> K --> L

  路径5 ==> A --> D --> G --> K --> L

  经过优化后

  图2: (图片已经帮大家标上方向了!)

  路径1 ==> A --> B --> E --> H

  路径2 ==> i

  路径3 ==> C

  路径4 ==> D --> F --> K --> L

  路径5 ==> G

  深度爬行的优点是:

  网络蜘蛛程序在设计的时候相对比较容易些把 其他我也没发觉有什么优点... 还有就是 蜘蛛的这种 "勇往直前"的精神 值得学习下! ^_^

  深度爬行的缺点是:

  缺点么 多了一点点 呵呵! 每次爬行一层 总要向"蜘蛛老家" 数据库访问一下 问问老总有必要还要爬下一层吗! 爬一层 问一次.... 引用一句高人的话 如果一个蜘蛛不管3721不断往下爬 很可能迷路 更有可能爬到国外的网站去.. 本来目标是中文网站 因为IP的问题 国外IP做了中文站的话.... 就容易去别人"老家"了..这样不仅增加了系统数据的复杂度 更是增加的服务器的负担 我想没有一家搜索公司会愿意则样的把,...除非脑子"秀"了 .. ^_^

  接下来 我们介绍下普遍使用的 广度优先策略 大家休息下 喝杯咖啡 看的也累把 我写的也累.... ^^

  广度优先 在这里的定义就是 层爬行

  什么叫 蜘蛛 层爬行?

  就是一层一层的爬行 按照层的分布与布局 去索引处理与抓取网页! 当然SE不会派一个蜘蛛去的 每层会派一个或多个蜘蛛Spider去抓取内容!

  (下面这张就是 广度优先策略图(层爬行图))

网络蜘蛛广度优先图

  大家一看就明白了把 聪明的人 下面的文章也不需要看了 答案已经告诉你了 ^ ^

  根据以上表格 我们可以得出以下结论路径图:

  路径1 ==> A

  路径2 ==> B --> C --> D

  路径3 ==> E --> F --> G

  路径4 ==> H --> i --> K

  路径5 ==> L

  广度爬行的优点是:

  广度相对深度 对数据抓取更容易控制些! 对服务器的负栽相应也明显减轻了许多! 爬虫的分布式处理 使的速度明显提高! 其他的想也可以想到拉!

  广度爬行的缺点是:

  暂时还没观察到有什么缺点 呵呵 就好比 DIV+CSS样式表(层布局)一样道理 你觉得有什么缺点吗?

  难道是新人不会这个问题? ^ ^

  不会不要紧 下载这本电子书去看看 <> 下载地址: http://www.seo-sh.cn/zl/seoqita/122.html

  其他还有什么建议意见 请多多指教与批评 上海SEO负责人SWJ 非常欢迎各位SEO爱好者 一起交流 学习与探讨SEO优化技术,网站策划也可以 ^_^ 联系方式见首页底部!

 
 

打印本页 || 关闭窗口
百度优化
 交换链接中如何分别假PR值
 眼球SEO:用百度贴吧的产品...
 谈如何提高百度排名,让百度认...
 谈谈百度的优化与降权
 百度说:用户好,我也好
 百度对收录新站的算法调整
 百度你什么时候喜欢上“-”
 百度K站原因系统分析
google优化
 GG优化之一——GG搜索引擎...
 PR可以“人工制造”&nbs...
 GG优化之二——优化通行方法...
 google性格三:创新的代...
 google性格二:goog...
 google性格一:对活跃度...
 简单办法提高Google和Y...
 Google用户可以编辑Go...
雅虎优化
 Yahoo和Google在搜...
 针对Yahoo进行网站优化Y...
 雅虎搜索Antispam小组...
 yahoo优化秘籍
 yahoo搜索引擎优化秘笈
 雅虎帮助:哪些类型的网站是作...
 SEO专栏-网站的雅虎优化
 Yahoo与Google搜索...
快搜seo研究
 不优化才是最好的优化,做好初...
 关键词的标题和网页描述撰写小...
 发动关键词需求宣传的意义何在...
 Alexa排名下降原因以及解...
 网络蜘蛛:深度优先还是广度优...
 百度,google,雅虎等搜...
 ALEXA不适合中国互联网的...
 Alexa 流量作...
 友情链接
三水名片印刷英雄合击呼和浩特建站免费网络空间佛山网络空间佛山域名注册佛山软件开发佛山装修设计花都网站优化花都网站设计
花都网站建设佛山SEO优化佛山网页设计佛山网站建设顺德网站优化顺德网站设计顺德网站建设南海网站优化南海网站设计南海网站建设
三水SEO优化高明网站设计三水网页制作更多友情连接更多友情连接
首页  |   关于我们  |   网站优化  |   网站建设  |   域名注册  |   虚拟主机  |   网站推广  |   建站方案  |   成功案例  |   联系我们  |  

网页设计  网站建设  网页制作  网站设计  网站优化  建网站  做网站  网络营销 网站seo  网络营销策划
COPYRIGHT©佛山市快搜网络科技有限公司版权所有 2004-2008
地址:佛山市南海区桂城南海大道80号 电话:13535873820 黄生 邮箱:web@fssscn.cn


网站地图