雅酷SEO论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1019|回复: 0
打印 上一主题 下一主题

索引擎收录网页的三个大阶段

[复制链接]

1123

主题

0

好友

3万

积分

论坛元老

Rank: 8Rank: 8

  • TA的每日心情
    开心
    2017-3-8 16:33
  • 签到天数: 882 天

    连续签到: 3 天

    [LV.10]以坛为家III

    跳转到指定楼层
    楼主
    发表于 2013-8-29 09:03:14 |只看该作者 |倒序浏览
      网页收录第一阶段:大小通吃
      搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。
      网页收录第二阶段:网页评级
      而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」。
      爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。
      网页收录第三阶段:大站优先策略
      大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则 优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以 这个思路虽然简单,但有一定依据。

    分享到: QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    百度SEO教程|谷歌SEO学术|百度SEO谷歌|网站SEO优化|雅酷SEO论坛  

    GMT+8, 2024-11-15 14:57

    Powered by Discuz! X2.5

    © 2001-2012 Comsenz Inc.

    回顶部