雅酷SEO论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 638|回复: 0
打印 上一主题 下一主题

百度蜘蛛是如何收录一个网站的

[复制链接]

1123

主题

0

好友

3万

积分

论坛元老

Rank: 8Rank: 8

  • TA的每日心情
    开心
    2017-3-8 16:33
  • 签到天数: 882 天

    连续签到: 3 天

    [LV.10]以坛为家III

    跳转到指定楼层
    楼主
    发表于 2015-8-26 10:00:31 |只看该作者 |正序浏览


      百度搜索引擎大致可以分为四个过程,这四个过程是连连相扣的,我们来看看详细过程:

      1、蜘蛛爬行抓取。

      2、信息过滤。

      3、建立网页关键词索引。

      4、用户搜索输出结果。

      蜘蛛爬行抓取

      当百度蜘蛛来到一个页面时,它会跟踪页面上的链接,从这个页面爬行到下一个页面,就好像一个递归过程,这样常年累月,不止疲倦的工作。引擎就会多进程式的来到这篇文章所在的网页抓取信息,如此循坏,没有终结。

      信息过滤

      为了避免重复爬行和抓取网址,搜索引擎会有一个记录已爬行和未被爬行的地址库,如果你有一个新网站时,你可以去百度官网提交网站的网址,引擎就会记录它,并把它归类到未爬行的网址,然后蜘蛛就会根据这个表格,从数据库中提取URL,访问并抓取页面。

      蜘蛛并不会收录所有的页面,它要经过严格检测。当蜘蛛在爬行和抓取一个网页的内容时,会进行一定程度的复制内容检测,如果网页所在的网站权重低,而且大部分文章都是抄袭来的话,蜘蛛就很可能不喜欢你的网站了,不在继续爬行,也就不收录你的网站。

      建立网页关键词索引

      当蜘蛛抓取了一个页面之后,首先会对页面文字内容进行分析。通过分词技术,将网页的内容简化到关键词,并把关键词和对应的网址制成表格建立索引。

      索引又有正向索引和反向索引,正向索引是把网页内容对应的关键词,反向是关键词对应的网页信息。


    分享到: QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    百度SEO教程|谷歌SEO学术|百度SEO谷歌|网站SEO优化|雅酷SEO论坛  

    GMT+8, 2024-11-29 21:41

    Powered by Discuz! X2.5

    © 2001-2012 Comsenz Inc.

    回顶部