雅酷SEO论坛

标题: 关于百度对网站内容的识别 [打印本页]

作者: 2875942626    时间: 2014-1-14 10:59
标题: 关于百度对网站内容的识别
一、百度对网站内容原创度的识别  今年5月份开始,百度推出了aksandikceyiz.com百度原创火星计划,很明显的一个标志就是在页面的索引前加上了一个时间。百度方面的说明是,在原创内容上面获得优待方式上只要满足了用户需求前提下,给予优先展示,另外,展现上,给原创内容还进行标记。但是,根据我个人实际操作各部分站长的反馈来看,大家都感觉百度的原创识别技术不高,包括笔者在内。
  有时候自己写的原创文章,收录了,但是并没有原创内容的标记;有的时候非原创的文章转载过来,却有原创内容的标记。当然,出现这种情况可能是百度本身在原创内容的识别上数据库不够强大,后台内容比对过渡还不够完善。从专业学术的角度来看,如果一篇文章里有连续的30个字与其他地方的文章相同,同时引文不添加引用标记,则可以认定为抄袭。
  与百度原创火星计划相相似的谷歌原创计划运行这么长时间以来,也一直没有取得较好的效果。个人认为,现在更多的内容识别可能更依赖于百度权重而已,与文章内容并无太大关联。
  二、百度对网站内容排版格式的识别
  不知道大家有没有这样的体会,建好一个网站后,能过网站采集功能,从其他相关网站采集回来,对文章格式进行处理后,再发布到网站上去,百度也能给予原创内容的标记。
  原本以来,百度蜘蛛抓取时,只会抓取文章正文内容,丢弃akselplastik.com代码格式。但是,反过来一想,百度需要识别一些使用格式来做heimaoSEO的手法,从这一点需要上来说,百度不会丢弃网页代码,在抓取时会将代码与正文一同抓取。






欢迎光临 雅酷SEO论坛 (http://www.yaiku.com/) Powered by Discuz! X2.5