雅酷SEO论坛
标题: 百度是怎样识别原创和伪原创的 [打印本页]
作者: 林海雪原 时间: 2015-2-11 13:46
标题: 百度是怎样识别原创和伪原创的
很多企业在做优化的时候很注重文章的原创度,因为百度喜欢原创文章,经常给网站写点原创文章会给网站带来好的排名。百度是怎样识别原创文章的?很多人心里会有这样的疑问,现在来详细说一下百度对原创文章的识别方法。
我们要了解百度有一个分词技术,就是当用户向搜索引擎提交查询后根据用户的关键词串用一些方法进行匹配的一种技术。比如说你向百度提交查询网站SEO优化,百度会分为网站,SEO,优化,这种分词的方法叫做正向匹配,百度会在分词之后在数据库里查询。这里要注意的百度认为字母,数字和符号是一个词,你可以在百度里搜索一下好苹果和好苹果搜索的内容是不一样的。知道了百度的分词技术我们在写文章的时候就会知道该怎样写才会让客户找到自己。搜索引擎识别文章的原创度的技术有很多种,TF/IDF算法就是其中一种,指的是某一个词在文章**现的次数;这种方法虽然简单但是但实际效果不是很好。信息指纹技术是指搜索引擎截取一段文字信息,通过然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。
如果两篇文章的信息指纹相同,搜索引擎就认为这两篇文章是重复的。还有一种方法就是切片技术按照固定步长对内容进行切片,比较其相似度,会更接近于真实结果。切片比较可以很好的识别段落打乱的伪原创手法。百度搜索引擎现在的算法已经很先进了,对于文章的原创度识别能力已经很强了,掌握了几种百度原创文章的识别方法对于我们做优化的来说很有帮助。
欢迎光临 雅酷SEO论坛 (http://www.yaiku.com/) |
Powered by Discuz! X2.5 |