雅酷SEO论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 708|回复: 0
打印 上一主题 下一主题

百度是怎样识别原创和伪原创的

[复制链接]

402

主题

0

好友

3200

积分

论坛元老

Rank: 8Rank: 8

  • TA的每日心情

    2016-3-31 23:45
  • 签到天数: 64 天

    连续签到: 1 天

    [LV.6]常住居民II

    跳转到指定楼层
    楼主
    发表于 2015-2-11 13:46:51 |只看该作者 |倒序浏览
    很多企业在做优化的时候很注重文章的原创度,因为百度喜欢原创文章,经常给网站写点原创文章会给网站带来好的排名。百度是怎样识别原创文章的?很多人心里会有这样的疑问,现在来详细说一下百度对原创文章的识别方法。

    我们要了解百度有一个分词技术,就是当用户向搜索引擎提交查询后根据用户的关键词串用一些方法进行匹配的一种技术。比如说你向百度提交查询网站seo优化,百度会分为网站,SEO,优化,这种分词的方法叫做正向匹配,百度会在分词之后在数据库里查询。这里要注意的百度认为字母,数字和符号是一个词,你可以在百度里搜索一下好苹果和好苹果搜索的内容是不一样的。知道了百度的分词技术我们在写文章的时候就会知道该怎样写才会让客户找到自己。搜索引擎识别文章的原创度的技术有很多种,TF/IDF算法就是其中一种,指的是某一个词在文章**现的次数;这种方法虽然简单但是但实际效果不是很好。信息指纹技术是指搜索引擎截取一段文字信息,通过然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。
    如果两篇文章的信息指纹相同,搜索引擎就认为这两篇文章是重复的。还有一种方法就是切片技术按照固定步长对内容进行切片,比较其相似度,会更接近于真实结果。切片比较可以很好的识别段落打乱的伪原创手法。百度搜索引擎现在的算法已经很先进了,对于文章的原创度识别能力已经很强了,掌握了几种百度原创文章的识别方法对于我们做优化的来说很有帮助。

    分享到: QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    百度SEO教程|谷歌SEO学术|百度SEO谷歌|网站SEO优化|雅酷SEO论坛  

    GMT+8, 2024-9-28 07:20

    Powered by Discuz! X2.5

    © 2001-2012 Comsenz Inc.

    回顶部