雅酷SEO论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 583|回复: 0
打印 上一主题 下一主题

百度中文分词的三种技术

[复制链接]

749

主题

0

好友

6715

积分

论坛元老

Rank: 8Rank: 8

  • TA的每日心情
    开心
    2015-12-24 14:22
  • 签到天数: 121 天

    连续签到: 4 天

    [LV.7]常住居民III

    跳转到指定楼层
    楼主
    发表于 2015-8-27 10:55:13 |只看该作者 |倒序浏览
    匹配的分词方法
        2.词义分词法。
        3.统计分此法。zgnpxw.com
        字符串匹配的分词方法也是常用的分词法,百度就是用此种分词。字符串匹配的分词方法,他又分为3中分词方法。
        1.正向最大匹配法
        什么意思呢?就是把一个词从左至右来分词。
        举个例子。
        “不知道你在说什么”这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”与正向最大匹配法相对应的是反向最大匹配发。这是第二种分词方法。
        2.反向最大匹配法
        来分上面我举的例子是如何分的呢 ?"不知道你在说什么"。反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。
    www.zgnpxw.com/zhenliao/zhenduan/1837.html
        3.就是最短路径分词法。
        这个什么理解呢 ,就是说我一段话里面要求切出的词数是最少的。还是上面哪句话“不知道你在说什么”最短路径分词法就是指,我把上面哪句话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出来就只有3个词了。
        好了,当然还有上面三种可以相互结合组成一些分词方法。比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。
        词义分词法
        这种其实就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,现在还不成熟。处在测试阶段。
        统计的分词方法
        这个很简单,就是根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如,“我的,你的,许多的,这里,这一,那里”。等等,这些词出现的比较多,就从这些词里面分开来。好了,分词技术讲完了。 zgzybdf.com

    分享到: QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
    分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    百度SEO教程|谷歌SEO学术|百度SEO谷歌|网站SEO优化|雅酷SEO论坛  

    GMT+8, 2024-11-26 18:49

    Powered by Discuz! X2.5

    © 2001-2012 Comsenz Inc.

    回顶部