- 注册时间
- 2013-3-27
- 最后登录
- 2013-9-14
- 阅读权限
- 90
- 积分
- 4568
- 精华
- 0
- 帖子
- 307
TA的每日心情 | 奋斗 2013-9-14 09:23 |
---|
签到天数: 114 天 连续签到: 1 天 [LV.6]常住居民II
|
细谈百度分词技术之标题的设计实例
影响一个页面在搜索引擎排名最重要的因素之一是相关度,而最直接体现一个页面与用户搜索行为是否相关的就是标题,那么想写好一个标题你就不能不去深入的了解搜索引擎的分词原理!以百度为例,经过十年左右的完善,在中文搜索里百度已经是一个非常高效的搜索引擎,大家也和点水一样肯定都知道一个高效的搜索引擎工作肯定会涉及到很多为人知的技术点,但我们如果把复杂的搜索引擎工作简化为三个步骤那么分别是:查询,分词,匹配。那我们通过实例来看看搜索引擎是如何处理的呢,为了能理解的更加直观,我们以水手(年轻时很喜欢这首歌)为主关健词在百度进行实验。
二,搜索引擎如何进行分词与匹配
分词根据字符串进行匹配,最常见的有三种分词匹配法,分别为:正向最大匹配法,反向最大匹配法和最短路径分词法。
1,什么是正向最大匹配法呢?
简单点说就是从左到右进行分词,例如百度:武林外传说,武林外传与传说是两个不同的词,根据用户搜索习惯与词库分析百度会返回一个正向最大的匹配,也就是分词为:武林外传 说。搜索结果如下图:
2,什么是反向最大匹配法
反向分词固名思义就是从右向左进行分词了。回到刚才的例子,百度:郑智化学,如果按照正向分词那么我们应该得到的分词结果是:郑智化 学。那么百度搜索的结果为什么却不是这样呢?而是分成了郑智 化学。如图:
这就是因为百度搜索结果中是用了反向分词进行匹配!
3,正反向同时分词匹配
而有一种特殊的情况,就是关健词前后组合内容被认为粘性相差不大,而搜索结果辊也同时包含这两组词的话,百度会进行正反向同时进行分词匹配,如搜索关健词:北京华烟云,返回结果如下:
4,什么是分词最少化
指:分出来的词数应该是追求最少化,以搜索:武林外传说 为例,理论可以分成:武林 外 传说,可是百度只分成了 武林外传 说 ,即能尽量将分组数减少,能分成两组的尽量不分成三组!
一 搜索引擎如何处理查询
1,搜索引擎的被动行为。
如果用户根据自已的意愿在搜索的关健词的时候有加上空格,标点,那么搜索引擎会优化按用户的行为进行查询,这个应该很好理解!例如:百度搜索 郑智化水手 与搜索 郑智化 水手,所返回的结果会是不一样的!可能这个例子还并不直观,举一个更直观的例子,分别搜索:郑智化 学 和 郑智 化学。搜索结果分别如下图:
看上图就很直观了,搜索引擎会优化考虑用户的查询行为。
2,搜索引擎的主动行为
搜索引擎收到用户的搜索内容,会根据自已基础词典与特殊词库为用户的查询进行主动分词,如搜索:郑智化水手 ,百度会根据其搜索词库(猜测为:人名库+歌名库)智能将郑智化与水手这两个词分别进行查询,搜索结果如:
那么如果搜索内容中包含同时中文与英文百度是如何处理的呢?百度会将英文做为单独的一块来处理,然后英文前后的词也做为一个单独的块。试搜索:郑智化bt下载,结果如下:
|
|