百度分词技术研究与猜测
百度搜索引擎在中文领域市场占有率第一的地位,严格来说是他有了一套非常好的分词技术。当然高深的分词技术我们是无法探知的。但我们可以从一些表面的一些“管”来窥其里面的“豹”。今天就为大家谈一谈关于百度分词的一点点基本的猜测。
首先我们要了解百度分词的条件,并不是所有的词都会有分词产生,例如我们搜索“大学生”,返回的结果,我们会看到精准匹配,那么百度就对这个词没有进行了分词处理,看下图:
百度搜索“大学生”结果图
而我们搜索“电影下载”,百度就会将这些词拆分为“电影”、“下载”和“电影下载”,如下图:
百度搜索“电影下载”结果图
于是有朋友猜测会不会百度以三个中文字为限,开始实施分词呢?大家可以多次测试一下,这种说法是相当有市场的,但是后面我又搜索关键词的时候发现一个问题,如果一个词已经被百度词库收为一个单独的词,那么不管他多么长,百度也会先推荐精准匹配网页,然后推荐分词匹配网页。
例如大家搜索“不管你们信不信”,一般来说这样的句子肯定是要被分词处理的,但是因为去年动车事件,这个句子已经成为大家常用的词语,百度也已经对这个词比较认可了,将他收入词库中,那么它就可以实现精准匹配。如下图,网页标题中都是精准匹配,未见分词匹配:
百度搜索“不管你信不信”结果图
结论猜测:用户搜索某个关键词,百度会根据自己词库先进行精准匹配,如果这个词是很常用的词,那么百度就会调用相关的网页结果,如果不存在就进行分词处理,得出的搜索结果也会产生一些分词处理情况,至于结果排名影响因素比较多,比如网站的权重会影响到搜索的结果排名,具体的需要深入分析,这里就不班门弄斧了。
- 上一篇: SEO是一个长期坚持的过程
- 下一篇: 新手需要知道的8条SEO技巧与艺术
- 相关文章:
百度组建深度机器学习开源平台 研发“虫洞”项目 (2015-8-1 12:27:8)
百度https化、取消referer关键词显示有何影响? (2015-8-1 12:9:43)
为何你的百度快照停留在6月12日 (2015-7-1 15:25:43)
浅谈影响百度收录的六大因素 (2015-5-27 10:17:50)
如何让百度谷歌快速收录新浪博客 (2015-5-5 18:40:10)
Seo实战经验之百度11位现象解决办法 (2015-5-4 19:37:21)
对百度超链作弊的算法升级的感想 (2015-4-30 15:47:28)
网站优化:百度关键词优化如何做才适合百度 (2015-4-26 11:23:31)
百度判断网站用户体验度的依据 (2015-4-20 12:0:20)
针对不同搜索引擎的优化-百度和Google (2015-4-18 11:47:27)
- 留言列表:
- 最新
- 热门
- 随机
- 搜索
-
- 日历
- 网站分类
-
- 最近发表
-
- 网站收藏
-
- Tags列表
-
- 图标汇集
-
- 友情链接
-