什么是百度分词?

查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。分词技术就是百度核心技术之一。

常用分词的方法

1、正向最大匹配法(由左到右的方向)

2、分词测试例子:我/有意/见/分歧

3、反向最大匹配法(由右到左的方向)

分词测试例子:我/有/意见/分歧

据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。
首先用专用词典采用最大正向匹配分词,切出部分结果;剩余没有切分交给普通词典,同样采取正向最大匹配分词。

关于搜索引擎分词技术,阿霸这次就先写到这。但是搜索引擎的分词技术远远不止这些,分词中的一些难题,如歧义识别、新词识别、拼写检查错误提示、拼音提示功能、相关搜索提示等深一些的日后有机会再向大家一一介绍。

 

  • 相关文章:
  • 留言列表: