C1G军火库

关注互联网、网页设计、Web开发、服务器运维优化、项目管理、网站运营、网站安全…

Categories:

其它
技术
- *bsd
- AI
- AIGC
- Ajax
- Apache
- Cacti
- cpan
- dns/dnsmasq
- Elasticsearch/Logstash/Kibana
- haproxy/Atlas
- HTML/XHTML/CSS
- Imagemagick
- JavaScript/DOM/XML
- Lempelf一键包
- LINUX
- Linux 命令
- linux 维护优化
- Linux游戏
- Lucene
- Mail/Postfix
- Memcached/redis
- Mysql
- Nagios
- Nginx
- Others
- PHP
- RHCE&RHCA
- RRDtool
- saltstack/ansible
- shell
- sphinx
- Squid/varnish
- Subversion
- TinyMce
- Tomcat
- VPN
- Wap
- 备份
- 安全
- 安全通告
- 安装k8s/kubernetes
- 容器
- 日志
- 测试
- 浏览器插件
- 消息rabbitmq
- 爬虫spider
- 编辑器
- 网站架构
- 虚拟化/xen
- 高可用/集群
未分类

当前几个主要的Lucene中文分词器的比较[转]

1. 基本介绍：

paoding ：Lucene中文分词“庖丁解牛” Paoding Analysis imdict ：imdict智能词典所采用的智能中文分词程序 mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器 ik ：采用了特有的“正向迭代最细粒度切分算法“，多子处理器分析模式

2. 开发者及开发活跃度：

paoding ：qieqie.wang， google code 上最后一次代码提交：2008-06-12，svn 版本号 132 imdict ：XiaoPingGao，进入了 lucene contribute，lucene trunk 中 contrib/analyzers/smartcn/ 最后一次提交：2009-07-24， mmseg4j ：chenlb2008，google code 中 2009-08-03 （昨天），版本号 57，log为：mmseg4j-1.7 创建分支 ik ：linliangyi2005，google code 中 2009-07-31，版本号 41

3. 用户自定义词库：

paoding ：支持不限制个数的用户自定义词库，纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本，并加载 imdict ：暂时不支持用户自定义词库。但原版 ICTCLAS 支持。支持用户自定义 stop words mmseg4j ：自带sogou词库，支持名为 wordsxxx.dic， utf8文本格式的用户自定义词库，一行一词。不支持自动检测。 -Dmmseg.dic.path ik ：支持api级的用户词库加载，和配置级的词库文件指定，无 BOM 的 UTF-8 编码， \n 分割。不支持自动检测。

4. 速度（基于官方介绍，非自己测试）

paoding ：在PIII 1G内存个人机器上，1秒可准确分词 100万 汉字 imdict ：483.64 (字节/秒)，259517(汉字/秒) mmseg4j ： complex 1200kb/s左右, simple 1900kb/s左右 ik ：具有50万字/秒的高速处理能力

5. 算法和代码复杂度

paoding ：svn src 目录一共1.3M，6个properties文件，48个java文件，6895 行。使用不用的 Knife 切不同类型的流，不算很复杂。 imdict ：词库 6.7M（这个词库是必须的），src 目录 152k，20个java文件，2399行。使用 ICTCLAS HHMM隐马尔科夫模型，“利用大量语料库的训练来统计汉语词汇的词频和跳转概率，从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分” mmseg4j ： svn src 目录一共 132k，23个java文件，2089行。MMSeg 算法，有点复杂。 ik ： svn src 目录一共6.6M(词典文件也在里面)，22个java文件，4217行。多子处理器分析，跟paoding类似，歧义分析算法还没有弄明白。

6. 文档

paoding ：几乎无。代码里有一些注释，但因为实现比较复杂，读代码还是有一些难度的。 imdict ：几乎无。 ICTCLAS 也没有详细的文档，HHMM隐马尔科夫模型的数学性太强，不太好理解。 mmseg4j ： MMSeg 算法是英文的，但原理比较简单。实现也比较清晰。 ik ：有一个pdf使用手册，里面有使用示例和配置说明。

7. 其它

paoding ：引入隐喻，设计比较合理。search 1.0 版本就用的这个。主要优势在于原生支持词库更新检测。主要劣势为作者已经不更新甚至不维护了。 imdict ：进入了 lucene trunk，原版 ictclas 在各种评测中都有不错的表现，有坚实的理论基础，不是个人山寨。缺点为暂时不支持用户词库。 mmseg4j ：在complex基础上实现了最多分词(max-word)，但是还不成熟，还有很多需要改进的地方。 ik ：针对Lucene全文检索优化的查询分析器IKQueryParser

8. 结论

个人觉得，可以在 mmseg4j 和 paoding 中选一个。关于这两个分词效果的对比，可以参考：

http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html

或者自己再包装一下，将 paoding 的词库更新检测做一个单独的模块实现，然后就可以在所有基于词库的分词算法之间无缝切换了。

ps，对不同的 field 使用不同的分词器是一个可以考虑的方法。比如 tag 字段，就应该使用一个最简单的分词器，按空格分词就可以了。

原贴:http://blog.fulin.org/2009/08/lucene_chinese_analyzer_compare.html

目前使用的是paoding

Posted in Lucene, 技术.

Tagged with lucene, 中文分词.

By C1G – 2009/08/06

No Responses (yet)

Stay in touch with the conversation, subscribe to the RSS feed for comments on this post.

« 使用 LambdaProbe监控Tomcat 安装Tripwire检查文件完整性 »

Proudly powered by WordPress and Carrington.

当前几个主要的Lucene中文分词器的比较[转]

No Responses (yet)

About C1G军火库

分类

归档

其他操作

近期文章

近期评论

AI

博客互联

安全

我的

技术论坛

收藏夹

架构研发

设计体验

当前几个主要的Lucene中文分词器的比较[转]

No Responses (yet)

Subscribe

About C1G军火库

分类

归档

其他操作

近期文章

近期评论

标签

AI

博客互联

安全

我的

技术论坛

收藏夹

架构研发

设计体验