发布于 2016-11-04 03:56:55 | 252 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

jcseg 基于mmseg算法的中文分词器

jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组建,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。


    Jcseg 2.0.0更新如下:

    1. 增加自定义词库开发文档(查看README)。

    2. 完善关键字提取,关键短语提取,关键句子,自动摘要提取的自定义开发文档(查看README)。

    3. 文档增加词库自动加载lex-autoload.todo权限提示(启动时检测权限,如果权限不够会提示)

    4. DictionaryFactory增加如下两个接口方便自定义词库开发

createDefaultDictionary(JcsegTaskConfig config, boolean sync, boolean loadDic) createSingletonDictionary(JcsegTaskConfig config, boolean loadDic) /*  * loadDic 用于控制工厂是否自动从config检测并且加载词库,兼容旧版本的默认是自动监测加载  * 方便用户自定义加载自己的设置的词库 */

    5. 修复了并发情况下IWord#position可能的污染bug,这个bug会导致lucene的高亮错误。

    6. 优化了复杂英文组合的二次切分,确保返回词条后者的startOffset大于等于前者的,这个bug也会导致lucene默认的高亮机制错误。

    maven仓库同步中,下载/git仓库:https://github.com/lionsoul2014/jcseg



历史版本 :
Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包
Jcseg 2.1.1 发布,Java 轻量级开源自然语言处理包
Jcseg 2.1.0 发布 - Java 开源中文分词器
Jcseg 2.0.0 发布,自定义词库开发支持优化
Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试
Jcseg 1.9.8 发布,新增检索模式/细粒度切分
Jcseg 新提交提供对 lucene-6.0.0,solr-6.0.0 和 elasticsearch-2.3.1 的支持
Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取
Jcseg-1.9.6 发布,词性补全+lucene/solr/elasticsearch 最新版本支持
jcseg-1.9.5 发布 - Java轻量级开源中文分词器-elasticsearch分词插件
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务