发布于 2016-06-13 03:49:48 | 176 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

jcseg 基于mmseg算法的中文分词器

jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组建,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。


Jcseg 1.9.8 更新内容:

  1. 增加检索切分模式(SEARCH_MODE),实现细粒度切分,专业为搜索。

  2. 增加DictionaryFactory#createSingletonDictionary,用于创建单例词库。

  3. 将analyzer,elasticsearch接口词库更改为单例创建,节省内存,同时避免了多实例的下词库自动加载无法全局更新的问题。

  4. 提供对lucene,solr 6.0以上版本的支持,elasticsearch 2.3.1以上版本的支持。

  5. 增加JcsegAnalyzer5X如下构造方法方便lucene应用的打包发布:

    JcsegAnalyzer5X(int mode, String proFile)
    JcsegAnalyzer5X(int mode, JcsegTaskConfig config)
    JcsegAnalyzer5X(int mode, JcsegTaskConfig config, ADictionary dic)
  6. 代码格式标准化,例如:4空格代替tab,花括号的换行等。

  7. 词库优化(去除些许无用词,完善部分词条词性定义)。

  8. 修复jcseg-server.properties#jcseg_global_setting名称错误, 更改为:jcseg_global_config。

  9. 修复JcsegServer#http_config设置bug和TokenizerController#pos拼写错误。



历史版本 :
Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包
Jcseg 2.1.1 发布,Java 轻量级开源自然语言处理包
Jcseg 2.1.0 发布 - Java 开源中文分词器
Jcseg 2.0.0 发布,自定义词库开发支持优化
Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试
Jcseg 1.9.8 发布,新增检索模式/细粒度切分
Jcseg 新提交提供对 lucene-6.0.0,solr-6.0.0 和 elasticsearch-2.3.1 的支持
Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取
Jcseg-1.9.6 发布,词性补全+lucene/solr/elasticsearch 最新版本支持
jcseg-1.9.5 发布 - Java轻量级开源中文分词器-elasticsearch分词插件
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务