发布于 2016-07-07 07:28:51 | 331 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

jcseg 基于mmseg算法的中文分词器

jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组建,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。


Jcseg 1.9.9更新如下:

1. 上传到了maven中心仓库,依赖地址如下(终于特么上maven了,1.9.8已经同步到了maven中心仓库,1.9.9还在同步中):

* 1), jcseg (全部模块)

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg</artifactId>
    <version>1.9.9</version>
</dependency>


* 2), jcseg-core:

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-core</artifactId>
    <version>1.9.9</version>
</dependency>


* 3), jcseg-analyzer (lucene或者solr):

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-analyzer</artifactId>
    <version>1.9.9</version>
</dependency>


* 4), jcseg-elasticsearch

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-elasticsearch</artifactId>
    <version>1.9.9</version>
</dependency>


* 5), jcseg-server (独立的应用服务器)

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-server</artifactId>
    <version>1.9.9</version>
</dependency>


2. JcsegTaskConfig更改构造方法如下:

JcsegTaskConfig()                   //不做任何内部初始化
JcsegTaskConfig(boolean autoLoad)   //是否自动寻找配置文件
JcsegTaskConfig(String proFile)     //指定配置文件初始化
JcsegTaskConfig(InputStream is)     //指定输入流初始化


3. JcsegTaskConfig或者jcseg.properties中的词库路劲支持设置为null。

4. ADictionary词库基类增加如下载入词库方法:

load(File file)                 //从File中载入全部词条
load(String file)               //从指定文件路劲中载入全部词条
load(InputStream is)            //从输入流中载入全部词条
loadDirectory(String lexDir)    //载入一个词库目录下的全部词条
loadClassPath()                 //从classpath中载入全部词条


5. jcseg-core-{version}.jar中自动打包了一份jcseg.properties和全部的词库,从此只需要jcseg-core-{version}.jar文件即可运行,无需任何依赖,同时也可以在jcseg-core-{version}.jar目录下存放一份jcseg.properties配置文件来自定义全部选项,例如:最大切分长度,自定义词库路径等。

6. 词库优化,增加一些新词条。

版本仓库地址:

https://github.com/lionsoul2014/jcseg
http://git.oschina.net/lionsoul/jcseg



历史版本 :
Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包
Jcseg 2.1.1 发布,Java 轻量级开源自然语言处理包
Jcseg 2.1.0 发布 - Java 开源中文分词器
Jcseg 2.0.0 发布,自定义词库开发支持优化
Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试
Jcseg 1.9.8 发布,新增检索模式/细粒度切分
Jcseg 新提交提供对 lucene-6.0.0,solr-6.0.0 和 elasticsearch-2.3.1 的支持
Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取
Jcseg-1.9.6 发布,词性补全+lucene/solr/elasticsearch 最新版本支持
jcseg-1.9.5 发布 - Java轻量级开源中文分词器-elasticsearch分词插件
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务