早教吧作业答案频道 -->其他-->
lucene分词lucene中文分词用什么方法最好?MMSEG4JMMSEG4J基于Java的开源中文分词组件,提供lucene和solr接口1、mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的Tok
题目详情
lucene 分词
lucene中文分词 用什么方法最好?
MMSEG4J
MMSEG4J 基于Java的开源中文分词组件,提供lucene和solr 接口 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用.2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配.Complex 加了四个规则过虑.官方说:词语的正确识别率达到了 98.41%.mmseg4j 已经实现了这两种分词算法.
经过本人查阅 为了和Lucene很好的结合使用 建议能采用MMSEG4J作为中文分词组件
lucene中文分词 用什么方法最好?
MMSEG4J
MMSEG4J 基于Java的开源中文分词组件,提供lucene和solr 接口 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用.2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配.Complex 加了四个规则过虑.官方说:词语的正确识别率达到了 98.41%.mmseg4j 已经实现了这两种分词算法.
经过本人查阅 为了和Lucene很好的结合使用 建议能采用MMSEG4J作为中文分词组件
▼优质解答
答案和解析
ICTCLAS 中科院做的 效果巨棒
如 runbaike所说的客户数的问题 只要加userDic 没有解决不了了
完全可以按照你的需要把某些词分出来
不过在lucene中用ICTCLAS有点小难度
其次就推荐IK了 最新的3.2版本对lucene3.x的集成效果蛮不错 而且也支持用户词典了
如 runbaike所说的客户数的问题 只要加userDic 没有解决不了了
完全可以按照你的需要把某些词分出来
不过在lucene中用ICTCLAS有点小难度
其次就推荐IK了 最新的3.2版本对lucene3.x的集成效果蛮不错 而且也支持用户词典了
看了lucene分词lucene中...的网友还看了以下:
①如果6+a分之>6+b分之1(a、b都不为0)那么().A.a=bB.a>bC.a<b②小林在用 2020-05-17 …
建立计算机网络的主要目的是实现计算机资源的共享。计算机资源主要是指计算机的( )。 ①硬件、软件 ② 2020-05-24 …
用计算器计算789×39和375÷25时,发现计算器的3按键坏了,请你把算式变一下,使它们的得数不 2020-07-17 …
知道Inx,怎么求x现在的问题是我知道Inx=138,怎么求这个x呢?那也就是说必须依靠计算器才能 2020-07-18 …
以e为底的幂怎么算,就是怎么用计算器来算这个式子?比如我现在要用windows7的计算器来计算e的 2020-07-29 …
求一VB论文有关计算器的计算器实现计算器要求实现加减乘除,求乘方,正弦,余弦,正切,余切,等功能 2020-07-30 …
在计算器上计算5376除以84时,发现8字键坏了,其他键都是完好的.如果还是用这个计算器计算,可以怎 2020-11-04 …
计算机基础(多选题)计算机的硬件是由CPU,储存器及I/O组成的,下列描述正确的是()A.CPU是计 2020-12-01 …
累加器是计算机硬件中运算器的一部分,累加器的的主要功能是A)传送信息到外部设备B)实现加法运算C)转 2020-12-03 …
小红到文具店买计算器,发现一种计算器现在打八折出售,售价6.4元,经过讨价还价,营业员最终同意7折售 2020-12-26 …