lucene的中文是什么意思,Lucene怎么读
lucene?中文分词?
StandardAnalyzer是可以用于
中文分词
,但它是一元
分词
,机械地将一个
汉字
做为一个词
元来
切分的,速度慢不说,
语义
也没有了,当然应该能保证
查全率
,呵呵.
ChineseAnalyzer比它好一点,也相当于一元分词。
lucene的第三方分词包有很多,上面两个不建议使用。可以去了解:
IK_CAnalyzer
庖丁解牛分词器
JE分词器
lucene中的skipInterval是什么意思?
skipInterval是对频率与位置文件信息查询时,快速定位的跳跃跨度数值。
举一个建立skip层次信息的例子(某个单词在27个文档中频率信息,跳跃跨度为3,会出现3个层次)如下:
skipInterval = 3:
* c (skip level 2)
* c c c (skip level 1)
* x x x x x x x x x x (skip level 0)
* d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d
编
号 3 6 9 12 15 18 21 24 27 30
* d - document
* x - skip data
* c - skip data with child pointer
如同有27个房间,每3个房间出现一个控制间,在lognN n=skipInterval的情况下,出现3层(level0,level1,level2)查找时,level2保存在内存中减少占用内存的大小,定位某个元素只是需要查找lognN次便可定位到底层的skipinterval个元素集合中,内部最多遍历n次即可找到该元素。
我和家立写了一本书《Lucene分析与应用》,即将上市,呵呵,宣传一下!但你只要提出问题,我在网上就回答,技术交流,我不会和经济什么扯在一起!祝好!
老吴
Lucene 3.4 中文分词,
索引的话,推荐使用lucene,我最近的项目就是用这个,蛮好用。不管你是否使用数据库,你都应该将html页面解析成标准的XML的页面,这样方便进行下一步操作。如果你只需要html的文章内容的话,还是比较简单的。分别对html文章内容和html地址建索引,那样你文章命中了搜索关键字的话,可以把html地址也拿出来,例 Field field1 = new Field("address",address,Field.Store.YES, Field.Index.TOKENIZED); Field field1_1 = new Field("content",content,Store.YES,Index.UN_TOKENIZED); doc1.add(field1); doc1.add(field1_1); 再具体点的内容,去下一个lucene的API文档,把field,document,indexwriter,indexsearcher,这几个类看一下,还是比较好懂的。分词器的建议使用,IKAnalyzer,在开源中文分词器里算是很好的,而且一直在稳定的更新版本。这个很好。值得信赖.2011/9/26 11:36:05