lucene的中文是什么意思,Lucene怎么读

http://www.itjxue.com  2023-01-05 09:07  来源:未知  点击次数: 

lucene?中文分词?

StandardAnalyzer是可以用于

中文分词

,但它是一元

分词

,机械地将一个

汉字

做为一个词

元来

切分的,速度慢不说,

语义

也没有了,当然应该能保证

查全率

,呵呵.

ChineseAnalyzer比它好一点,也相当于一元分词。

lucene的第三方分词包有很多,上面两个不建议使用。可以去了解:

IK_CAnalyzer

庖丁解牛分词器

JE分词器

lucene中的skipInterval是什么意思?

skipInterval是对频率与位置文件信息查询时,快速定位的跳跃跨度数值。

举一个建立skip层次信息的例子(某个单词在27个文档中频率信息,跳跃跨度为3,会出现3个层次)如下:

skipInterval = 3:

* c (skip level 2)

* c c c (skip level 1)

* x x x x x x x x x x (skip level 0)

* d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d

号 3 6 9 12 15 18 21 24 27 30

* d - document

* x - skip data

* c - skip data with child pointer

如同有27个房间,每3个房间出现一个控制间,在lognN n=skipInterval的情况下,出现3层(level0,level1,level2)查找时,level2保存在内存中减少占用内存的大小,定位某个元素只是需要查找lognN次便可定位到底层的skipinterval个元素集合中,内部最多遍历n次即可找到该元素。

我和家立写了一本书《Lucene分析与应用》,即将上市,呵呵,宣传一下!但你只要提出问题,我在网上就回答,技术交流,我不会和经济什么扯在一起!祝好!

老吴

Lucene 3.4 中文分词,

索引的话,推荐使用lucene,我最近的项目就是用这个,蛮好用。不管你是否使用数据库,你都应该将html页面解析成标准的XML的页面,这样方便进行下一步操作。如果你只需要html的文章内容的话,还是比较简单的。分别对html文章内容和html地址建索引,那样你文章命中了搜索关键字的话,可以把html地址也拿出来,例 Field field1 = new Field("address",address,Field.Store.YES, Field.Index.TOKENIZED); Field field1_1 = new Field("content",content,Store.YES,Index.UN_TOKENIZED); doc1.add(field1); doc1.add(field1_1); 再具体点的内容,去下一个lucene的API文档,把field,document,indexwriter,indexsearcher,这几个类看一下,还是比较好懂的。分词器的建议使用,IKAnalyzer,在开源中文分词器里算是很好的,而且一直在稳定的更新版本。这个很好。值得信赖.2011/9/26 11:36:05

(责任编辑:IT教学网)

更多

推荐图片影音文章