当前位置： > 工具软件 > 图片影音 > 文章内容

lucene的中文是什么意思,Lucene怎么读

http://www.itjxue.com 2023-01-05 09:07 来源:未知 点击次数:

lucene?中文分词？

StandardAnalyzer是可以用于

中文分词

,但它是一元

分词

,机械地将一个

汉字

做为一个词

元来

切分的,速度慢不说,

语义

也没有了,当然应该能保证

查全率

,呵呵.

ChineseAnalyzer比它好一点,也相当于一元分词。

lucene的第三方分词包有很多，上面两个不建议使用。可以去了解:

IK_CAnalyzer

庖丁解牛分词器

JE分词器

lucene的中文是什么意思,Lucene怎么读

lucene中的skipInterval是什么意思？

skipInterval是对频率与位置文件信息查询时，快速定位的跳跃跨度数值。

举一个建立skip层次信息的例子（某个单词在27个文档中频率信息，跳跃跨度为3，会出现3个层次）如下：

skipInterval = 3:

* c (skip level 2)

* c c c (skip level 1)

* x x x x x x x x x x (skip level 0)

* d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d d

编

号 3 6 9 12 15 18 21 24 27 30

* d - document

* x - skip data

* c - skip data with child pointer

如同有27个房间，每3个房间出现一个控制间，在lognN n=skipInterval的情况下，出现3层（level0，level1，level2）查找时，level2保存在内存中减少占用内存的大小，定位某个元素只是需要查找lognN次便可定位到底层的skipinterval个元素集合中，内部最多遍历n次即可找到该元素。

我和家立写了一本书《Lucene分析与应用》，即将上市，呵呵，宣传一下！但你只要提出问题，我在网上就回答，技术交流，我不会和经济什么扯在一起！祝好！

老吴

Lucene 3.4 中文分词，

索引的话，推荐使用lucene，我最近的项目就是用这个，蛮好用。不管你是否使用数据库，你都应该将html页面解析成标准的XML的页面，这样方便进行下一步操作。如果你只需要html的文章内容的话，还是比较简单的。分别对html文章内容和html地址建索引，那样你文章命中了搜索关键字的话，可以把html地址也拿出来，例 Field field1 = new Field("address",address,Field.Store.YES, Field.Index.TOKENIZED); Field field1_1 = new Field("content",content,Store.YES,Index.UN_TOKENIZED); doc1.add(field1); doc1.add(field1_1); 再具体点的内容，去下一个lucene的API文档，把field,document,indexwriter,indexsearcher,这几个类看一下，还是比较好懂的。分词器的建议使用，IKAnalyzer，在开源中文分词器里算是很好的，而且一直在稳定的更新版本。这个很好。值得信赖.2011/9/26 11:36:05

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：什么是顶空,什么是顶空气相色谱法

下一篇：java设计模式,java设计模式课程的启发

lucene的中文是什么意思,Lucene怎么读

lucene?中文分词？

lucene中的skipInterval是什么意思？

Lucene 3.4 中文分词，

(责任编辑：IT教学网)

相关图片影音文章

阅读排行

专题教程

推荐图片影音文章

最新更新图片影音