当前位置： > 网页特效 > 广告特效 > 文章内容

tokenstream(tokenstreamrecognition)

http://www.itjxue.com 2023-02-09 00:10 来源:未知 点击次数:

solr什么是分词器

分词器的工作是将一串的文本切成 tokens，这些 token 一般是文本的子集。分析器的处理对象时一个字段，分词器则是面对一串文本，分词器读取一串文本，然后将其切割成一堆的 token 对象。

字符串中的空格或连接符会被删除。字符将被添加或者替换，如映射别名，或者缩写替换缩写为正常格式。分词器可能会产生出与原字段值不一致的token，或者长度与原始文本不一致。这个在token元数据用于文本字段高亮搜索结果时需要注意。

/codefieldType?name="text"?class="solr.TextField"

/codeanalyzer

/codetokenizer?class="solr.StandardTokenizerFactory"/

//codeanalyzer

//codefieldType

元素的类名称不是一个真实的分词器，但是它指向一个实现了org.apache.solr.analysis.TokenizerFactory接口的类。这个工厂在需要的时候会创建一个分词器的实例。工厂创建出来的对象必须继承?org.apache.lucene.analysis.TokenStream.

怎么用java 开发一个搜索引擎呀？

一．???????????创建索引

1．一般创建索引的核心步骤

（1）.?创建索引写入对象IndexWriter：

IndexWriter indexWriter = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),create);

参数说明：INDEX_STORE_PATH：??索引文件存放路径

new StandardAnalyzer()：?分词工具

create：?此参数为Boolean型，true表示重新创建整个索引，?false?表示增量式创建索引。

（2）．创建文档模型,并用IndexWriter对象写入

Document doc = new Document();

Field field1 = new Field(fieldName1, fieldValue ,??Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field1);

Field field2 = new Field(fieldName2, fieldValue ,??Field.Store.YES, Field.Index.TOKENIZED);

doc.add(field2)；

……

indexWriter.addDocument(doc);

indexWriter.close();

参数说明：

Document?：负责搜集数据源,它可以从不同的物理文件提取数据并放入同一个Document?中或从一个物理文件中提取出不同的数据并放入同一个Document中。

如下图所示

? ? ? ? ? ? ? ? ?

Field?：用来表示不同的数据源

fieldName1:?表示field名称

fieldValue:??表示field?的值

Field.Store.YES,：表示是否在索引文件中完整的存储该值。

在创建索引时，有些内容需要以摘要的形式完整地或以片段的方式显示在页面上，来便于用户查找想要的记录，那么就应该选择存储,如果不需要完整或片段的显示就不需要存储。

Field.Index.TOKENIZED?：表示是否索引和分词。

只要是需要当作关键字让用户查找的字段就需要建立索引。

在建立索引的过程中，如果像文章标题、文章内容这样的Field,?一般是靠用户输入几个关键字来查询的，就应该选择分词。

如果需要用户输入完整字符也就是精确查找才能查询到的，例如：beanName，就可以不分词。

Document最直观的理解方式：

Document就相当于我们平台中的一个普通javaBean,，而Field?就是javaBean中的一个属性。lucene搜索的机制就是靠搜索指定的Field的值?，来得到含有要搜索内容的Document?集合，所以问题的关键在于如何组织Document .

2．结合平台创建索引的思路

(1)?经分析搜索元素应该由如下内容组成（Document的属性）

(2)?数据库数据转化为Document?的构造过程：

JavaBean / Attachment?????→???(Temp Object) BaseData??→???(Finally Object) Document

分析：

要建立索引的源数据分为两大部分：一个是数据库数据?BeanData ,另一个是附件数据?FileData ,?这样可以建立一个抽象类?BaseData ,?来存放它们共有的属性。同时为了管理这些相应的数据，在相同的等级结构上，建立了相应的管理类（xxxDataManager），对这些数据类的操作（建立或删除索引）进行管理，并用一个工厂类(DataManagerFactory)来创建所需要的管理类，IndexHelper用来充当整个索引模块对外的接口，为了实现一些与平台特定的业务，特用SupportManager来提供一些额外的业务支持，索引模块代码结构如下图所示。

二．搜索索引

1.???lucene?搜索的核心步骤：

String[]??fields??=??{“title”,?“summary”,……};?????//要查找的field范围

BooleanClause.Occur[]???flags??=??{BooleanClause.Occur.SHOULD, BooleanClause.Occur.?MUST ,……};

Query??query = MultiFieldQueryParser.parse(queryStr, fields,flags,new StandardAnalyzer());

Hits??hits??=??new??IndexSearcher(INDEX_STORE_PATH).search(query);

for (int i = 0;i hitsLength ; i++)

{

Document doc = hits.doc(i);

String title = doc.get(“title”);

String summary = doc.get(“summary”);

//?搜索出来的结果高亮显示在页面上

if (title != null) {

TokenStream tokenStream = analyzer.tokenStream(“title”,new StringReader(title));

String highlighterValue = highlighter.getBestFragment(tokenStream, title) ;

if(highlighterValue != null){

title = highlighterValue ;

}

//log.info("SearchHelper.search.title="+title);

}

if(summary!= null){

TokenStream tokenStream = analyzer.tokenStream(“summary”,new StringReader(summary));

String highlighterValue = highlighter.getBestFragment(tokenStream, creator) ;

if(highlighterValue != null){

summary = highlighterValue ;

}

//log.info("SearchHelper.search. summary ="+ summary);

}

2．结合平台构造搜索模块

PageData?类用来存放检索结果集数据。

PageInfo?类用来存放页面相关信息例如，PageData对象集合、总记录个数、每一页的记录数、?总页面数量等等。

SearchHelper用来充当整个搜索模块的对外接口。

三．为平台组件添加索引的步骤（以知识中心为例）

1．在com.cscec.oa.searchengine.extend.module?目录下添加一个新的package

例如：com.cscec.oa.searchengine.extend.module.resourcestore

2．在新的目录下建立data package?并建立相应的数据类，并使这个数据类继承BeanData。

例如：

package com.cscec.oa.searchengine.extend.module.resourcestore.data

public class ResourceStoreBeanData extends BeanData{

}

3.?与data package?同一级目录建立manager package?并建立相应管理类，并使这个管理类继承BeanDataManager

例如：

com.cscec.oa.searchengine.extend.module.resourcestore.manager

public class ResourceStoreBeanDataManagerImpl extends BeanDataManager{

}

4．以管理员的身份登陆OA后，在菜单中找到“索引模块管理”链接，将相应信息添加完成后，便可以在List?页面?点击“创建索引”对该模块的数据进行索引的建立，建立完成后便可以进行查询。

谁能帮忙解释一下下面的代码，谢谢啦

//导入代码所需的各种类

import?java.io.IOException;

import?java.io.StringReader;

import?org.apache.lucene.analysis.Analyzer;

import?org.apache.lucene.analysis.TokenStream;

import?org.apache.lucene.analysis.tokenattributes.TermAttribute;

import?org.apache.lucene.analysis.tokenattributes.TypeAttribute;

import?org.wltea.analyzer.lucene.IKAnalyzer;

//建一个公共类TestIKAnalyzer

public?class?TestIKAnalyzer?{

//在main函数方法中运行，同时跑出IOException异常

?public?static?void?main(String[]?args)?throws?IOException?{

?//新建一个Analyzer的对象（new出来的）

??Analyzer?analyzer?=?new?IKAnalyzer();

//获得一个TokenStream的对象，这个对象是用analyzer对象的tokenStream方法得到

??TokenStream?tokenStream?=?analyzer.tokenStream("",?new?StringReader("00000"));

??//?2.x写法?3.0之后不支持了

??//?3.x的写法

//获得TermAttribute对象，它的值是tokenStream的getAttribute方法得

//到，TermAttribute.class是方法参数

??TermAttribute?termAtt?=?(TermAttribute)?tokenStream.getAttribute(TermAttribute.class);

??TypeAttribute?typeAtt?=?(TypeAttribute)?tokenStream.getAttribute(TypeAttribute.class);

//用while循环，当tokenStream.incrementToken())为真时，就进行{}中的代码。?

??while?(tokenStream.incrementToken())?{

//在控制台输出内容

???System.out.print(termAtt.term());

???System.out.print('?');

???System.out.println(typeAtt.type());

??}

}

以上都是根据你给出的代码字面上的解释。

tokenstream(tokenstreamrecognition)

用C++完成贝叶斯分类算法的设计与实现

1. 收集大量的垃圾邮件和非垃圾邮件，建立垃圾邮件集和非垃圾邮件集。 2. 提取邮件主题和邮件体中的独立字符串，例如 ABC32，￥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件。 3. 每一个邮件集对应一个哈希表，hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。 4. 计算每个哈希表中TOKEN串出现的概率P=（某TOKEN串的字频）/（对应哈希表的长度）。 5. 综合考虑hashtable_good和hashtable_bad，推断出当新来的邮件中出现某个TOKEN串时，该新邮件为垃圾邮件的概率。数学表达式为： A 事件 ---- 邮件为垃圾邮件； t1,t2 …….tn 代表 TOKEN 串则 P （ A|ti ）表示在邮件中出现 TOKEN 串 ti 时，该邮件为垃圾邮件的概率。设 P1 （ ti ） = （ ti 在 hashtable_good 中的值） P2 （ ti ） = （ ti 在 hashtable_ bad 中的值）则 P （ A|ti ） =P2 （ ti ） /[ （ P1 （ ti ） +P2 （ ti ） ] ； 6. 建立新的哈希表hashtable_probability存储TOKEN串ti到P（A|ti）的映射 7. 至此，垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表 hashtable_probability可以估计一封新到的邮件为垃圾邮件的可能性。当新到一封邮件时，按照步骤2，生成TOKEN串。查询hashtable_probability得到该TOKEN 串的键值。假设由该邮件共得到N个TOKEN 串，t1,t2…….tn,hashtable_probability中对应的值为 P1 ， P2 ， ……PN ， P(A|t1 ,t2, t3……tn) 表示在邮件中同时出现多个TOKEN串t1,t2……tn时，该邮件为垃圾邮件的概率。由复合概率公式可得 P(A|t1 ,t2, t3……tn)=（P1*P2*……PN）/[P1*P2*……PN+（1-P1）*（1-P2）*……（1-PN）] 当 P(A|t1 ,t2, t3……tn) 超过预定阈值时，就可以判断邮件为垃圾邮件。

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：毕业论文开题报告范文样本(英语专业毕业论文开题报告范文样本)

下一篇：如何升级win10系统(百度升级最新版本)

tokenstream(tokenstreamrecognition)

solr什么是分词器

怎么用java 开发一个搜索引擎呀？

谁能帮忙解释一下下面的代码，谢谢啦

用C++完成贝叶斯分类算法的设计与实现

(责任编辑：IT教学网)

相关广告特效文章

阅读排行

专题教程

推荐广告特效文章

最新更新广告特效