elasticsearch中文文档,elasticsearch中文文档pdf1005无标题

http://www.itjxue.com  2023-01-21 19:08  来源:未知  点击次数: 

[翻译]ElasticSearch官方文档

前段时间在做ElasticSearch数据分析相关的工作,一直想翻译ES的官方文档,相当于ES的入门文档吧。

Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎。它允许用户快速,实时地存储,搜索和分析大量数据。ES通常用作为具有复杂的搜索功能和要求的应用程序提供的底层引擎/技术。

官方提供了几个示例用例:

官方文档的其余部分将引导用户完成ES的运行过程,并在其中进行查看,并执行索引,搜索和修改数据等基本操作。而最后,用户将了解它的工作原理以及和对此的启发,以了解如何使用它来构建复杂的搜索应用程序或从数据中挖掘智能。

有几个概念是Elasticsearch的核心。从一开始就理解这些概念将大大有助于缓解学习过程。

Elasticsearch是一个接近实时的搜索平台。这意味着从你索引一个文档到该文档可搜索的时间稍微延迟(通常为1秒)。

集群是一个或多个节点(服务器)的集合,它们共同保存整个数据,并在所有节点之间提供联合的索引和搜索功能。集群由唯一的名称标识,默认情况下是“elasticsearch”。此名称很重要,因为如果节点设置为通过其名称加入集群,则节点只能作为集群的一部分。确保不要在不同环境中重复使用相同的集群名称,否则可能会导致节点加入错误的集群。例如,你可以对开发,分段和生产集群使用logging-dev,logging-stage和logging-prod。请注意,拥有只有一个节点的集群是有效和完美的。此外,你还可以拥有多个独立的群集,每个群集都有自己独特的群集名称。

节点是作为集群一部分的单个服务器,存储数据,并参与集群的索引和搜索功能。就像一个集群一样,一个节点被一个名称标识,默认情况下是一个随机的通用唯一标识符(UUID),它在启动时分配给节点。如果你不想要默认值,你可以定义所需的任何节点名称。此名称对于管理目的很重要,你希望确定网络中的哪些服务器对应于Elasticsearch集群中的哪些节点。可以将节点配置为按集群名称加入特定集群。

默认情况下,每个节点都设置为加入名为elasticsearch的群集,这意味着如果你在网络上启动了多个节点,并且假设它们可以相互发现,则它们将自动形成并加入名为elasticsearch的单个群集。

在单个集群中,你可以拥有很多你所需所需的节点数。此外,如果没有其他弹性搜索节点运行在你的网络上,启动单个节点将默认形成名为elasticsearch的新的单节点群集。

索引是具有某种相似特征的文档的集合。例如,你可以拥有客户数据的索引,产品目录的一个索引,以及订单数据的另一个索引。索引由名称(必须全部为小写)标识,该名称用于在针对其中的文档执行索引,搜索,更新和删除操作时引用索引。

在单个集群中,你可以根据需要定义任意多的索引。

在索引中,你可以定义一个或多个类型。类型是索引的逻辑类别/分区,其语义完全取决于你。通常,为具有一组公共字段的文档定义了一种类型。例如,假设你运行一个博客平台,并将所有数据存储在单个索引中。在此索引中,你可以定义用户数据的类型,博客数据的另一种类型以及注释数据的另一种类型。

文档是可以索引的基本信息单元。例如,你可以拥有单个客户的文档,单个产品的另一个文档,以及单个订单的另一个文档。文档以JSON表示,这是一种无处不在的互联网数据交换格式。在索引/类型中,你可以存储尽可能多的文档。请注意,虽然文档物理上位于索引中,但实际上文档实际上必须被索引/分配给索引中的类型。

索引可能潜在地存储可能超过单个节点的硬件限制的大量数据。例如,占用1TB磁盘空间的10亿个文档的单个索引可能不适合单个节点的磁盘,或者可能太慢,无法单独从单个节点提供搜索请求。

为了解决这个问题,Elasticsearch提供了将索引细分为多个称为碎片的片段的功能。创建索引时,你可以简单地定义所需的分片数。每个分片本身就是一个全功能且独立的“索引”,可以在集群中的任何节点上托管。

分片是重要的两个主要原因:

如何将其文档聚合回搜索请求完全由Elasticsearch管理,对用户来说对你是透明的。

在可以随时预期故障的网络/云环境中,非常有用,并强烈建议使用故障切换机制,以防止分片/节点因为某种原因脱机或消失。 为此,Elasticsearch允许你将索引的碎片的一个或多个副本复制到所谓的复制分片,或简写为复本。

副本是重要的两个主要原因:

总而言之,每个索引可以分成多个分片。 索引也可以被复制为零(意味着没有副本)或更多次。 一旦复制,每个索引将有 主碎片(复制的原始碎片)和副碎片(主碎片的副本)。 可以在创建索引时为每个索引定义碎片和副本的数量。 创建索引后,你可以随时动态更改副本数,但不能更改事后的分片数。

默认情况下,Elasticsearch中的每个索引都分配了5个主分片和1个副本,这意味着如果你的集群中至少有两个节点,则索引将具有5个主分片和5个复本分片(1个完整副本),总共 每个指数10个碎片

注意:每个弹性搜索碎片都是Lucene索引。 在一个Lucene索引中可以有最多的文档数量。 从LUCENE-5843起,限制为2,147,483,519(= Integer.MAX_VALUE - 128)文档。 你可以使用_cat / shards API监视分片大小。

突然发现elasticsearch官网都有中文文档

Elasticsearch 是一个实时的分布式搜索分析引擎, 它能让你以一个之前从未有过的速度和规模,去探索你的数据。 它被用作全文检索、结构化搜索、分析以及这三个功能的组合。

附上链接: 中文文档

怎么获得elasticsearch java 中文文档

方法/步骤

建立客户端连接

集群名称默认为elasticsearch,没有修改过无需setting可以建立连接:

Client client = new TransportClient().addTransportAddress(new InetSocketTransportAddress("172.20.0.196", 9300));

如果修改过集群的名称:

Settings settings = ImmutableSettings.settingsBuilder()

.put("cluster.name", "elasticsearch_01").build();

Client client = new TransportClient(settings)

.addTransportAddress(new InetSocketTransportAddress("172.20.0.196", 9300));

创建索引

public void createIndex(String index){

client.admin().indices().create(new CreateIndexRequest(index)).actionGet();

// waitForYellow

client.admin().cluster().health(new ClusterHealthRequest(index)

.waitForYellowStatus())

.actionGet();

}

创建mapping,和curl中完全对应,同样指定分析器为ik

public void createMapping(String index,String type) throws IOException{

XContentBuilder builder = XContentFactory.jsonBuilder()

.startObject()

.startObject(type)

.startObject("_all")

.field("indexAnalyzer", "ik")

.field("searchAnalyzer", "ik")

.field("term_vector", "no")

.field("store", "false")

.endObject()

.startObject("properties")

.startObject("content")

.field("type", "string")

.field("store", "no")

.field("term_vector", "with_positions_offsets")

.field("indexAnalyzer", "ik")

.field("searchAnalyzer", "ik")

.field("include_in_all", "true")

.field("boost", 9)

.endObject()

.endObject()

.endObject()

.endObject();

PutMappingRequest mapping = Requests.putMappingRequest(index).type(type).source(builder);

client.admin().indices().putMapping(mapping).actionGet();

}

索引一些数据,创建成功isCreated()返回true

public void createData(String index,String type){

ListString jsondata = ElasticsearchTest.getInitJsonData();

for(int i=0; ijsondata.size(); i++){

IndexResponse indexResp = client.prepareIndex()

.setIndex(index).setType(type).setId(i+1+"")

.setSource(jsondata.get(i)).execute().actionGet();

boolean isCreated = indexResp.isCreated();

System.out.println("是否成功创建数据isCreated:"+isCreated);

}

}

查询数据方法

public void queryData(String index,String type){

QueryBuilder queryBuilder = QueryBuilders.termQuery("content", "中国");

SearchResponse searchResponse = client.prepareSearch(index).setTypes(type)

.setQuery(queryBuilder)

.execute()

.actionGet();

SearchHits hits = searchResponse.getHits();

System.out.println("查询到记录数:" + hits.getTotalHits());

SearchHit[] searchHists = hits.getHits();

for(SearchHit sh : searchHists){

System.out.println("content:"+sh.getSource().get("content"));

}

}

在main方法中调用

创建索引、mapping、数据

按条件查询,显示查询结果。

同时可以打开head界面查看下执行效果

(责任编辑:IT教学网)

更多