ES在MySQL、PHP中的运用

发布时间：09/01 来源：未知浏览：关键词：

ES简介

一个高扩展、开源的全文检索和剖析引擎，它可以准实时地快速储备、搜索、剖析海量的数据。
全文检索是指运算机索引程序通过扫描文章中的每一个词，对每一个词创立一个索引，指明该词在文章中显现的次数和位置，当会员查询时，检索程序就按照事先创立的索引停止查寻，并将查寻的结果反应给会员的检索方式。这个历程相似于通过字典中的检索字表查字的历程。全文搜索搜索引擎数据库中的数据

ES 为什么比 mysql 快

Mysql 只要 term dictionary 这一层，是以 b-tree 排序的方式储备在磁盘上的。检索一个 term 需要若干次的 random access 的磁盘操纵。而 Lucene 在 term dictionary 的根基上增加了 term index 来加快检索，term index 以树的情势缓存在内存中。从 term index 查到对应的 term dictionary 的 block 位置之后，再去磁盘上寻 term，大大减少了磁盘的 random access 次数。别的：term index 在内存中是以 FST（finite state transducers）的情势留存的，其特点是非常节约内存。Term dictionary 在磁盘上是以分 block 的方式留存的，一个 block 内部利用公共前缀紧缩，比方都是 Ab 开头的单词就可以把 Ab 省略。这样 term dictionary 可以比 b-tree 更节省磁盘空间。

同步数据库

我们采取 MySQL 的数据储备，利用 MySQL 的事务特性保护数据一致性，使用 ElasticSearch 停止数据聚集和查询，此时 es 与数据库的同步方案就尤其重要。

流程

第一增加商品入数据库，增加商品成功后，商品入 ES，若入 ES 失败，将失败的商品 ID 放入 redis 的缓存队列，且失败的商品 ID 入 log 文件（若显现 redis 挂掉，可从日志中取非常商品 ID 然后再入 ES），task 任务每秒刷新一下 redis 缓存队列，若是从缓存队列中取到商品 ID，则按照商品 ID 从数据库中猎取商品数据然后入 ES。

使用

logstash-input-jdbc 插件同步数据库，安置，配置：创立一个 .conf 文件，配置了要同步的数据库和.sql 用于施行的 sql 语句，最后把一个 jdbc 驱动放到这个文件夹下，用来连接 mysql 数据库

【相关学习引荐：mysql教程】

大概碰到的问题

elasticsearch 数据反复乃至增量同步

在默许配置下，tracking_column 这个值是 @timestamp，存在 elasticsearch 就是_id 值，是 logstash 存入 elasticsearch 的时间，这个值的主要作用相似 mysql 的主键，是独一的，但是我们的时间戳其实是不断在变的，所以我们每次使用 select 语句查询的数据都会存入 elasticsearch 中，致使数据反复。

解决办法

在要查询的表中，寻主键或者自增值的字段，将它设定为_id 的值，由于_id 值是独一的，所以，当有反复的_id 的时候，数据就不会反复

数据同步频繁，影响 mysql 数据库机能

我们写入 jdbc.sql 文件的 mysql 语句是写死的，所以每次查询的数据库有许多是已经不需要去查询的，特别是每次 select * from table; 的时候，对 mysql 数据库造成了非常大的压力

解决：

(1) 按照业务需求，可以恰当修改按时同步时间，我这里对实时性相对要求较高，因此设定了 10 分钟 schedule => “*/10 * * * *”
(2) 设定 mysql 查询范畴，防止大量的查询拖死数据库，在 sql 语句这里设定 select * from WHERE autoid > :sql_last_value;

elasticsearch 储备容量不竭上升

elasticsearch 为了数据平安，接收到数据后，先将数据写入内存和 translog，然后再创立索引写入到磁盘，这样即便忽然断电，重新启动后，还可以通过 translog 复原，不外这里由于我们每次查询都有许多反复的数据，而这些反复的数据又没有写入到 elasticsearch 的索引中，所以就囤积了下来，致使 elasticsearch 容量就不竭上升

解决：

查询官网说会按期 refresh，会主动清算掉老的日志，因此可不做处置

增量同步和 mysql 范畴查询致使 mysql 数据库有修改时没法同步到之前的数据。

解决了 mysql 每次都小范畴查询，解决了数据库压力的问题，不外却致使没法同步老数据的修改问题

解决：

可按照业务状态来做，假如你数据库是修改频繁类型，那只能做全量更新了，但是高频率大范畴扫描数据库来做的索引还不如不做索引了 (由于创立索引也是有成本的)，我们做索引主如果针对一些数据量大，不常修改，很耗损数据库机能的状况。我这里是数据修改较少，并且修改也一样是近期数据，由于同步时，我在 mysql 范畴上面轻微调整一下

php 使用 ES

php composer 安置 composer require elasticsearch/elasticsearch
引入 es 文件 autoload.php 文件，设定 IP 地址
创立 index，index 对应关系型数据（以下简称 MySQL）里面的数据库，而不是对应 MySQL 里面的索引
有了数据库还不可，还需要创立表，ES 也是一样的，ES 中的 type 对应 MySQL 里面的表。type 不是独自定义的，而是和字段一起定义，字段定义在 body 中；当然可以在 body 字段中也能使用 ik 分词；
使用 EsClient->search () 实现搜索；
同义词和近义词的使用

【相关学习引荐：php编程（视频）】

配置分词器：配置 IK

下载 es 的 ik 版本包
在 es 名目下的 plugins 在创立 ik 名目，把下载 ik 的 zip 包所有文件解压进去。
进去 es 的 config 名目，编纂 elasticsearch.yml，在空白地方加上 index.analysis.analyzer.default.type : “ik” 即可。
拼音分词器配置：使用已经编译好的：elasticsearch-analysis-pinyin-1.3.0
在 elasticsearch 的 plugins 名目下，创建 analysis-pinyin 文件夹，解压紧缩包，将里面的 jar 包放到 analysis-pinyin 文件夹。
在 elasticsearch.yml 里面配置拼音分词器的过滤器

同义词分词器配置

在 elasticsearch.yml 里面配置好同义词分词器的过滤器
配置同义词词库，在 elasticsearch 的 config 名目下创建 sysnonym.txt。
配置 ik+pinying + 同义词的分词器，主要有分词器的名称，类型，分割词元的组件，对分割的次元做处置：这里使用的是拼音和同义词

ES 关键字高亮显示

ES 通过在查询的时候可以在查询之后的字段数据加上 html 标签字段，使文档在在 web 界面上显示的时候是由色彩或者字体魄式的，是在 highlight 润饰高亮字段，这个部分包括了 name 属性匹配的文本片段，并以 HTML 标签封装

ES 查询分页

Elasticsearch 中数据都储备在分片中，当施行搜索时每个分片独立搜索后，数据再经过整合返回。

一样查询流程为

1) 客户端恳求发给某个节点
2) 节点转发给个个分片，查询每个分片上的前 10 条
3) 结果返回给节点，整合数据，提取前 10 条
4) 返回给恳求客户端
当我们查询第 10 条到第 20 条的数据时，有两种方式，包罗深度分页 (from-size) 和快照分页 (scroll)；
深度分页 (from-size)

from 定义了目标数据的偏移值，size 定义当前返回的事件数目。默许 from 为 0，size 为 10，也就是说所有的查询默许仅仅返回前 10 条数据。查询前 20 条数据，然后截断前 10 条，只返回 10-20 的数据。白费了前 10 条的查询。越往后的分页，施行的效力越低。分页的偏移值越大，施行分页查询时间就会越长

快照分页 (scroll)

相关于 from 和 size 的分页来说，使用 scroll 可以模拟一个传统数据的游标，记载当前读取的文档信息位置。这个分页的用途，不是为了实时查询数据，而是为了一次性查询大量的数据（乃至是全部的数据）。由于这个 scroll 相当于保护了一份当前索引段的快照信息，这个快照信息是你施行这个 scroll 查询时的快照。在这个查询后的任何新索引进来的数据，都不会在这个快照中查询到。但是它相关于 from 和 size，不是查询所有数据然后剔除不要的部分，而是记载一个读取的位置，包管下一次快速连续读取。
流程：