尚硅谷大数据技术之 ELK
—————————————————————————————
全文检索(全部字段)、模糊查询(搜索)、数据分析(提供分析语法,例如聚合)
1.2
、
Elasticsearch
使用案例
(
1
)
2013
年初,
GitHub
抛弃了
Solr
,采取
ElasticSearch
来做
PB
级的搜索。
“GitHub
使用
ElasticSearch
搜索
20TB
的数据,包括
13
亿文件和
1300
亿行代码
”
(
2
) 维 基 百 科 : 启 动 以
elasticsearch
为 基 础 的 核 心 搜 索 架 构
SoundCloud
:
“SoundCloud
使用
ElasticSearch
为
1.8
亿用户提供即时而精准的音乐搜索服
务
”
(
3
)百度:百度目前广泛使用
ElasticSearch
作为文本数据分析,采集百度所有服务器
上的各类指标数据及用户自定义数据,通过对各种数据进行多维分析展示,辅助定位分析
实例异常或业务层面异常。目前覆盖百度内部
20
多个业务线(包括
casio
、云分析、网盟、
预测、文库、直达号、钱包、风控等),单集群最大
100
台机器,
200
个
ES
节点,每天导
入
30TB+
数据
(
4
)新浪使用
ES
分析处理
32
亿条实时日志
(
5
)阿里使用
ES
构建挖财自己的日志采集和分析体系
1.3
、同类产品
Solr
、
ElasticSearch
、
Hermes
(腾讯)(实时检索分析)
Solr
、
ES
1.
源自搜索引擎,侧重搜索与全文检索。
2.
数据规模从几百万到千万不等,数据量过亿的集群特别少。
有可能存在个别系统数据量过亿,但这并不是普遍现象(就像
Oracle
的表里
的数据规模有可能超过
Hive
里一样,但需要小型机)。
Hermes
1.
一个基于大索引技术的海量数据实时检索分析平台。侧重数据分析。
2.
数据规模从几亿到万亿不等。最小的表也是千万级别。
在 腾讯
17
台
TS5
机器,就可以处理每天
450
亿的数据
(
每条数据
1kb
左右
)
,
数据可以保存一个月之久。
Solr
、
ES
区别
全文检索、搜索、分析。基于
lucene
1. Solr
利用
Zookeeper
进行分布式管理,而
Elasticsearch
自身带有分布式协调管理
功能
;
2. Solr
支持更多格式的数据,而
Elasticsearch
仅支持
json
文件格式;
3. Solr
官方提供的功能更多,而
Elasticsearch
本身更注重于核心功能,高级功能
多有第三方插件提供;
4. Solr
在传统的搜索应用中表现好于
Elasticsearch
,但在处理实时搜索应用时效率
明显低于
Elasticsearch-----
附近的人
【更多 Java、HTML5、Android、python、大数据 资料下载,可访问尚硅谷(中国)官
网 www.atguigu.com 下载区】
评论