暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

[译]基于Zeppelin的MySQL数据库服务(MDS)数据分析

原创 Robin 2022-05-15
1143

原文地址: https://mysqlsolutionsarchitect.blogspot.com/2022/03/analyze-your-mysql-database-servicemds.html

原文作者:CHANDAN KUMAR

用 Zeppelin 分析 MDS-Heatwave 数据

使用 Zeppelin 通过 HeatWave 访问 MDS 的完整指南

在本指南中,我们将介绍如何安装和使用 Heatwave 访问 MDS。

1.       什么是 MDS 和 HeatWave?

2.       什么是 Zeppelin?

3.       环境细节

4.       如何安装 Zeppelin?

5.       网络方面的考虑

6.       如何访问 HeatWave

7.       使用 Zeppelin 的 MDS 数据分析

8.       结语

Zeppelin 和 MySQL 数据库服务与 HeatWave 的概述

============================================

我们生活在数据世界中,随着数据的高速增长,更快获得结果是非常重要的,直到早些时候,MySQL 一直在挑战以更快的方式处理更大规模的数据,但是,目前 MySQL 的解决方案有了 “范式转变”。

现在,MySQL(仅在 OCI 的 PaaS 模型中)配备了 HeatWave,这是一个分布式的、可扩展的、无共享的、内存中的、混合列式的查询处理引擎,旨在实现极限性能。

当你向 MySQL 数据库系统添加 Heatwave 集群时,它就会被启用。

因此,MySQL 数据库服务(MDS)将给出更快的结果,然后需要一些数据分析工具来使数据有意义,获得更多的数据洞察力。

在这篇博客中,让我介绍一下 Apache Zeppelin 用于 MDS 的数据分析。

Apache Zeppelin 是一个开源的多用途笔记本(notebook),它可以帮助用户以图形或图表的形式来表示和分析你的数据,从而帮助组织快速做出决定。

我们将详细探讨每个项目…

总的来说,我的想法是向你展示快速的演示,你如何轻松地通过 Zeppelin 连接 MDS。

Zepplein 可以安装在任何地方(任何公共/私有云,企业内部)。

什么是 MDS 和 HeatWave?


Oracle MySQL 数据库服务(MDS)是一种完全可管理的数据库服务,可让开发人员使用世界上最流行的开源数据库快速开发和部署安全的云原生应用程序。

MySQL 数据库服务是唯一具有集成的高性能内存查询加速器–Heatwave 的 MySQL 云服务。它使客户能够直接针对其运行中的 MySQL 数据库运行复杂的分析,消除了对复杂、耗时和昂贵的数据移动以及与单独的分析数据库整合的需要。

MySQL 数据库服务是由 OCI 和 MySQL 工程团队 100%建立、管理和支持的。

更多信息:- https://www.oracle.com/mysql/

HeatWave:- https://www.oracle.com/mysql/heatwave

MDS 的商业利益:-

https://mysqlsolutionsarchitect.blogspot.com/2022/02/understanding-mysql-database-servicemds.html

什么是 Zeppelin?

Zeppelin 是基于网络的笔记本,它可以用 SQL、Scala、Python、R 等语言实现数据驱动、交互式数据分析和协作式文档。
像数据摄取、数据浏览、数据可视化和数据分析都可以在 zeppelin 笔记本中完成。
Apache Zeppelin 的特点

  • 数据摄取-
  • 数据发现-
  • 数据分析-
  • 数据可视化和协作

更多信息:- https://zeppelin.apache.org/

网络考虑

确保在你的环境中,zeppelin 8080 的端口是白名单。

如果您使用的是 Oracle 云基础设施(OCI),那么请确保入口规则被配置为安装 Zeppelin 的计算实例被加入白名单,同时计算实例能够与 MDS 实例进行 ping。

要访问 Zeppelin,一定要用有解释器 (**Interpreter)**访问权限的适当用户,否则任何用户都可以访问你的 Zeppelin。

有时,匿名用户通过输入 Zeppelin 的公共 IP 地址进入 Zeppelin 的门户,但如果你的解释器被限制在特定的用户,那么你的工作空间就会更安全。

因此,在 Apache Zeppelin 中拥有数据源授权是很重要的。

https://zeppelin.apache.org/docs/0.10.0/setup/security/datasource_authorization.html

注:我无法深入了解安全方面的细节,我的主要重点是你在哪里,你如何访问 Zeppelin,如何获得与 MDS 和 HeatWave 的无缝体验,并进行出色的可视化和数据分析。

安装 Zeppelin

在这篇博客中,Zeppelin 的安装将在 Oracle 云基础设施( https://www.oracle.com/in/cloud/ )上进行。

使用以下软硬件配置

步骤 1 #安装 JDK

sudo yum install java-11-openjdk-devel

第 2 步:-使用以下命令下载 Zeppelin

wget https://dlcdn.apache.org/zeppelin/zeppelin-0.10.0/zeppelin-0.10.0-bin-all.tgz

第 3 步 :- 创建用户并给予权限

sudo adduser -d /home/opc/zeppelin -s /sbin/nologin zeppelin

sudo chown -R zeppelin: zeppelin /home/opc/zeppelin

第 4 步:- 将 zeppelin 站点模板重命名为 zeppelin 站点

cd /home/opc/zeppelin/conf

sudo cp zeppelin-site.xml.template zeppelin-site.xml

sudo cp zeppelin-site.xml.template zeppelin-site.xml

步骤 5 :- #启动 Zeppelin

连接 Zeppelin

http://<计算实例的 IP 地址/本地 IP>::8080/#/

通过 Zeppelin 连接 MDS 和 Heatwave


下载 MySQL Connector/J

https://dev.mysql.com/downloads/connector/j/

rpm -ivh mysql-connector-java-8.0.28-1.el7.noarch.rpm

warning: mysql-connector-java-8.0.28-1.el7.noarch.rpm: Header V4 RSA/SHA256 Signature, key ID 3a79bd29: NOKEY

**error**: Failed dependencies:

        java-headless >= 1:1.8.0 is needed by mysql-connector-java-1:8.0.28-1.el7.noarch

\[

用此命令修复以上错误:-

yum -y install java-headless

创建一个 MySQL 解释器(interpreter)

#在 zeppelin 的 interpreter 文件夹下创建名为 mds 的目录

# mkdir mds

#将 "mysql-connector-java.jar "文件移到 MDS 文件夹中

#cp /usr/share/java/mysql-connector-java.jar /home/opc/zeppelin/interpreter/mds/

导航到解释器(interpreter)

http://<计算实例的 IP 地址/本地 IP>:8080/#/interpreter

搜索 MDS interpreter 并填写以下信息

## 最后,一旦修改完成,它看起来就像下面这样

从 MDS 和 Heatwave 获取数据


请确保 MDS 和 Heatwave 已经启动并运行。

通过 Zeppelin 创建一个笔记本(notebook)并通过HeatWave访问MDS


棒极了! Zeppelin 已连接 MDS

让我们通过 Zeppelin 进行数据分析


在这个演示中,假设 MDS 与 Heatwave 已经启动并运行,并且数据已经加载到 HeatWave 中。

如果你想关注快速启动演示,以及如何将数据加载到 HeatWave,请点击以下链接。

https://docs.oracle.com/en-us/iaas/mysql-database/doc/heatwave.html#GUID-700248EF-4614-49CD-888F-920F4C66CD4C

演示中使用的模式是 “AirportDB”,数据库大小为 50GB。

首次将数据加载到 HeatWave 的命令:-

运行 Auto Parallel Load 将 airportdb 数据加载到 HeatWave 中:

CALL sys.heatwave\_load(JSON\_ARRAY('airportdb'), NULL);

##运行以下 SQL 语句来生成报告

use airportdb; SELECT airline.airlinename, SUM(booking.price) as price\_tickets, count(\*) as nb\_tickets FROM booking, flight, airline, airport\_geo WHERE booking.flight\_id=flight.flight\_id AND airline.airline\_id=flight.airline\_id AND flight.from=airport\_geo.airport\_id AND airport\_geo.country = "UNITED STATES" GROUP BY airline.airlinename ORDER BY nb\_tickets desc, airline.airlinename limit 10;

关于 Heatwave 的更多信息:- https://www.oracle.com/mysql/heatwave/

总结


Apache Zeppelin 是一种工具,它使数据科学家的生活变得顺利,他们可以在一个地方做他们需要的一切。像数据摄取、数据浏览、数据可视化和数据分析都可以在 zeppelin 笔记本中完成,而 MDS HeatWave 是 Oracle MySQL 数据库服务的大规模并行、高性能、内存查询的加速器,可以依据分析和混合工作负载的重要性加速 MySQL 的性能,成本却低于专家分析产品,如 Amazon Redshift、Aurora、Snowflake、Azure Synpase、google Big Query 等。

最后修改时间:2022-05-26 18:26:35
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论