

长按二维码关注
大数据领域必关注的公众号

有一表名 t_sh_mtt_netdisk_log,如何从表名可以看出该表是什么业务的以及是什么周期粒度的表。
如何查看Hive表结构,Hive表的创建语句是什么?
如何查看Hive表有哪些分区?怎么查看Hive分区对应 hdfs路径?
如何计算Hive某个分区的数据量大小?如何计算Hive某个分区的文件总数?
有一hive sql,如何计算这个 sql 会产生多少个 map 数?
如何查看 hive 包含哪些内置函数?
如何查看Hive内置函数的详细信息?
Hive 支持哪些基木数据类型?
请指出下面两个语句读取分区 ds 数据的不同
Select * from t where ds=20150101 and province='gd' or province='ex'
Select x fromt where ds 20150101 and(
province='gd' or province='ex')
将字符串
"keyl=valuel&key2=value2...keyn=
valuen"进行分割放到一个字段里面,可以查出任意一个 keyx 对应的 valuex 值。请写出查询语句,并计算总共有多少个 key 值。
用一个字符串,比如"alblc",来测试某个函数,比如 split(用|分隔符将字符串进行分割)的语句
a 表和 b 表内连接,a 表为小表,只有 2000 行记录select a.*from a Join b on a.key=b.key如何进行优化?
a 表 left join b 表,b 表为小衣,如何进行优化?
scleet a.*from a left join Join b ona.key=b.key
如果 a 为小表,可以如何优化?
请指出下面 sql 语句的区别
select a.* from a left Join b on a.key = b.key and a.ds=xxx and b.ds=xxx
sclect a.* from a lef Join b on a.key = b.key and b.ds=xxx
select a.* from a lef Join b on a.key = b.key and b.ds=xxx where a.ds=xxx
Select a.* from a left Join b on a.key = b.key where a.ds=xxx and b.ds=xxx
多表连按的写法:a,.b,c 三个表内连接,连接字段都是 key,怎样写连接语句?
两大表连接,发生了数据倾斜,有几个 reduce 无法完成,如何查找发生数据领斜的原因?应该怎样优化?
语句:select t1.*,nvl(t2.x,1) from t1 left join t2 on t1.uid=t2.uid
两大表连接,发生了数据倾斜。有一个 reduce 无法完成,检查发现 t1 中 uid=“”的记录有很多,其他 uid 都不重复,这条语句该如何优化?
语句:select t1.*,nvl(t2.x,1) from t1 left join t2 on t1.guid = t2.guid
如何用!实现 hivesql 中的 exist/in 子句mysql 语句如下:
SEL ECT a* FROM a where a.key in(
select dstinct key from b where key like ‘filter%’)
sort by、distribute by、cluster by 和 order by 区别
用 HiveSQL 统计用户登录数据
(1)全量用户登员日志表 t_login_all,字段信息 ftime(登录日期)、openid(登录帐号)新增用户登录日志表 t_login_new,字段信息 ftime(登录日期)、openid(登录帐号)
求每天新增用户次日、7 天、30 天留存率。
(说明:7 天留存是指当天有登录且第 7 天还登录的用户)
(2)消息流水表 t_chat all,字段信息:
Ftime(日期)、send_user id(发消息用户 id)、receive.user id(接收消息用户 id)、chat id(消息 id)、send.time(发消息时间)
用户登录流水日志表 t_login_all,字段信息:
Ftime(日期)、user_id(用户 id)、login_id(登录 id)、login_loc(登录区服)、login_time (登录时间)
求:每天有收发消息用户最近登录时间、登录区服,输出 ftime,user_id,login_loc,login_time
reduceByKey()、groupByKey()有什么区别?
DataFrame 和 RDD 有什么区别?
使用累加器,对数组 Array(1,2,3,4)每个元素实现累加操作,最后打印输出求和结果。
现有文件 file.txt,文件格式如下
Order_id,user_id,payment,productid
1、1768,50,155
2、1218,600,211
3、2239,788,242
4、3101,288,599
5、4899,25,230
6、2311,890,981
求 Top10 个 payment 字段的值
你们项目中Hive是如何优化的?
Kafka数据会不会重复?什么情况下会重复?
HiveSQL执行过程中,如果速度很慢,可能是什么原因造成的?
谈一谈你之前做过哪些有亮点的项目
你在项目中的主要职责是什么?统计的主要指标包含哪些?
关于QQ指标统计的应用场景
(1)有一个分区表,表名 T,字段 qq,age,按天分区,让写出创建表的语句
(2)刚刚的分区表,求 20200221 这个分区中,年龄第 N 大的 qq 号列表
(3)有一个表,两个字段,分别是 qqa 和 qqb,数据如下:
12,34
12,56
12,78
34,56
34,12
找出所有互相关注的 qq 对。
关于PV指标统计的应用场景
(1)三个字段,timestamp,user_id,product_id,使用SQL求pv最大的商品。
(2)使用Scala编写代码实现pv最大的商品。
(3)统计pv数大于100的top10
你们数仓用什么建模方法,说出常见的建模方法?
维度建模有什么好处?如果业务需求增加一个维度,后续需要做哪些工作?
怎么判断一个需求能不能实现,你们的判断标准是什么?需求变更要做什么?
增加一个维度后发现查询的速度变得非常慢,是什么原因导致的?
你们 ADS 层的数据量每天的数据量有多大?ADS 层再 MySQL 中的表是怎么创建的?有什么注意事项?索引怎么创建的?
你知道 Spark 的宽窄依赖吗?有没有把宽依赖转化为窄依赖的例子?
你做过哪些Spark参数调优的工作?
对一个 list [1,5,5,7,9] 去重,并计算时间空间复杂度
如何实现单链表的反转?
完





