【腾讯】大数据面试真题汇总，收藏备用

大数据研习社 2022-06-05

347

长按二维码关注

大数据领域必关注的公众号

大数据面试真题汇总

有一表名 t_sh_mtt_netdisk_log，如何从表名可以看出该表是什么业务的以及是什么周期粒度的表。

如何查看Hive表结构，Hive表的创建语句是什么？

如何查看Hive表有哪些分区？怎么查看Hive分区对应 hdfs路径？

如何计算Hive某个分区的数据量大小？如何计算Hive某个分区的文件总数？

有一hive sql，如何计算这个 sql 会产生多少个 map 数？

如何查看 hive 包含哪些内置函数？

如何查看Hive内置函数的详细信息？

Hive 支持哪些基木数据类型？

请指出下面两个语句读取分区 ds 数据的不同

Select * from t where ds=20150101 and province='gd' or province='ex'

Select x fromt where ds 20150101 and（

province='gd' or province='ex'）

将字符串

"keyl=valuel&key2=value2...keyn=

valuen"进行分割放到一个字段里面，可以查出任意一个 keyx 对应的 valuex 值。请写出查询语句，并计算总共有多少个 key 值。

用一个字符串，比如"alblc"，来测试某个函数，比如 split（用|分隔符将字符串进行分割）的语句

a 表和 b 表内连接，a 表为小表，只有 2000 行记录select a.*from a Join b on a.key=b.key如何进行优化？

a 表 left join b 表，b 表为小衣，如何进行优化？

scleet a.*from a left join Join b ona.key=b.key

如果 a 为小表，可以如何优化？

请指出下面 sql 语句的区别

select a.* from a left Join b on a.key = b.key and a.ds=xxx and b.ds=xxx

sclect a.* from a lef Join b on a.key = b.key and b.ds=xxx

select a.* from a lef Join b on a.key = b.key and b.ds=xxx where a.ds=xxx

Select a.* from a left Join b on a.key = b.key where a.ds=xxx and b.ds=xxx

多表连按的写法：a,.b,c 三个表内连接，连接字段都是 key，怎样写连接语句？

两大表连接，发生了数据倾斜，有几个 reduce 无法完成，如何查找发生数据领斜的原因？应该怎样优化？

语句：select t1.*,nvl(t2.x,1) from t1 left join t2 on t1.uid=t2.uid

两大表连接，发生了数据倾斜。有一个 reduce 无法完成，检查发现 t1 中 uid=“”的记录有很多，其他 uid 都不重复，这条语句该如何优化？

语句：select t1.*,nvl(t2.x,1) from t1 left join t2 on t1.guid = t2.guid

如何用！实现 hivesql 中的 exist/in 子句mysql 语句如下：

SEL ECT a* FROM a where a.key in（

select dstinct key from b where key like ‘filter%’）

sort by、distribute by、cluster by 和 order by 区别

用 HiveSQL 统计用户登录数据

（1）全量用户登员日志表 t_login_all，字段信息 ftime（登录日期）、openid（登录帐号）新增用户登录日志表 t_login_new，字段信息 ftime（登录日期）、openid（登录帐号）

求每天新增用户次日、7 天、30 天留存率。

（说明：7 天留存是指当天有登录且第 7 天还登录的用户）

（2）消息流水表 t_chat all，字段信息：

Ftime（日期）、send_user id（发消息用户 id）、receive.user id（接收消息用户 id）、chat id（消息 id）、send.time（发消息时间）

用户登录流水日志表 t_login_all，字段信息：

Ftime（日期）、user_id（用户 id）、login_id（登录 id）、login_loc（登录区服）、login_time （登录时间）

求：每天有收发消息用户最近登录时间、登录区服，输出 ftime，user_id，login_loc，login_time

reduceByKey()、groupByKey()有什么区别？

DataFrame 和 RDD 有什么区别？

使用累加器，对数组 Array(1,2,3,4)每个元素实现累加操作，最后打印输出求和结果。

现有文件 file.txt，文件格式如下

Order_id，user_id，payment，productid

1、1768，50，155

2、1218，600，211

3、2239，788，242

4、3101，288，599

5、4899，25，230

6、2311，890，981

求 Top10 个 payment 字段的值

你们项目中Hive是如何优化的？

Kafka数据会不会重复？什么情况下会重复？

HiveSQL执行过程中，如果速度很慢，可能是什么原因造成的？

谈一谈你之前做过哪些有亮点的项目

你在项目中的主要职责是什么？统计的主要指标包含哪些？

关于QQ指标统计的应用场景

（1）有一个分区表，表名 T，字段 qq，age，按天分区，让写出创建表的语句

（2）刚刚的分区表，求 20200221 这个分区中，年龄第 N 大的 qq 号列表

（3）有一个表，两个字段，分别是 qqa 和 qqb，数据如下：

12,34

12,56

12,78

34,56

34,12

找出所有互相关注的 qq 对。

关于PV指标统计的应用场景

（1）三个字段，timestamp，user_id，product_id，使用SQL求pv最大的商品。

（2）使用Scala编写代码实现pv最大的商品。

（3）统计pv数大于100的top10

你们数仓用什么建模方法，说出常见的建模方法？

维度建模有什么好处？如果业务需求增加一个维度，后续需要做哪些工作？

怎么判断一个需求能不能实现，你们的判断标准是什么？需求变更要做什么？

增加一个维度后发现查询的速度变得非常慢，是什么原因导致的？

你们 ADS 层的数据量每天的数据量有多大？ADS 层再 MySQL 中的表是怎么创建的？有什么注意事项？索引怎么创建的？

你知道 Spark 的宽窄依赖吗？有没有把宽依赖转化为窄依赖的例子？

你做过哪些Spark参数调优的工作？

对一个 list [1,5,5,7,9] 去重，并计算时间空间复杂度

如何实现单链表的反转？

欢迎点赞 + 收藏 + 在看素质三连

完

▼

往期精彩回顾

▼

程序员，如何避免内卷

Apache 架构师总结的 30 条架构原则

【全网首发】Hadoop 3.0分布式集群安装

大数据运维工程师经典面试题汇总(附带答案)

大数据面试130题

某集团大数据平台整体架构及实施方案完整目录

大数据凉凉了？Apache将一众大数据开源项目束之高阁！

实战企业数据湖，抢先数仓新玩法

Superset制作智慧数据大屏，看它就够了

Apache Flink 在快手的过去、现在和未来

华为云-基于Ambari构建大数据平台（上）

华为云-基于Ambari构建大数据平台（下）

【HBase调优】Hbase万亿级存储性能优化总结

【Python精华】100个Python练手小程序

【HBase企业应用开发】工作中自己总结的Hbase笔记，非常全面！

【剑指Offer】近50个常见算法面试题的Java实现代码

长按识别左侧二维码

关注领福利

领10本经典大数据书

hive

文章转载自大数据研习社，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

【腾讯】大数据面试真题汇总，收藏备用

评论