1条回答
默认
最新
回答交流
提交
问题信息
请登录之后查看
邀请回答
暂无人订阅该标签,敬请期待~~
墨值悬赏
和传统数据库(如oracle)处理的数据对比一下
hive数据来源有很多很多,比如业务数据经过初步处理(数据清洗、结构化)后存入Hive,为以后的报表分析、实时计算做好数据准备。也就是说,具有业务意义的,需要长期保存供后续处理和使用的都可以存入Hive中。这也体现出Hive作为数据仓库的一样,既为仓库,也就是储备,以备不时之需。
而spark它的计算对象都是针对同一个数据集(Dataset)来说的,可以对一个数据集反复操作,这也正发挥了内存速度上的优势.
一句话概述:以Hadoop作为分布式存储和计算的基石,由此演变出了支持SQL查询的离线分析的数据仓库Hive,以及基于内存计算的Spark.
评论
有用 1
墨值悬赏