介绍
在当今瞬息万变的商业环境中,组织正在转向基于云的技术来进行高效的数据收集、报告和分析。数据和分析已成为企业保持竞争力的关键。业务用户使用报告、仪表板和分析工具从数据中获取洞察、监控公司绩效并支持决策制定。这就是数据仓库作为商业智能的关键组成部分出现的地方,使公司能够提高绩效。这些报告、仪表板和分析工具由数据仓库提供支持,可有效存储数据以减少数据输入和输出 (I/O),并同时为数十万用户快速提供查询答案。
数据仓库到底是什么?
数据仓库是一个集中的存储系统,它支持数据存储、分析和解释以改进决策。数据仓库定期从事务系统、关系数据库和其他来源接收数据。

数据仓库是从操作源和外部数据源派生的组织数据和信息的集合。定期从各种内部应用程序(例如销售、营销和财务)以及面向客户的和外部合作伙伴系统中提取数据。然后,决策者可以访问和分析这些数据。
数据仓库面试题
1. 数据仓库和数据挖掘有什么区别?
数据仓库通过提取、转换和加载存储来自多个事务数据库的数据。数据会定期保存。它保存了大量的数据。数据仓库应用包括产品管理和开发、营销、金融、银行等。它用于提高运营效率以及生成和分析 MIS 报告。
鉴于,数据挖掘是通过使用机器学习、统计和数据库管理系统在庞大的数据集中发现模式的过程。数据在这里被例行评估。它主要侧重于分析数据样本。市场分析和管理、识别异常交易、公司分析、风险管理等是应用案例的几个例子。它用于改善公司运营并做出更好的判断。
2. 数据仓库的显着特征是什么?
以下是数据仓库的一些重要功能 :
- 面向主题 -数据仓库是面向主题的,因为它提供有关主题而不是公司活动的信息。这些可能包括产品、客户、供应商、销售和收入。数据仓库不是专注于实际操作,而是专注于建模和分析数据以进行决策。
- Integrated -它是通过合并来自众多来源的数据(例如平面文件和关系数据库)创建的,从而可以进行更准确的数据分析。
- Time Variant -数据仓库中收集的数据与某个时间范围相关联。数据仓库的数据从历史的角度提供信息。
- 非易失性 -添加新数据时,非易失性存储不会删除现有数据。数据仓库与操作数据库不同,因此对操作数据库的频繁修改不会反映在数据仓库中。
3. 定义 OLTP 和 OLAP。
- 在线事务处理 (OLTP)是一个程序,它可以在收到数据时更改数据,并且有许多并发用户。
- 在线分析处理 (OLAP)是一个收集、维护和分析多维数据以用于分析和管理目的的系统。
4.什么是元数据?
元数据的定义是关于数据的信息。元数据为数据提供了更全面的识别,并作为其与其他数据交互的基础。它也可能是节省时间、保持井井有条并最大限度地提高工作文件效率的宝贵工具。
5. 结构化数据与非结构化数据有何区别?
结构化数据是有组织的,具有明确定义的格式,并且可以放入预定义的表格中。它采用 DBMS 存储技术。扩展模式非常具有挑战性。下面列出的协议包括 ODBS、SQL、ADO.NET 等。与结构化数据不同,非结构化数据缺少架构或框架。它大多是非托管的,在运行时具有高度可扩展性,并且能够存储数据。采用的协议包括 XML、CSV、SMSM、SMTP 和 JASON 等。
6. 在数据仓库的背景下,你对数据立方体有什么理解?
数据立方体是一种多维数据模型,其中包含经过简化、汇总或聚合的数据,以便利用 OLAP 技术进行快速简单的分析。数据保存在数据立方体中,便于在线分析分析。在数据仓库中,可以构建一个 n 维数据立方体。立方体通常被认为是一种三维结构。数据立方体以事实和维度的形式保存信息。

7. ODS 的目的是什么?
用于操作系统的数据存储称为操作数据存储。对于报告和分析,这些数据经常被使用。
8. 您对数据清除一词有何理解?
数据清除是一个涉及可以从存储中永久删除数据的方法的过程。有几种方法和策略可用于数据清除。数据伪造的过程经常与数据删除形成对比。因此,它们并不相同。数据删除更多是临时性的,而数据清理会永久消除数据,从而释放可能用于其他原因的额外存储空间和内存空间。清除过程允许我们存档数据,即使它已从主要来源中永久删除,如果我们清除它,我们可以选择恢复该数据。另一方面,删除过程会永久删除数据,但并不总是需要保留备份;它通常涉及少量数据。
9. 获取当前使用的行业数据仓库系统列表。
以下是目前业界使用的一些关键数据仓库系统:
- Snowflakes
- Apache Hadoop
- Oracle Exadata
- Microfocus Vertica
- Teradata
- GCP Big Query
- SAP BW4HANA
- AWS Redshift
10、什么是虚拟数据仓库?
虚拟数据仓库提供完整数据的收集图片。虚拟数据仓库不包括历史数据。它通常被视为所提供元数据的逻辑数据模型。虚拟数据仓库是促进分析决策的标准数据系统方法。它是翻译数据并将其以决策者格式呈现的最直接的方法之一。作为虚拟化数据的结果,它生成了顶级用户可以查看的语义图。
结论
这使我们得出关于最常见的数据仓库面试问题的博客文章的结论。我们希望您发现这些信息对您有所帮助,并且现在为参加即将到来的面试做好了更多准备。以下是这篇文章的一些最重要的要点:
- 数据仓库用于存储来自多个事务数据库的数据,而;数据挖掘是在庞大的数据集中发现模式的过程。
- (OLTP) 代表在线事务处理,(OLAP) 代表在线分析处理
- 操作系统的数据存储称为操作数据存储
- 虚拟数据仓库提供已收集的所有数据的统一视图。
原文标题:Most Frequently Asked Data Warehouse Interview Questions
原文作者:Prashant Sharm
原文链接:https://www.analyticsvidhya.com/blog/2022/08/most-frequently-asked-data-warehouse-interview-questions/




