结构化数据和非结构化数据都是数据的形式,但前者使用单一的标准化格式进行存储,而后者则不然。结构化数据在存储之前必须经过适当的格式化(或重新格式化)以提供标准化的数据格式,这在存储非结构化数据时不是必需的步骤。
关系数据库为结构化数据的使用和存储方式提供了一个很好的例子。数据通常被格式化为特定字段(例如,信用卡号或地址),允许使用 SQL 轻松找到数据。
非关系数据库,也称为 NoSQL,提供了一种处理非结构化数据的方法。
Edgar F. Codd 于 1970 年发明了关系数据库 (RDBM),并在 1980 年代流行起来。关系数据库允许用户访问数据并使用 SQL(结构化查询语言)编写。RDBM 和 SQL 使组织能够按需分析存储的数据,在当时的竞争中提供了显着的优势。
关系数据库是用户友好的,并且在维护准确记录方面非常非常有效。遗憾的是,它们也相当死板,不能与其他语言或数据格式一起使用。
不幸的是 关系数据库,在 20 世纪 90 年代中期,互联网变得非常流行,关系数据库的僵化无法处理可访问的各种语言和格式。这使得研究变得困难,NoSQL 在 2007 年至 2009 年间被开发为解决方案。
NoSQL数据库高效快速地翻译不同语言和格式的数据,避免了SQL的死板。结构化数据通常存储在关系数据库和数据仓库中,而非结构化数据通常存储在 无SQL 数据库和数据湖。
对于广泛的研究,与关系数据库相比,NoSQL 数据库使用的非结构化数据因其速度和灵活性而成为更好的选择。
互联网和非结构化数据的广泛使用
在 20 世纪 80 年代后期,硬盘价格低廉,加上数据仓库的发展,导致数据存储非常便宜。反过来,这导致组织和个人习惯于存储从客户那里收集的所有数据,以及从互联网收集的所有数据用于研究目的。数据仓库允许分析师访问研究数据更快更有效。
与用于多种用途的关系数据库不同,数据仓库是专门为快速响应查询而设计的。
数据仓库可以是基于云的,也可以是企业内部大型机服务器的一部分。它们与 SQL 系统兼容,因为在设计上,它们依赖于结构化数据集。一般来说, 数据仓库 与非结构化或 NoSQL 数据库不兼容。在 2000 年代之前,企业只专注于从结构化数据中提取和分析信息。
互联网在 2000 年代初开始提供独特的数据分析机会和数据收集。随着网络研究和在线购物的发展,Amazon、Yahoo 和 eBay 等企业开始通过包括搜索日志、点击率和 IP 特定位置数据等内容来分析客户的行为。这突然打开了一个全新的研究可能性世界。他们的研究产生的利润促使其他组织开始自己的扩张 商业智能 研究。
大约在 2015 年,数据湖作为一种处理非结构化数据的方式出现。目前, 数据湖 既可以在内部设置,也可以在 云 (云版本消除了内部安装的困难和成本)。将数据湖从内部位置移动到云以分析非结构化数据的优势包括:
- 更高效的基于云的工具:云上可用的工具可以比内部工具更有效地构建数据管道。通常,数据管道是预先集成的,提供了一个有效的解决方案,同时节省了数百小时的内部设置成本。
- 按需扩展:云提供商可以提供和管理存储数据的扩展,而不是内部系统,后者需要添加机器或管理集群。
- 灵活的基础设施:云服务提供灵活的按需基础设施,根据使用时间收费。还可以访问其他服务。(然而,混乱和缺乏经验会导致时间和金钱的浪费。)
- 备份副本:云提供商努力防止服务中断,因此他们使用物理上不同的服务器存储数据的冗余副本,以防您的数据丢失。
遗憾的是,数据湖尚未成为处理非结构化数据的完美解决方案。与结构化/SQL 数据系统不同,数据湖行业已有大约 7 年历史,尚未成熟。
基于云的数据湖可能易于部署,但可能难以管理,从而导致意想不到的成本。合并批处理和流数据以及损坏的数据时,可能会出现数据可靠性问题。缺乏经验丰富的数据湖专业人员也是一个重大问题。
数据 湖屋仍处于开发阶段,其目标是存储和访问非结构化数据,同时提供结构化数据/SQL 系统的优势。
使用结构化数据的好处
基本上,结构化数据的主要好处是易于使用。这种好处体现在三个方面:
- 多种工具可供选择:由于这种流行的数据组织方式已经存在了一段时间,因此已经为结构化/SQL 数据库开发了大量工具。
- 机器学习算法:结构化数据非常适合训练 机器学习算法。结构化数据的明确定义性质提供了机器学习可以理解和使用的语言。
- 商业交易:结构化数据可以被普通人用于商业目的,因为它易于使用。无需了解不同类型的数据。
使用非结构化数据的好处
非结构化数据的示例包括社交媒体帖子、聊天、电子邮件、演示文稿、照片、音乐和物联网传感器数据等。NoSQL 和数据湖处理非结构化数据的主要优势在于它们可以灵活处理各种数据格式。使用 NoSql 数据库或数据湖的好处是:
- 更快的积累速度:因为不需要将不同类型的数据转换成标准化格式,所以可以快速高效地收集。
- 更有效的研究:从各种来源获取的更广泛的数据基础通常可以提供更准确的人类行为预测。
结构化和非结构化数据的未来
在接下来的十年中,非结构化数据的使用将变得更加容易处理,也更加普遍。使用结构化数据不会有任何问题。结构化数据的工具将继续开发,并将继续用于商业目的。
尽管还处于发展的早期阶段, 人工智能 已经开发出一些算法来帮助在搜索非结构化数据时自动找到意义。
目前,微软的 Azure AI 正在使用光学字符识别、语音识别、文本分析和机器视觉的组合来扫描和理解可能由文本或图像组成的非结构化数据集合。
Google 提供了多种使用 AI 算法的工具,非常适合处理非结构化数据。例如,Vision AI 可以解码文本、分析图像,甚至可以识别照片中人物的情绪。
在未来十年,我们可以预测人工智能将在处理非结构化数据方面发挥重要作用。将迫切需要“识别算法”。(我们目前似乎仅限于 图像识别, 模式识别, 和 面部识别.) 随着人工智能的发展,它将用于使处理非结构化数据变得更加容易。
更多内容请关注 OushuDB 小课堂




