当基于当前技术和市场趋势、竞争对手和合作伙伴做出明智的判断时,企业就会成功。使用结构化查询语言(SQL,发音为“sequel”)从数据库中提取数据是公司获得商业智能以帮助他们做出这些决策的最常见方法之一。
根据Oracle补丁,SQL可以追溯到20世纪70年代由Edgar Codd博士、Donald Chamberlin、Raymond Boyce和其他IBM研究人员建立的早期关系数据库。关系数据库中一个表中的数据可以链接到数据库数千个甚至数百万个条目中任何表中的数据。因此,SQL使得搜索和检索与业务相关的问题的数据以及在报告中显示结果比以往任何时候都更容易、更快。相关阅读:理解SQL的10个步骤
SQL到底是什么?
SQL是关系数据库的查询语言(传统数据库以表格形式存储数据库)。它使用关系模型的能力来提供数据属性或属性,如货币单位、数字、日期或指定值。以下是一种典型的SQL格式,其中包含表、列、字段和行:
-
与电子表格类似,数据库表由行和列组成
-
每列显示该记录中的一个字段,每行表示一个记录
-
为了保证每个字段中的数据符合数据库的标准,可以向表和表中的每列提供属性。
让我带你们看一些统计数据,这些数据说明SQL是多么流行,财富500强公司是如何依赖它的!
-
近58.2%的数据科学家工作需要SQL技能(事实确实如此)
-
数据科学家更喜欢SQL而不是R和Python,超过65%的人使用SQL(StackOverFlow 2020调查)
-
Microsoft、NTT Data、Accenture、Dell和Cognizant是使用SQL分析数据的顶尖公司
-
MySQL在2022年被评为第二大最流行的数据库管理系统(Statista)
为什么SQL知识对数据科学家至关重要?
作为一名数据科学家,我将列出了解SQL的一些最大好处。这种语言:
-
它易于理解和使用,这取决于英语术语和简单的结构。
-
它与Python、R和其他编程语言兼容,使数据科学家能够交换和显示他们的发现,为数据科学家提供检查数据集的工具,从而帮助他们更好地理解数据集。
-
容纳数据分析师和科学家必须处理的大量数据。例如,关系数据库远比电子表格强大。
-
大多数招聘数据科学家和数据科学专业人员的招聘人员对这种语言的熟练程度排名高于其他编程语言。
最常见的SQL命令有哪些?
为了开发和修改表、定义用户权限以及执行其他活动,使用SQL命令与数据库进行交互。SQL命令有五种基本类型:
数据定义语言(DDL)
DDL指令用于通过添加、删除或更改表中包含的数据来改变表的结构。命令自动保存在数据库中或“自动提交”
创建
此命令通过提供表名、列名、大小和属性来创建新表。
修改
此命令主要用于向数据库模式添加新功能或更改目前现有功能。从表中删除当前列、更改列或表或减小列的大小都是可能的用途示例。
删除
此命令用于删除表,包括其所有数据。
重命名
此命令为现有表提供了一个新名称
理想的DDL应该:
-
为每个记录类型、数据项类型、数据库、文件类型和其他数据细分指定唯一的名称
-
区分几种数据划分,例如数据项、段、记录和数据库文件
-
说明不同记录类别与不同make结构的关系
-
能够指定数据元素的长度
数据操作语言(DML)
使用DML指令修改数据库。由于DML命令不像DDL那样自动提交,因此可以撤消这些命令。
插入
通过给出表名和与新信息相关的值,例如年龄、地址和名称,该命令用于将数据插入表行。同样,它也可以用来用另一个源的数据填充表。
删除
此命令从表中删除一行或多行。例如,只指定表名会删除其所有行;但是,添加条件(例如,WHERE Name=“MIKE”)只会删除符合要求的行。
更新
此命令更改表字段的值,并将其应用于所有行或仅适用于满足条件的行,例如包含特定州代码或邮政编码的行。
DML只是暗示:
- 检索、插入、删除和修改数据库中存储的信息
事务控制语言(TCL)
为了管理数据库,TCL命令与DML命令一起使用。但是,TCL命令不能用于创建或删除表,因为它们在数据库中是自动提交的。
三级标题提交
此命令保存所有数据库事务,终止当前事务,并将事务期间执行的所有更改标记为不可逆。它还释放表持有的所有事务锁。
回降
通过终止事务并清除事务期间所做的所有修改,此命令将删除所有尚未保存到数据库的事务。它还释放了在表上获得的任何事务锁。
保存点
使用此命令将数据库回滚到以前构造的保存点。只有交易的某些方面可以以这种方式保留。自上次提交或回滚命令以来,必须给出保存点。
数据控制语言(DCL)
DCL命令控制谁可以访问数据库中的数据。这些指令允许或拒绝某些用户根据其用户访问权限进行访问。
授权
该命令向用户授予访问权限,并指定允许用户执行的任务,例如选择和更改表,以及向其他用户授予访问权限的能力。
撤销
此命令删除用户的访问权限。任何有能力向他人提供访问权限的人都可以使用它,即使授予人不是表的创建者。
数据查询语言(DQL)
DQL命令从数据库中获取数据,该数据库符合SELECT命令语法的要求。
选择
这是唯一可用的DQL命令,适用于所有检索活动。通过定义表名,语法指示在何处查找给定数据。WHERE语句指定要获得目标数据必须具备的品质或特征,例如,“WHERE age>65”
什么是不同的SQL数据类型?
选择生成查询时要使用的合适SQL数据类型是创建结构良好的查询的第一步。可以放在表列中的值的类型由数据类型定义,其中一些是:
SQL日期和时间数据类型
-
日期:以YYYY-MM-DD格式缓存的日期
-
时间:缓存在HH:MI:SS表单中的时间
SQL二进制数据类型
-
二进制:固定长度,最多8000个字符
-
VARBINARY:可变长度,最多8000个字符
用于字符和字符串的SQL
-
字符:固定长度最多为8000个字符的字符
-
VARCHAR:最多8000个可变长度字符
-
VARCHAR(max):可变长度存储使用“max”选项创建最大为231-1字节的列约束,或以字节为单位定义从1到8000的字符串大小。(2 GB)
精通SQL的数据科学专业人士
具有SQL技能的数据科学家和软件开发人员有更多的工作选择。SQL知识在各种专业角色中都很有用,例如:
-
SQL数据库开发人员
-
SQL数据库管理员
-
SQL数据分析师
-
云数据库专家
-
商业智能管理员
总结
数据的使用只会增加;因此,从长远来看,学习SQL将对您有所帮助。对于数据科学家和数据库专业人员来说,学习SQL是为他们的职业做准备的最佳方式。数据库系统不仅是寻找数据专家的企业中最需要的人才之一,而且也是学习其他有用it技能的垫脚石。SQL知识是数据研究和软件开发中许多盈利职位的基石。
原文标题:Why Is SQL Knowledge Vital for Data Scientists? A Sneak Peek
原文作者: Anamika Singh
原文链接:https://dzone.com/articles/why-sql-knowledge-is-vital-for-data-scientists-a-s




