
机器学习。数据科学。人工智能。深度学习。统计学。如今,大多数组织、企业和个人都在使用这些技术 — 无论他们是否了解这些技术。如果您的工作涉及计算机,那么,您可能至少对其中的某些术语感到熟悉,但这些术语可能会令您感到困惑,并且其用法有时会相互冲突。
21世纪是大数据时代。大数据指的是极为庞大而复杂的数据集,以至于以前的数据处理应用不足以充分处理它们。研究人员和企业都在利用和尝试通过各种方法从大数据中提取价值。全球互联世界提供了无限的方式来生成、收集和存储数据进行分析。我们以前从未接触过如此众多的数据,我们现在才刚刚开始设法揭示数据中蕴含的重大意义和有用的信息。
数据科学、机器学习和深度学习等相对较新的概念不仅提供了一套新的技术和方法,而且也为企业大肆进行炒作和品牌宣传带来了机会。企业可以不必采用这些流程,仅通过这些“高大上”的术语来吸引客户。本文将探讨这些术语之间的区别以及它们是否指代同一事物,无论是新术语还是重获热度的旧术语。
统计学与人工智能
让我们从统计学开始,因为统计学在计算机出现之前便已存在了几十年甚至几个世纪。统计学的研究和统计建模的应用是数学的一个分支。其理论和应用都旨在基于数学方程式来识别和形式化数据变量中的关系。统计建模依赖于样本、总体和假设等工具。
20世纪下半叶,随着计算机的普及和计算能力的商品化,人们开始在计算应用中进行统计,这样就可以处理更大规模的、各种不同的数据集,并且可以应用必须依赖计算能力的统计方法。
从根本上说,人工智能是数学与计算机科学首次碰撞的演变结果。[有关AI历史的有趣描述,请参阅这篇文章]统计建模最初只是纯粹的数学或科学练习,但当其演变成一项计算功能时,就为人类利用统计学知识来解决“人为”问题打开了大门。战后,由于人们对计算满怀憧憬,并且相信人类的思维过程本质上就是计算过程,因此,我们可以构建“人工”人类智能的想法得到了普遍认可。
20世纪60年代,人工智能领域正式成为计算机科学领域的子领域。新技术的出现以及人类对人脑工作方式的深入了解,导致人类对人工智能的想法从原始计算统计范式变成了可以模拟人类实际能力的现代科学,例如做决策和执行其他的“人类”任务。
现代人工智能通常分为两个领域:一般人工智能和应用人工智能。无人驾驶汽车或智能股票交易机等系统都属于应用人工智能。相对而言,一般人工智能 - 即系统在理论上可以处理任何任务的概念 - 在现实生活中比较罕见,例如:
• 规划
• 分析
• 识别物体和声音
• 对话和翻译
• 社会或商业交易
• 创造性地工作
人工智能的概念随着技术的进步而不断发展变化,并且在可以预见的未来极有可能延续这一趋势。目前,衡量成败的唯一可靠标准是其完成应用任务的方式。
机器学习
时间来到1959年,人工智能的理念在计算机科学领域彼时已得到了广泛关注。该领域的领军人物兼专家亚瑟•塞缪尔(Arthur Samuel)认为,与其让工程师通过“教导”或编程来让计算机获得执行任务所需的能力,不如让计算机自己教自己 — 无需显式编程即可学到一些东西。塞缪尔称之为“机器学习”。
机器学习是应用人工智能的一种形式,其基于的理论是:与(由人类)显式编程的系统相比,那些在接触到更多数据时能够改变行动和响应方式的系统,对于某些应用而言更加高效、更具可扩展性且适应性更强。当然,目前有许多应用均可证明该理论的正确性,例如比较常见的导航应用以及(购物和电视节目等的)推荐引擎。
机器学习通常分为“有监督”和“无监督”。有监督学习是指机器基于已知输入和输出进行推断的能力。无监督机器学习则只涉及到输入,在缺少已知或预期输出的情况下变换或发现隐藏在数据中的模式。如想详细了解有监督和无监督机器学习之间的区别,请参阅我的相关博客文章。
机器学习是统计变换的任务导向应用。完成任务需要一个过程或一组步骤和规则等。计算或解决问题过程中需要遵循的这个过程或这组规则称为算法。工程师在设计学习机器时会编写一组算法,以供机器在处理数据时使用。
在进行学习和获得反馈的过程中,机器通常不会改变其所采用的统计变换方式,而是会改变算法。例如,如果机器被训练为在评估数据时考虑两个标准,但它学习到了与其他两个标准高度相关并且能够提高计算准确性的第三条标准,那么,它可能会将这个第三条标准添加到分析中。这是对步骤(算法)的更改,而不是对基础数学的更改。
从根本上说,机器学习是“教导”计算机适应数据变化的一种方式。现在,人类世界持续不断地创建几乎无限的数字数据。这些数据的数量和多样性均迅速呈现出指数级增长。与人工分析相比,机器分析具有速度快、准确性高以及无主观偏见等优势,这也正是为何说机器学习至关重要并且已达到临界点的原因。
深度学习
领域专家伯纳德•马尔(Bernard Marr)表示,作为应用人工智能,深度学习甚至比机器学习还要高级 — 可被视为最前沿的技术。机器学习使用庞大的有限数据集训练和运行,例如21世纪制造的所有汽车。机器学习擅长学习“已知的新内容”,但不太擅长学习“未知的新内容”。
机器学习通过学习输入数据来产生预期输出,而深度学习则旨在学习输入数据并将其应用于其他数据。图像识别是深度学习的范例之一。假设您想让机器查看一幅图像,并想让其像人类一样对图像中的内容做出判断。一张脸、一朵花、一幅风景、一辆卡车、一座建筑等等。要想做到这一点,机器必须能够学习成千上万幅图像,然后将这些知识应用到您希望其识别的每幅具体的新图像中。
机器学习不足以完成这项任务,因为无论是基于已知算法还是固有的数据结构,机器学习都只能基于数据集来产生输出。您也许可以使用机器学习来确定图像是否为“X” – 例如一朵花 – 并且通过学习,其判断力会变得更准确。但该输出是二进制的(是/否),并且依赖于算法而非数据。但在这个图像识别案例中,结果并不是二进制的,也不依赖于算法。
这是因为深度学习使用了神经网络。我将会另写一篇博客文章来具体探索神经网络,但就这里探讨的主题而言,我们只需知道神经网络的计算方式有别于典型机器即可。
神经网络并不旨在依照算法行事,而是对数据进行多次“微观”计算。具体执行哪些计算及其执行顺序取决于数据而非算法。神经网络还支持对数据进行“置信度”加权,这便形成了一个概率性而非确定性的系统,并且该系统可以处理我们认为需要更多“类人”判断力的任务。
深度学习神经网络庞大而复杂,需要多层次、多分布的微观计算。机器仍使用数据进行训练,但却可以执行比机器学习更细微的任务。深度学习适用于面部、图像或手写识别等机器分类任务。
以下是现实世界中使用机器学习和深度学习的一些有趣的技术:
• 无驾驶车辆使用传感器和车载分析系统来更好地识别障碍物,从而更加快速准确地做出适当反应。
• 软件应用程序可以通过识别物体以及预测该物体的本来颜色来给黑白图像重新着色。
• 机器可在您输入基本案件资料之后预测法律诉讼的结果。
数据科学
统计学属于数学领域。人工智能、深度学习和机器学习都属于计算机科学领域。数据科学与数学完全是两码事。
数据科学的正式定义是一种跨学科的数据挖掘方法,它将统计学、多个计算机科学领域以及科学方法和过程结合在一起,旨在自动挖掘数据,无需手动干预。现代数据科学越来越关注大数据。
为了处理大数据,数据科学从这些领域以及其他领域中选出了许多工具、技术和算法。数据科学的目标在某种程度上类似于机器学习,都是为了做出准确预测以及实时自动地处理事务,例如购买互联网流量或自动生成内容。
相对而言,数据科学对数学和编码的依赖性较低,对数据和建立新系统来处理数据的依赖性较高。数据科学依赖于数据集成、分布式架构、自动机器学习、数据可视化、数据工程和数据驱动的自动决策等多个领域,因此,它并不是仅关乎与数据相关的算法或统计,而是关乎整个数据处理领域。
术语品牌化
这些术语有时可以互换使用,有时则是偷梁换柱。例如,一家打算出售新技术的公司可能会向潜在买家大肆宣传其创新型数据科学技术,但实际上,他们可能与这项技术根本不沾边。
进行这种宣传时,他们只需证明自己与这些理念所代表的宗旨相一致即可:创新、前瞻性思维、以及技术和数据的新用例。这从本质上来说不构成欺诈,我只是想提醒您,企业声称其在产品设计中使用了这些工具并不等于他们真的使用了这些工具。请您在购买时慎重对待。
如果您想了解更多关于BMC的相关信息,请点击阅读原文了解详情。




