这些基础数据科学面试题，你能答出来吗？

原创小小亮 2022-08-17

1084

介绍

数据科学面试包括统计和概率、线性代数、向量、微积分、机器学习/深度学习数学、Python、OOPs 概念和 Numpy/Tensor 操作等问题。除此之外，面试官还会询问您的项目及其目标。简而言之，面试官关注的是基本概念和项目。

本文是数据科学面试系列的第 1 部分，将涵盖一些基本的数据科学面试问题。我们将讨论面试问题及其答案：

什么是 OLS？为什么，我们在哪里使用它？

OLS（或普通最小二乘法）是一种线性回归技术，有助于估计可能影响输出的未知参数。这种方法依赖于最小化损失函数。损失函数是实际值和预测值之间的残差平方和。残差是目标值和预测值之间的差值。误差或残差为：

最小化∑( yi – ŷ i) ^2

其中ŷ i 是预测值，yi 是实际值。

当我们有多个输入时，我们使用 OLS。这种方法将数据视为矩阵，并使用线性代数运算估计最佳系数。

什么是正则化？我们在哪里使用它？

正则化是一种减少训练模型过拟合的技术。这种技术用于模型过度拟合数据的地方。

当模型在训练集上表现良好但在测试集上表现不佳时，就会发生过拟合。该模型对训练集的误差最小，但对测试集的误差很高。

因此，正则化技术惩罚损失函数以获得完美拟合模型。

L1 和 L2 正则化有什么区别？

L1 正则化也称为 Lasso（最小绝对收缩和选择算子）回归。该方法通过添加系数幅值的绝对值作为惩罚项来惩罚损失函数。

当我们有很多功能时，Lasso 效果很好。这种技术适用于模型选择，因为它通过将系数缩小到零来减少不太重要的变量的特征。

因此，它删除了一些不太重要的特征，并选择了一些重要的特征。

L2 正则化（或岭回归）随着模型复杂性的增加而惩罚模型。正则化参数 (lambda) 惩罚除截距之外的所有参数，以便模型泛化数据并且不会过拟合。

岭回归将系数的平方幅度作为惩罚项添加到损失函数中。当 lambda 值为零时，它变得类似于 OLS。虽然 lambda 很大，但惩罚会太大，导致欠拟合。

此外，岭回归将系数推向更小的值，同时保持非零权重和非稀疏解。由于损失函数中的平方项破坏了使 L2 对异常值敏感的异常值残差，惩罚项试图通过惩罚权重来纠正它。

当所有输入特征以大致相等的大小影响输出时，岭回归表现更好。此外，岭回归还可以学习复杂的数据模式。

什么是 R 方？

R Square 是一种统计量度，显示数据点与拟合回归线的接近程度。它计算由线性模型计算的预测变量变化的百分比。

R-Square 的值介于 0% 和 100% 之间，其中 0 表示模型无法解释预测值在其均值附近的变化。此外，100% 表示该模型可以解释输出数据在其均值附近的整体可变性。

简而言之，R-Square 值越高，模型对数据的拟合越好。

调整后的 R 平方

R 方度量有一些缺点，我们也将在这里解决。

问题是，如果我们在模型中添加垃圾自变量或重要自变量或有影响的自变量，R-Squared 值将始终增加。它永远不会随着新的自变量添加而减少，无论它可能是有影响的、无影响的还是无关紧要的变量。因此，我们需要另一种方法来测量等效 R 方，这会用任何垃圾自变量来惩罚我们的模型。

因此，我们在通用 R 平方公式中通过更好的调整来计算调整后的 R 平方。

什么是均方误差？

均方误差告诉我们回归线与一组数据点的接近程度。它计算从数据点到回归线的距离并将这些距离平方。这些距离是模型对预测值和实际值的误差。

线性方程为 y = MX+C

M是斜率，C是截距系数。目标是找到 M 和 C 的值以最适合数据并最小化误差。

为什么支持向量回归？SVR和简单回归模型的区别？

简单回归模型的目标是最小化错误率，而 SVR 试图将错误拟合到某个阈值。

主要概念：

边界
核心
支持向量
超平面

最佳拟合线是其上具有最大点数的线。SVR 尝试在距基本超平面 'e' 的距离处计算决策边界，以使数据点最接近该超平面，并且支持向量位于该边界线内。

结论

我们已经介绍了一些关于线性回归的基本数据科学面试问题。您可能会在入门级工作的面试中遇到这些问题中的任何一个。本文的一些关键要点如下：

普通最小二乘技术估计未知系数并依赖于最小化残差。
L1 和 L2 正则化分别用系数值的绝对值和平方来惩罚损失函数。
R 平方值表示响应围绕其平均值的变化。
R-square 有一些缺点，为了克服这些缺点，我们使用调整后的 R-Square。
均方误差计算回归线上的点与数据点之间的距离。
SVR 将误差拟合在某个阈值内，而不是将其最小化。

但是，一些面试官可能会更深入地研究任何问题。如果您想深入研究这些概念的数学，请随时发表评论或在此处与我联系。我将尝试在任何进一步的数据科学面试问题文章中解释这一点。

原文标题：Data Science Interview Series: Part-1
原文作者：Kavish111
原文地址：https://www.analyticsvidhya.com/blog/2022/06/data-science-interview-series-part-1/

数据科学面试墨力翻译

最后修改时间：2022-08-17 16:06:54

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

文章被以下合辑收录

数据库经典面试题汇总（共48篇）