暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

面试官最爱问的15道数据科学面试题

原创 小小亮 2022-08-17
1236


介绍

如果您是新人,尤其是在参加数据科学和机器学习等跨学科角色的面试时,工作面试可能会很可怕。紧张、怀疑你是否会在面试结束时得到是或否,以及你是否能正确回答所有被问到的问题,都可能导致准备过程中分心。因此,在本文中,我将根据我之前的面试经验,分享一些来自数据科学和 ML/AI 各个学科的最常遇到的问题。

尽管这些是最重复的,但您可能会或可能不会被问到这些问题。问题通常取决于公司或组织中完成的工作类型(例如,如果组织不处理时间序列数据,您将不会收到时间序列问题)。

注意 – 无论如何,在参加任何数据科学面试之前,这 15 个精选问题都必须在您的提示中!

废话不多说,让我们进入主题吧!


15 个重要的数据科学面试问题

1.什么是混淆矩阵?用你自己的话描述它的作用。您对 I 型和 II 型错误的理解是什么?

答。在现实世界的机器学习中,混淆矩阵是总结机器学习模型性能的一种非常有用的方法。混淆矩阵背后的想法直接来自这样一种观念,即仅根据分类任务的准确性来判断分类任务并不是一个好主意。不平衡的数据是有偏差的/偏斜的,因此会给出错误的分类结果。

因此,混淆矩阵提供了一种更好的方法来检查模型的性能。混淆矩阵是一个 2×2 矩阵,由 4 个关键指标组成——真阳性、假阳性、真阴性和假阴性。


真阳性 (TP) – 对真实事件的正确预测

误报 (FP) – 对真实事件的错误预测。也称为I 型错误

真阴性 (TN) - 对错误事件的正确预测

假阴性 (FN) - 对错误事件的错误预测。也称为II 型错误

一个模型可以通过灵敏度、特异性和准确性这 3 个指标来很好地判断,这些指标可以从混淆矩阵中计算出来。

敏感性——它是正确预测的真阳性比例的量度。

 公式 – TP/(TP + FN)

特异性——它是正确预测的真阴性比例的量度

 公式 – TN/(TN + FP)

准确度——衡量分类的准确程度。它只是所有真实预测(TP 和 TN)的比例。

公式 – (TP + TN)/(TP + TN + FP + FN)

资料来源——ResearchGate

2.用公式定义精度、召回率和 f1 分数。

答。精度 ——精度是衡量真阳性与预测阳性总数的比例。它有助于分析预测的质量,更高的精度意味着模型被概括并给出几乎正确的结果。

公式——TP/(TP+FP)

召回 率——也称为灵敏度/真阳性率 (TPR)/检测概率,召回率是真阳性与总阳性的比率。它有助于衡量预测的真阳性率和完整性。

公式——TP/(TP + FN)

F1 分数 ——Precision 和 Recall 之间的加权调和平均值是 F1 分数。评估模型的性能需要同时使用 Precision 和 Recall。

公式 - 2 x (Precision x Recall)/(Precision + Recall)

3. 你如何区分特征选择和特征提取?

答。特征选择和特征提取是缩小高维数据以解决维度诅咒的两种非常重要的技术(特征过多,可能没有必要,并且会阻碍良好的建模)。


特征选择——众所周知,输入特征变量的增加会消耗计算资源,并减慢建模速度,从而导致整体失败。特征选择数据预处理的那个阶段,其中只考虑对预测目标至关重要的特征进行建模,并删除不相关和冗余的特征。这是稍后要开发的 ML 管道的鲁棒性所依赖的阶段,因此应该在这个阶段投入大量的时间和精力。优化的特征集可以带来更容易的建模、快速的计算、强大的机器学习管道,这些管道可以轻松扩展并为生产做好准备。

特征提取——特征提取是一个在很大程度上加速正确特征选择的过程。特征提取的任务是从现有数据中转换特征以提取新特征。特征提取(转换)应在特征选择之前完成,因为特征选择取决于提取的特征。

因此,在数据预处理阶段,通过转换数据从给定数据中提取特征(如文本中的 n-gram/词性标签、图像中的角/边缘)。此外,进行特征选择以去除不相关和冗余的特征,最后进行数据挖掘(从数据中探索趋势和见解)和建模(解释和评估)。

4.您对自回归和移动平均线了解多少?为什么我们不能用非平稳数据来解决时间序列问题?

答。通常用作处理时间序列数据的统计工具,自回归是一种使用回归(通常是线性回归)获取输入/滞后变量(先前时间步长的观察,因此自回归)并将它们建模以输出目标变量的技术在未来的时间步,基于滞后变量的线性组合。


让我们从数学上解释一下——

X(t+1) = b0 + b1 * X(t-1) + b2 * X(t-2)

其中 b0,b1 = 通过优化训练数据集计算的系数

X(t+1) = 时间戳 (t+1) 处的预测值

X(t-1) , X(t-2) = 输入变量/先前时间戳 (t-1) 和 (t-2) 的观察值

移动平均线只是计算变化的数字子集的平均值(数学术语中的滑动窗口)在时间序列数据中,我们使用这种非常有用的技术来计算特定时期内特定时变特征的平均值。

例如,在股票市场预测中,IT 巨头使用移动平均线来查看市场中的股票趋势,这有助于他们预测未来 2-3 个月左右的股票走势。

此外,可互换地称为滚动平均值,这就是它的作用 -

让时间戳 t-1 处的平均值为 x 并且 t-2 为 y,因此我们找到 x 和 y 的平均值来预测时间戳 t+1 处的值。因此,滑动窗口取 2 个值的平均值来预测第三个值。完成后,它将滑动到下一个值子集。

来源——维基百科

移动平均模型不是采用先前时间步长的值,而是采用先前值中的滞后预测误差(白噪声误差)来预测最终预测。

第二部分——

我们不能用非平稳数据来解决时间序列问题。绝不。

通常,平稳性意味着非波动性和一致性。当它所拟合的数据本质上是平稳的,即没有高波动(输入/输出参数如均值、中值、方差没有一致性)时,任何机器学习模型都会表现良好。

在时间序列预测中,数据是高度波动的,与时间段一样,会出现季节性和趋势,这往往会使数据急剧不一致。不可能对具有如此高度波动的均值和方差的数据进行建模。预测遇到危机。

因此,在建模之前检查数据的平稳性并消除数据的非平稳性(如果有的话)是非常重要的。

5. 解释隐马尔可夫模型。为什么叫“隐”?

答。隐马尔可夫模型只是具有隐藏状态的马尔可夫模型。HMM 专门用于使用机器学习解决问题,其中基于一组“观察到的”特征/属性来预测“隐藏”目标。例如,您的“心理健康”是一种隐藏状态,可以通过一组观察到的特征来预测,例如{睡眠时间、压力水平、工作压力、身体健康、创伤/虐待}。

隐马尔可夫模型具有以下概率参数 -

  1. y(i) – i 观察次数 (y)
  2. X(i) – i 状态数 (X)
  3. a – 状态的转移概率
  4. b – 输出/排放概率

使用这些参数,HMM 试图回答这个问题——

观察 y(i) 发生的可能性有多大?

根据我们得到的发射或输出概率,我们可以很容易地确定它是否可能发生(接近 1)或不可能发生(远低于 1)。

在隐马尔可夫模型中,概率推断“隐藏目标”是基于马尔可夫过程的最大似然估计得出的,该过程依赖于“给定现在,未来总是独立于过去”这一原则。因此,名称,隐马尔可夫模型。

6. 你对自动编码器了解多少?它们与 PCA 相似吗?

答。自编码器是一种人工神经网络架构,属于广泛而多样的 ANN 家族。自动编码器的独特之处在于它是一种特征学习算法,它产生与输入相同的输出,与其他输出类概率分布的神经网络不同。


注意——自动编码器在数据压缩机制上工作,通常说这是通过堆叠多个非线性变换(层)来表示潜在空间。潜在的意思是“隐藏的”。当您通过图像对狗和猫进行分类时,机器首先能够通过学习面部特征或机器学习术语中图像的结构相似性来指出狗和猫但是我们真的能看到这个过程是如何运作的吗?没有。因此,我们称之为潜在空间表示,或者简单地说,隐藏空间表示。

因此,自动编码器的任务是将输入数据压缩成潜在空间表示(用于提取特征相似性,因为图像中的相似特征将位于潜在空间中彼此接近的坐标)以提取特征相似性,最后重建(使用上采样和卷积操作)输出图像本身。

压缩是维的首选词。压缩在深度学习中被大量使用,通过去除不相关的细节并只关注相关的细节来降低图像的维度。它通常通过将 n 维数据编码为 1 维然后对其进行解码以产生原始数据来完成。

虽然 Autoencoders 类似于 PCA,但在目前非线性特征空间的情况下,它被认为优于 PCA(PCA 只能处理线性变换,并且在非线性空间上使用它会导致相关信息的丢失)。

自动编码器在降低高维图像数据的维度方面非常有用,这在执行计算机视觉任务时会带来昂贵的计算成本。自编码器具有的众多压缩优势之一是消除噪声并输出清晰的数据。

7. 什么是消失梯度和爆炸梯度?

答。在模型训练期间,随机梯度下降(或 SGD)计算损失函数相对于神经网络中权重的梯度。在反向传播(梯度计算)期间,我们更新功能参数(权重)以最小化丢失的功能,通过微分的链式规则(一些依赖于稍后驻留在网络中的参数的导数的乘积)。现在,有时网络前几层的权重梯度开始在 WRT 时间变得越来越小,最后压缩到 0。


消失!!

因此,消失的梯度。(嗯,一堆小于 1 的数字的乘积会给我们一个更小的数字。从重量中减去这么小的数量永远不会真正更新重量。非常不言自明。)

爆炸梯度是消失梯度的“颠倒”。假设我们的梯度值是一个很大的数字,比如 1。那么,一堆大于 1 的数字的乘积会给我们一个更大的数字。因此,每个 epoch 的权重都会发生巨大的变化,从而产生较大的值,因此它会远离最优值,从而导致梯度爆炸。

8.解释 NLP 文本预处理中的标记化、词干化和词形还原。 

标记化是一个非常基本的文本预处理阶段,其中文本语料库中的大句子片段被分解成它们的最小单元,即单词(通常是句子),它们表示为标记。标记化在文本挖掘和处理中很重要,以计算建模过程中需要的词频。


标记器通常有两种类型 -

词级标记 器 - 将文本分解为词级。

语法:tokenize.word_tokenize()
返回类型:返回单词列表。

句子级别标记 器 - 将文本分解为句子级别。

语法:tokenize.sent_tokenize()
返回类型:返回句子列表。

Stemming or Rooting是另一种文本预处理技术,其中单词被缩减到其基本级别或根级别(例如,word = 'stems',root = 'stem')以避免处理文本中相同单词的不同语法形式。

尽管词干提取效果很好,但对于某些单词来说,它可能会给出奇怪和无意义的输出,就像它为“抚摸”这个词提供了“抚摸”的基础。“抚摸”甚至不是一个词,我们丢失了我们拥有的正确数据“抚摸”。如果这个过程在提供给词干分析器的文本中经常发生,则会丢失大量信息,从而导致稍后的模型失败。

词形还原是为了解决我们刚刚看到的词干化中发现的漏洞。它处理派生词缀并且不会丢失原始单词,因为它准确返回单词的字典库,称为“引理”。通过考虑词性和文本的形态,词形还原以更合乎逻辑的方法工作。

例如,如果我们将“United”和“States”提供给 Stemmer,我们会得到“Unite”和“State”,而词形还原器从词性中理解它是专有名词(前面有“the”)并返回'United' 和 'States' 不改变原来的形式。

9.简述TFIDF算法在解决NLP用例中的作用。

答。TF-IDF 是Term Frequency Inverse Document Frequency的缩写。它是一种信息检索算法,可为文本语料库中的文档分配分数或权重因子,以用于执行 NLP 用例。评分直接有助于理解单词或句子的重要性,这反过来又有助于从语料库中消除无关/不相关的词汇,并更多地关注重要或得分高的单词/句子。

TF-IDF 使用两种频率计算。词频(TF)逆文档频率(IDF)

词频(TF)—— 它只是文档中出现的词(词)的频率。对于大文本,某些单词的 TF 值可能非常高,因此 TF 的归一化是通过将文档中找到的单词 (w) 的频率除以文档中的单词总数来完成的。

逆文档频率 (IDF)  — IDF 为文档中很少找到的术语/单词分配更高的分数或简单地加权。术语越少,IDF 权重或分数就越高。

注意 — IDF 计算(唯一性程度)很重要,因为当文档的长度增加时,“as”、“therefore”、“since”、“there”、“then”、“that”等词会增加到很大程度上。这些词确实对机器学习部分贡献不大,因此出现较少(但重要)的稀有词或文档特定词在 IDF 中得分较高。例如,它通过检查搜索中输入的唯一词而不是常用词来帮助搜索引擎提供非常好的结果。

IDF 是通过获取文档总数与其中包含术语“t”的文档数之比的对数来计算的。

因此,TFIDF 只不过是 TF 和 IDF 的产物——

TFIDF = TF * IDF

10. 什么是中心极限定理?你接受还是拒绝零假设?用有效点解释。

答。中心极限定理简单地说,如果我们给定一个总体数据,无论是具有有限均值和方差/标准差的任何分布,那么采样均值的采样分布将始终是正态/高斯分布。


顾名思义,空假设可以被无效或拒绝。

假设您认为自己受到了冠状病毒的攻击,因此您是 Covid 阳性。他们假设的就是我们所说的零假设。另一种假设——你想用零假设替换的假设是你不是 covid 阳性。所以,你会想要拒绝零假设——证明你不是 covid 阳性。

注意 — 您要么拒绝原假设,要么未能拒绝原假设。

原假设是要检验的假设。

未能拒绝空值意味着没有足够的数据来支持替代方案带来的变化或创新。拒绝原值意味着有足够的统计证据表明原假设不能代表事实。

让我们看一个视觉表示——

假设 |  数据科学面试题
来源——365DataScience

给定上面的双尾测试:

从图形上看,当我们拒绝原假设时,分布的尾部会显示出来(注意“拒绝区域”)。留在中间的一切都是“接受区域”。

基本原理是,如果观察到的统计量离 0 太远(取决于显着性水平),我们拒绝零。否则,我们接受。

为了计算显着性水平(拒绝原假设为真的概率),我们需要计算 p 值。给定观察到的样本统计量,p 值是我们仍然可以拒绝原假设的最小显着性水平。

p值的一些重要特征——

  1. 通常在点 (x.xxx) 后有 3 位数字。
  2.  p值越接近0.000越好。

有两种类型的显着 p 值(显着性水平 - alpha)。进行假设检验的技巧如下:

  • 0.000—— 当我们检验一个假设时,我们总是争取那些“点后的三个零”。这表明我们在所有显着性水平上都拒绝空值。
  • 0.05—— 它是 p 值的“阈值”。'。如果我们的 p 值高于 0.05,我们通常会接受原假设(相当于以 5% 的显着性水平进行检验)。如果 p 值低于 0.05,我们将拒绝 null。如果它正好是 0.05,你可以选择任何一种方式。

11. 比较和对比 L1 正则化与 L2 正则化。

答。正则化是控制模型复杂性和以灵活可调的方式减少过拟合的最常用方法。


L1 正则化或 L1 范数或 Lasso 回归通过将特定于模型的参数压向 0 来工作。简单地说,L1 正则化所做的就是将 0 值分配给对机器学习的预测能力贡献不大的特征权重模型。因此,它就像一种特征选择方法。

我们只是通过在广义线性模型(例如回归)中的损失函数中添加一个惩罚项来做到这一点 -

我们知道平方损失是——

平方误差损失

现在正则化只是增加了一个惩罚项来惩罚 | 重量(Wj) 通过强制无关特征的权重为 0。公式如下——

重量

这个公式不是火箭科学的东西。它只是添加到残差平方和 (RSS) 公式中的一个惩罚项。lambda 超参数(正则化率)调整应用于模型的正则化量。lambda 越大,系数越接近零,模型可能欠拟合。

因此,Lasso 或 L1 正则化将系数的绝对值添加到误差项。因此,当我们在预测建模中有太多的特征可供选择时,这个正则化项通过丢弃它们有助于优化特征选择。

L2 正则化或 L2 范数或岭回归的工作方式类似,除了惩罚项,我们不采用系数的绝对值,而是采用它们的平方值

L2 正则化的公式如下:

正则化公式

它与 L1 的不同之处在于它强制系数/权重趋向于 0,但从不使它们等于 0。正则化率,再次,lambda,用于控制正则化元素的惩罚率。

注意 — lambda 越高,复杂性会降低得更多,模型也会欠拟合。lambda 越低,复杂性就会增加,并且会发生过拟合。因此需要非常小心地对 lambda 进行超参数调整,以确保模型的稳健性能。

12. 为什么集成方法优于单个模型?

答。集成方法是一类机器学习算法,它结合了几种机器学习算法(统称为弱学习器),并通过将各种弱学习器的预测组合到一个监督模型中,将它们堆叠形成一个集成学习器(强学习器)。已知它们有 3 种类型——


  1. 装袋
  2. 提升
  3. 堆叠

事实证明,在使用机器学习解决复杂问题时,集成技术远优于单个模型。像 bagging 这样的集成方法可以减少方差,boosting 可以控制偏差,stacking 可以在很大程度上改善预测。

让我们来看看为什么集成学习比单个机器学习模型产生更好的性能 -

Bagging  — 也称为 Bootstrap 聚合,Bagging 是一种集成方法,广泛用于减少噪声数据的方差并有助于减少过度拟合的迹象。

例如——在同一数据集的随机和不同样本上拟合许多决策树,并对每个样本的预测进行平均(就像分而治之),从而使模型更加稳定和稳健。这有助于通过极大地处理偏差-方差权衡来减少过度拟合。

提升—— 提升通过处理“弱点”来“提升”实力Boosting 应用集成学习方法来训练一系列称为“弱学习器”的基本模型,其中每个学习器都会补偿其前体的弱点。它的理念是“团结我们站立,分裂我们跌倒。” 因此,bagging 严格侧重于纠正预测错误。

Stacking  — Stacking 基本上将多个分类/回归模型的性能拼接起来,因此可以产生其他单个模型无法做出的出色预测。在堆叠中,每个模型都需要学习其同事所做预测的最佳组合。堆叠过程由基础模型和元模型组成。基础模型适合训练数据并预测输出,这些都是完全编译的。然后元模型学习如何最好地结合基础模型的预测。

集成模型排名高于单个 ML 模型,因为它们 -

1.性能——与任何单一基础模型相比,集成可以做出更好的预测并获得更好的性能。

2.鲁棒性——集成减少了预测和模型性能的方差,并控制了过拟合。

3.稳定性——非常适合处理偏差-方差权衡。Bagging 在低偏差——高方差时使用,在高偏差——低方差时使用提升。

13.  Elbow 方法在 K 均值聚类中的意义是什么?根据您的观点,Elbow Method 是否总是给出最佳的聚类数量?

答。Elbow Method 是 K-Means Clustering 算法的无监督学习过程中计算最佳聚类数的最标准化的方法。通过肘部方法计算最佳聚类数的步骤非常简单明了——


  1. 尝试 k 的期望值(从 1 到 10)。
  2. 对于每个 k 值,我们计算 WCSS(平方内聚类和)得分。
  3. 然后根据 k 的值绘制 WCSS* 分数。生成的图应该看起来像一个肘部。(解释如下)
  4. 弯头点被绘制为最佳/最佳 k 值。

WCSS* 或平方误差的簇内和听起来有点复杂。让我们分解一下:
3.1。每个点的平方误差是该点与其表示(即其预测的聚类中心)的距离的平方。
3.2. WCSS 分数是所有点的这些平方误差的总和。
3.3. 可以使用任何距离度量,例如欧几里得距离或曼哈顿距离。

注意——随着集群数量的增加,WCSS 指标将开始下降。当 k = 1 时 WCSS 最大。

在我看来,肘部方法的方法有点幼稚。通常,肘部不够精确或不够陡峭,无法选择最佳 k,并且可能会令人困惑,因为在肘部区域似乎可以找到许多值,而预计在那里只能找到一个。

数据科学面试题
来源 - 媒体

从这个图中,我们真的无法确定 k 可能是 4、5 还是 6?反复试验仍然可以奏效,但通常不会奏效——当找不到肘部区域本身时(并不意味着我们的问题没有最佳聚类!)。

14. 分析模型后,您的经理通知您,您的回归模型存在多重共线性。怎么查他是不是真的?在不丢失任何信息的情况下,你还能建立一个更好的模型吗?

答。首先,多重共线性是一种美学方式,表示数据集中的自变量或特征彼此高度相关。多重共线性可能是一个严重的问题,因为它破坏了自变量的“独立”性质,使您的系数难以解释,并降低了模型识别具有统计意义的自变量的能力。不言自明的是,如果变量之间高度相关,那么一个变量的变化会导致另一个变量的剧烈变化,因此模型结果将大幅波动,使其不稳定。模型可以崩溃!


所以,我需要检查我的数据集中的特征是否高度相关。多重共线性可以通过以下方式检查 -

1. 标准实践——在探索性数据分析期间绘制相关矩阵。它将显示不同自变量之间的成对相关系数,因此您可以发现多重共线性。不过,这是一项耗时的任务。

2. 变化膨胀因子 (VIF) — 花费更少的时间和更复杂的练习。使用 R 平方值 (VIF = 1/1-R²) 为每个自变量计算 VIF。它测量一个自变量与数据集中存在的所有其他自变量的相关性。值越大,多重共线性越多。大多数研究得出的结论是,VIF > 10 意味着存在严重的多重共线性,小于 4 意味着没有多重共线性。

3. 对于手头的分类和连续数据,使用 ANOVA 检验检查多重共线性。但是,如果它们不连续,Spearman 秩相关系数或卡方检验就足够了。

删除具有多重共线性的自变量是一个非常糟糕的主意,因为它们可能是很好的预测变量。丢弃它们会导致重要信息的丢失。因此,最好通过将以下方法付诸实践来处理多重共线性 -

1. 执行 L1 / L2 范数(Ridge 或 Lasso 回归),因为它具有通过缩小多重共线性特征的系数来减少多重共线性的权重惩罚器。

2. 如果你的数据有分类变量,一次热编码扫描经常会出现多重共线性的机会。删除它们的有效方法是在 pd.get_dummies() 函数中设置drop_first=True 。它可以处理多重共线性。

这些过程可以在不丢失任何信息的情况下广泛帮助构建更好的模型!

15.  MLOps 中的可扩展性是什么?MLOps 的目标是什么?您对 ML 管道的可扩展性有何经验和想法?

答。机器学习不仅仅是训练最好的模型”


任何 AI/ML 管道的成功生产都必须确保可扩展性MLOps 中的可扩展性正在设计一个大规模模型,该模型可以在非常短的时间内以经济高效的方式处理大量数据,而不会消耗过多的内存或 CPU,并且可以为全球数百万用户顺利工作以良好的速度和准确性。

MLOps 的目标非常简单——

  1. 更快的实验和模型开发
  2. 更快地将更新的模型部署到生产中
  3. ML 应用程序的容器化、编排和大规模分发

为大型 ML 模型加速和扩展 ML 工作负载对于管理和处理大量数据、选择优化和高效的机器学习算法、将模型部署到生产、监控它们在新数据上的性能以及在以下情况下重建它们非常重要必要的。

我对扩展 ML 工作负载的想法如下:

1. Amazon Sagemaker  — 用于大规模快速、经济高效、可扩展且安全的开发、训练和部署 ML 管道的一站式解决方案。凭借一键式训练环境、高度优化的机器学习算法和内置模型调整,以及无需工程努力的部署,云中的生活真的不那么忙碌了!您的 ML 管道现在绝对可以投入生产,无论是批量预测还是实时!

2.使用FLASK开发机器学习应用。Flask 将使您远离开发应用程序源代码的恐慌,并帮助您专注于构建最佳的 ML 解决方案、特征工程、数据分析和其他关键任务。我真的很喜欢 Flask 在用很少的代码行创建数据驱动、可扩展的 Web 应用程序的简单性!

3. TensorFlow 服务 –

TensorFlow Serving 是一个灵活、高性能的机器学习模型服务系统,专为生产环境而设计。TensorFlow Serving 可以轻松部署新算法和实验,同时保持相同的服务器架构和 API。— TensorFlow


4. 通过容器化来确保 ML 管道的环境友好性——

Docker 容器使您的代码在不同的环境和操作系统中顺利运行变得容易。各种环境依赖都由docker自己处理。当您和您的队友使用不同的虚拟环境进行工作时,它可以为您节省数小时的挫败感,并有助于更轻松的团队合作。

数据科学面试技巧

要在面试中取得好成绩,您必须——

1. 准备统计建模的基础知识

2、对面试的公司有产品意识(他们所做的分析类型,他们处理的数据类型和业务问题)

3. 在面试前练习实施机器学习技术/算法。通过简单的关键字搜索来搜索主题,每天至少花 2 小时彻底研究Kaggle 投票率最高的笔记本。

4. 从各种 Kaggle 比赛中挑选问题陈述并尝试解决它们(请记住,查看其他人的做法并接受想法是完全可以的,但请确保您自己编写笔记本!)

5. 提高你的SQL 和 Python编码技能。

6. 2规则(我自己制定的,并且每次都有效)——虽然这不是决定系数,但要足够坚定地修改和审查你在简历中的每个项目。无论您对实施它们的记忆如何,修改代码并回想您面临的挑战以及如何解决它们,您在整个项目的旅程中学到的东西都是非常必要的,因为您个人会问很多令人苦恼的问题项目。

最后,

7. 忠于自己,不要试图对你不知道的事情编造答案。只是谦虚地说你真的不知道答案,但你一定会努力的!有很大帮助!

结论

为达到本文的结尾干杯!希望这篇文章能帮助你在数据科学面试中脱颖而出。

你从这篇文章中得到的主要收获是——

1. 你对中心极限定理、L1/L2 正则化、梯度消失/爆炸等重要的数据科学内容进行了快速修订。

2. 数据科学面试技巧。

一切顺利!


原文标题:Top 15 Important Data Science Interview Questions

原文作者:Sukanya Bag

文章来源:https://www.analyticsvidhya.com/blog/2022/06/top-15-important-data-science-interview-questions/


最后修改时间:2022-08-17 15:52:24
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论