暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

机器学习的试金石:纪元

原创 eternity 2022-08-23
529

机器学习的纪元是什么?机器学习中的一个新纪元是指每当您希望用一些数据训练模型时,训练数据集通过算法的一次完整传递。因此,它是一种超参数学习算法。随着数字时代的兴起,许多人开始寻找关于机器学习这一快速发展的主题的信息。

根据Acumen Research and Consulting的数据,到2030年,全球深度学习市场将达到4150亿美元。您是否想知道机器学习对您的业务有什么好处,但这些术语会让您困惑吗?别担心;我们已经向您解释了机器学习的新纪元。

机器学习的纪元是什么?

通过整个训练数据集的完整循环可以被视为机器学习的一个时期,反映了算法在整个训练过程中进行了多少次传递。训练算法中的历元数可以达到数千个,并且该过程被设计为无限期地进行,直到模型误差被充分减小。示例和教程通常包括10、100、1000或更多数字。整个训练数据集的一个完整周期可以被视为机器学习的一个时期,反映了算法在整个训练过程中通过的次数。在机器学习中使用高级算法来评估数据,从中学习,并应用这些学习点来发现有趣的模式。机器学习模型是使用许多时代开发的。由于这需要根据从数据集学到的知识进行学习,因此在早期阶段需要进行一些人的互动。

有两种不同的机器学习模型:有监督学习模型和无监督学习模型。这些模型需要特定的数据集来构建其学习能力,这些训练数据集必须按照预期结果和代理需要完成的任务进行规划。当试图完全定义一个主要被视为整个训练数据集的一个周期的历元时,理解在此上下文中构成历元的基本概念和术语非常重要。构成一个新纪元的数据批和迭代的集合最终构成了新纪元。数据集被组织成批(尤其是当数据非常大时),一批通过模型运行,有时被误用该短语的人视为一次迭代。迭代和历元通常同义使用。如果批量大小是整个训练数据集,则周期数等于迭代次数。一般来说,由于实际原因,情况并非如此。创建模型时经常使用多个时期。当数据集大小为d,时间段数为e,迭代次数为I,批量大小为b时,一般关系为de=ib。例如,如果我们将“任务”定义为从点A到点B,我们可以将从点A到点B的每个可行路径定义为“历元”,将精确的路线信息(如站点和转弯)定义为“迭代”。

你困惑吗?让我们分别探讨它们。

在机器学习中,一次迭代中使用的训练样本数称为“批量大小”

机器学习中的批量大小是多少?

在机器学习中,一次迭代中使用的训练样本数称为“批量大小”。批量大小有三种可能:

  • 批处理模式:迭代值和历元值相等,因为批处理大小等于整个数据集。

  • 迷你批处理模式:总体数据集大小小于批处理大小,而批处理大小大于一。通常,总和可以除以整个数据集的大小。

  • 随机模式:存在单个批量的情况。结果,梯度和神经网络参数随每个样本而变化。

机器学习中的批量大小与历元

  • 批量大小是模型更改前处理的样本数。

  • 通过训练数据集的完整迭代的数量是历元的数量。

  • 批次的最小大小必须为1,最大大小必须小于或等于训练数据集中的样本数。

  • 您可以为1到无穷大之间的纪元数选择一个整数值。该过程可以无限期地运行,甚至可以根据预定次数以外的标准停止,例如模型误差随时间的变化(或缺乏变化)。

  • 它们都具有整数值,并且是学习算法的超参数,即学习过程参数,而不是学习过程发现的内部模型参数。

  • 您必须提供学习算法的批量大小和时间段数。

要配置这些参数,没有秘密公式。您必须测试许多值,以确定哪些值最适合您的情况。

什么是机器学习中的迭代?

称为迭代的机器学习概念表示算法的参数改变了多少次。上下文将确定这具体意味着什么。以下动作通常包括在训练神经网络的单个迭代中:

  • 训练数据集的批处理。

  • 计算成本函数。

  • 所有加权因子的修正和反向传播。

机器学习中的历元与迭代

迭代需要处理一个批次。所有数据在单个历元内处理一次。

例如,如果每次迭代处理1000幅图像中的10幅图像,批大小为10,则需要100次迭代才能完成一个历元。

如何选择纪元数?

网络每次迭代后,权重都会发生变化,曲线从欠拟合到理想拟合再到过拟合。历元数是一个超参数,必须在训练开始之前确定,并且没有一个合适的公式来选择它。

增加纪元能增加准确性吗?

无论是使用神经网络还是确定地质时间尺度,更多并不总是更好。你应该为每种情况找到最佳数字。

为什么纪元在机器学习中很重要?

Epoch在机器学习建模中至关重要,因为它有助于识别最准确地表示数据的模型。神经网络必须使用提供的历元和批次大小进行训练。

由于没有既定的准则来选择任一参数的值,因此指定它们更像是一门艺术,而不是一门科学

由于没有既定的准则来选择任一参数的值,因此指定它们更像是一门艺术,而不是一门科学。事实上,数据分析师必须测试各种价值,然后才能确定最能解决特定问题的价值。

通过绘制其值与模型误差的关系图(即学习曲线)来监控学习性能,这是确定适当时期的一种方法。在确定模型是过拟合、欠拟合还是正确训练时,这些曲线非常有用。

要训练多少个纪元?

11个时期是训练大多数数据集的理想数字

在运行整个数据集之后,我们必须重复运行相同的机器学习或神经网络方法,这似乎是不对的。

所以必须记住,我们使用梯度下降,一种迭代过程来优化学习。因此,仅用一次通过或历元更新权重是不够的。

学习速率是机器学习和统计中使用的优化方法中的一个调整参数,该方法在每次迭代时选择步长,同时以最小化损失函数为目标

一个历元也可能导致模型变得过拟合。

机器学习中的学习率

学习速率是机器学习和统计中使用的优化方法中的一个调整参数,该方法在每次迭代时选择步长,同时以最小化损失函数为目标。

机器学习中的学习速率形象地描述了机器学习模型“学习”的速率,因为它决定了新获得的信息有多少取代了以前的知识。术语“增益”在自适应控制的文献中经常用于指学习速率。

结语

Epoch是机器学习中使用的一个术语,用于描述在所有数据点期间训练数据在算法中运行的频率。

由于实际应用程序的丰富性和数据的多样性,测试数据的正确性可能需要数百到数千个周期。

原文标题:THE TOUCHSTONE OF MACHINE LEARNING: EPOCH
原文作者:ERAY ELIAÇIK
原文链接:https://dataconomy.com/2022/08/what-is-an-epoch-in-machine-learning/

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论