如果错误是人类所为,那么它就并非人类独有。机器学习算法也会犯错误。但与我们这些可怜的人类不同,这是可以最小化的。特别是通过使用成本函数来评估机器学习模型的性能。 那么它到底是什么?如何使用它?数据科学家回答您的问题。
成本函数是什么?
成本函数也称为误差函数、目标函数或损失函数,它衡量模型预测值与实际值之间的偏差。差距越小,模型的表现就越好。因此,这个数学公式起到了指南针的作用;它表明模型是否正常或需要调整。
对于数据科学家来说,目标很简单:最小化成本函数以提高预测的准确性。
值得注意的是:虽然损失函数广泛用于训练机器学习模型,但它还有其他应用。例如,工业(尽量降低生产成本)、经济学(尽量提高回报)、人力资源管理(通过成本效益分析选择合适的候选人)等等。
了解如何开发 ML 模型
如何使用成本函数?机器学习模型数据的特征。让我们看看主要的。
均方误差 (MSE)
这是机器学习(尤其是回归问题)中最流行的成本函数。该最小二乘法通过对较大 阿根廷电报数据 误差求平方来严厉惩罚较大误差。它对于那些偏差较大的预测尤其有用。
那么如何使用它?
以下是数学公式:
及其参数:
J(θ) :给定一组参数θ的成本函数值(或“均方误差”)。
m:数据集中的示例总数。
hθ (x ( i) ):模型对示例i的预测,通常称为“假设”。
y (i):例如i的实际预期值。
(h θ (x (i) )−y (i) ) 2:示例 i 的预测值与真实值之间的误差平方。
了解如何在 ML 中使用成本函数
例如,假设我们想要训练一个模型,根据面积、卧室数量、建造年份等特征来预测房价。这里,线性回归模型将建立这些特征(输入= x)和房价(预期输出= y)之间的关系。