使用随机森林估计特征重要性
Posted: Tue Apr 22, 2025 4:08 am
我们使用随机子空间方法对特征做了大致相同的事情:决策树在特征的随机样本上进行训练,而不是在整个特征集合上进行训练。
它不是使用整个数据集合和整个特征列表的单一树。但是,拥有多棵树的森林让我们可以说每个值和每个特征很可能被使用相同的次数。
增加森林
每个决策树根据最重要的变量重复划分训练样本数据集合,直到每个子集都由同质数据组成。该树扫描整个训练数据集合并选择最重要的特征及其精确值,该特征成为一种枢轴点(节点)并将数据分成两组。对于一个群体来说,上面选择的条件为真;对于另一个,为假(YES 和 NO 分支)。所有最终子组都根据被放入某个子组的URL对的目标值分配一个平均目标值。
由于树木利用样本数据集合来生长,因此它们在生长的同时进行学习。当正确猜测目西班牙邮件列表标值的比例达到一定程度时,他们的学习就算是成功且质量良好。
一旦整组树生长并经过训练,奇迹就开始发生了:树现在可以处理样本外的数据(大约是原始数据集合的三分之一)。仅当在训练期间未遇到相同的 URL 对时,才会将 URL 对分配给树。这意味着一对 URL 并未分配给森林中 100% 的树。然后进行投票:对于每一对 URL,一棵树都会给出其结论:一个 URL 在 SERP 中获得比第二个 URL 更高排名的概率。所有其他遵守“以前没见过这个 URL”要求的树都执行相同的操作,最终每对 URL 都会得到一组概率值。然后我们对收到的所有概率进行平均。现在有足够的数据进行下一步。
在分配重要性估计时,随机森林产生了令人难以置信的结果。评估如下:
特征值在所有 URL 对中被打乱,并且更新的值集被分配给算法。
测量算法的质量或稳定性的任何变化(正确猜测目标值的百分比是否保持不变)。
然后,根据收到的数值,可以得出结论:
它不是使用整个数据集合和整个特征列表的单一树。但是,拥有多棵树的森林让我们可以说每个值和每个特征很可能被使用相同的次数。
增加森林
每个决策树根据最重要的变量重复划分训练样本数据集合,直到每个子集都由同质数据组成。该树扫描整个训练数据集合并选择最重要的特征及其精确值,该特征成为一种枢轴点(节点)并将数据分成两组。对于一个群体来说,上面选择的条件为真;对于另一个,为假(YES 和 NO 分支)。所有最终子组都根据被放入某个子组的URL对的目标值分配一个平均目标值。
由于树木利用样本数据集合来生长,因此它们在生长的同时进行学习。当正确猜测目西班牙邮件列表标值的比例达到一定程度时,他们的学习就算是成功且质量良好。
一旦整组树生长并经过训练,奇迹就开始发生了:树现在可以处理样本外的数据(大约是原始数据集合的三分之一)。仅当在训练期间未遇到相同的 URL 对时,才会将 URL 对分配给树。这意味着一对 URL 并未分配给森林中 100% 的树。然后进行投票:对于每一对 URL,一棵树都会给出其结论:一个 URL 在 SERP 中获得比第二个 URL 更高排名的概率。所有其他遵守“以前没见过这个 URL”要求的树都执行相同的操作,最终每对 URL 都会得到一组概率值。然后我们对收到的所有概率进行平均。现在有足够的数据进行下一步。
在分配重要性估计时,随机森林产生了令人难以置信的结果。评估如下:
特征值在所有 URL 对中被打乱,并且更新的值集被分配给算法。
测量算法的质量或稳定性的任何变化(正确猜测目标值的百分比是否保持不变)。
然后,根据收到的数值,可以得出结论: