随机有什么大不了?

Discuss smarter ways to manage and optimize cv data.
Post Reply
Joywtome231
Posts: 635
Joined: Sun Dec 22, 2024 4:02 am

随机有什么大不了?

Post by Joywtome231 »

Moz 提供的最棒的东西之一就是领导团队,他们给了我自由去做“把事情做好”所需的一切。我第一次遇到这种情况是 Moz 同意在点击流数据上投入大量资金,以便我们能够提高我们的高级关键字工具 搜索量(这是一个巨大的、多年的财务风险,希望能够改善我们行业的一个指标)。此后不久,Ahrefs 采用了该流程,两年后,SEMRush 现在也使用相同的方法,因为这是正确的做法。

这个耗时多年的项目用 庞大的 Link Explorer取代了我们的链接索引,大约 6 个月后,我被要求回答一个开放式问题:“我们如何知道我们的链接索引是否良好? ”自从 2015 年发表那篇文章以来,我一直在思考这个问题,我知道除了从真正的“网络随机样本”开始的系统之外,我不会继续使用任何其他方法。再一次,Moz 要求我尽一切努力“把这件事做好”,他们让我继续这样做。


一个好的随机样本的重要性怎么强调都不为过。让我稍微偏离一下话题。假设你看到一项调查显示 90% 的美国人认为地球是平的。这将是一个可怕的统计数据。但后来你发现这项调查是在地平说者大会上进行的,而 10% 不同意的人是会议中心的员工。这完全说得通。问题是,接受调查的人的样本不是随机的美国人——相反,它有偏见,因为它是在地平说者大会上进行的。

现在,想象一下网络的同样情况。假设一家机构想要进行测试以确定哪个链接索引更好,因此他们会查看几百个网站进行比较。他们从哪里获得这些网站?过去的客户?那么他们可能偏向于 SEO 友好的网站,而不能反映整个网络。点击流数据?那么他们会偏向于热门网站和页面——再一次,不能反映整个网络!

从一个错误的样本开始必然会导致错误的结论。

但情况甚至更糟。像 Moz 这样的索引会报告我们的总体统计数据(索引中的 塞浦路斯手机号码数据 链接数或域名数)。但是,这可能会产生极大的误导。想象一下,一家餐厅声称拥有世界上最大的葡萄酒选择,有超过 1,000,000 瓶。他们可以这样说,但如果他们实际上只有 1,000,000 瓶同类型的葡萄酒,或者只有赤霞珠或半瓶葡萄酒,那就没用了。当你只是抛出大数字时,很容易误导。相反,最好从世界各地随机选择一些葡萄酒,然后测量该餐厅是否有库存以及有多少。只有这样,你才能很好地衡量他们的库存。测量链接索引也是如此——这是我的方法背后的理论。

不幸的是,事实证明,获取网络的随机样本非常困难。Moz的大多数人的第一直觉是随机从我们自己的索引中的 URL 中抽取样本。当然我们不能这样做——这会使样本偏向我们自己的索引,所以我们放弃了这个想法。下一个想法是:“我们从收集的 SERP 中知道所有这些 URL——也许我们可以利用它们。”但我们知道它们会偏向更高质量的页面。大多数 URL 不会对任何内容进行排名——放弃这个想法。是时候进行更深入的研究了。
Post Reply