随机有什么大不了？

Joywtome231 · Post by **Joywtome231** » Sat Feb 22, 2025 10:41 am

Moz 提供的最棒的东西之一就是领导团队，他们给了我自由去做“把事情做好”所需的一切。我第一次遇到这种情况是 Moz 同意在点击流数据上投入大量资金，以便我们能够提高我们的高级关键字工具搜索量（这是一个巨大的、多年的财务风险，希望能够改善我们行业的一个指标）。此后不久，Ahrefs 采用了该流程，两年后，SEMRush 现在也使用相同的方法，因为这是正确的做法。

这个耗时多年的项目用庞大的 Link Explorer取代了我们的链接索引，大约 6 个月后，我被要求回答一个开放式问题：“我们如何知道我们的链接索引是否良好？ ”自从 2015 年发表那篇文章以来，我一直在思考这个问题，我知道除了从真正的“网络随机样本”开始的系统之外，我不会继续使用任何其他方法。再一次，Moz 要求我尽一切努力“把这件事做好”，他们让我继续这样做。

一个好的随机样本的重要性怎么强调都不为过。让我稍微偏离一下话题。假设你看到一项调查显示 90% 的美国人认为地球是平的。这将是一个可怕的统计数据。但后来你发现这项调查是在地平说者大会上进行的，而 10% 不同意的人是会议中心的员工。这完全说得通。问题是，接受调查的人的样本不是随机的美国人——相反，它有偏见，因为它是在地平说者大会上进行的。

现在，想象一下网络的同样情况。假设一家机构想要进行测试以确定哪个链接索引更好，因此他们会查看几百个网站进行比较。他们从哪里获得这些网站？过去的客户？那么他们可能偏向于 SEO 友好的网站，而不能反映整个网络。点击流数据？那么他们会偏向于热门网站和页面——再一次，不能反映整个网络！

从一个错误的样本开始必然会导致错误的结论。

但情况甚至更糟。像 Moz 这样的索引会报告我们的总体统计数据（索引中的塞浦路斯手机号码数据链接数或域名数）。但是，这可能会产生极大的误导。想象一下，一家餐厅声称拥有世界上最大的葡萄酒选择，有超过 1,000,000 瓶。他们可以这样说，但如果他们实际上只有 1,000,000 瓶同类型的葡萄酒，或者只有赤霞珠或半瓶葡萄酒，那就没用了。当你只是抛出大数字时，很容易误导。相反，最好从世界各地随机选择一些葡萄酒，然后测量该餐厅是否有库存以及有多少。只有这样，你才能很好地衡量他们的库存。测量链接索引也是如此——这是我的方法背后的理论。

不幸的是，事实证明，获取网络的随机样本非常困难。Moz的大多数人的第一直觉是随机从我们自己的索引中的 URL 中抽取样本。当然我们不能这样做——这会使样本偏向我们自己的索引，所以我们放弃了这个想法。下一个想法是：“我们从收集的 SERP 中知道所有这些 URL——也许我们可以利用它们。”但我们知道它们会偏向更高质量的页面。大多数 URL 不会对任何内容进行排名——放弃这个想法。是时候进行更深入的研究了。