首先,你做的事情真的有区别吗?
Posted: Wed Feb 19, 2025 10:22 am
早在 2023 年 8 月,OpenAI 就发布了他们的网络爬虫 GPTBot,并允许网站所有者在robots.txt中阻止访问——就像阻止 Googlebot 访问网站中某些敏感或无用部分一样。根据Originality.ai和牛津大学路透社研究所的研究,大量网站(在某些部分高达 48%)迅速采用了他们的这一做法。谷歌不久后宣布了他们独立的“ Google-Extended”机器人,允许网站专门阻止谷歌的 AI 工具访问部分或所有页面。
此后一直存在一些争论。Moz、我们的母公司 Ziff Davis 以及整个 SEO 行业都在讨论如何最好地利用这种新发现的拒绝访问(某些)AI 工具的能力,以及它是否具有任何实际影响。由于目前可用的信息有限,特别是关于这些数据和这些工具的未来走向,我认为没有一个肯定的万能答案。在这篇文章中,我想阐述哪些论点、信念、前提或业务背景可能导致您阻止这些机器人或不阻止它们。
“他们已经拥有了我所有的内容”
也许吧。OpenAI 过去曾使用过各种数据源,直到最近才发布(披露?)自己 巴林 手机号码数据 的爬虫。例如,Common Crawl是 GPT-3 训练数据的很大一部分,这与 GPTBot 不同。很少有网站会屏蔽 Common Crawl CCbot,在少数听说过它的人中,它被认为对服务器的需求相当小,但可能带来的好处非常广泛,远远超出了训练 AI 模型的范围。此外,如果您现在屏蔽较新的 AI 专用机器人,您不会删除它们过去从您的网站收集的任何内容。
因此,最糟糕的情况是,你只是减慢了他们访问你发布的新内容的速度。尽管如此,你还是可能相信这些新内容具有某种独特的价值,尤其是当它们最新鲜的时候。(新闻网站目前倾向于屏蔽这些内容,这并非巧合。)
然而,它很可能在其他抓取网站上被复制。我怀疑更复杂的模型确实包含某种权威信号(可能是链接!),因此抓取网站可能不像你自己的网站那样受信任,或者被自由或定期重新抓取。不过,我无法证实这一点。
“他们不需要我的内容”
您可能认为,即使您是行业中更大运动的一部分,人工智能机器人最终也能够像您一样出色地针对您的网站所涉及的主题制作内容。即使没有您新发布或最近更新的页面的输入。
如果是这样,我首先要说,这可能是对任何以内容为中心的网站的价值主张相当严厉的控诉,可能对其在 SEO 方面的持续可行性产生严重影响,无论未来人工智能是否有发展。
尽管如此,这也许是真的——一些行业遭受着大量网站发布极其相似的内容的困扰。一些行业也不太可能遭遇大范围屏蔽。这些都是您在做决定时必须考虑的因素。
解除封锁的理由
我将提出三个理由来支持你的网站对人工智能机器人完全开放:
当前流量采集
这肯定会因业务而异。话虽如此,我目前的经验是:
自整合 ChatGPT 以来, Bing 的市场份额增长不到 1%,因此用户似乎并不认为 Bing 的类似功能能够改变游戏规则
我曾在其他地方说过,我不认为生成式人工智能可以完全替代搜索。它是一种用途不同的工具。但你应该根据自己的业务来评估这一点。
对于“Google-Extended”的情况,我们还必须考虑这是否会影响 Google 搜索作为用户获取渠道。目前,Google 表示不会,一些人对此持怀疑态度,这是可以理解的。无论如何,如果 Google 推出生成式 AI 搜索功能,这种情况可能会迅速改变。
此后一直存在一些争论。Moz、我们的母公司 Ziff Davis 以及整个 SEO 行业都在讨论如何最好地利用这种新发现的拒绝访问(某些)AI 工具的能力,以及它是否具有任何实际影响。由于目前可用的信息有限,特别是关于这些数据和这些工具的未来走向,我认为没有一个肯定的万能答案。在这篇文章中,我想阐述哪些论点、信念、前提或业务背景可能导致您阻止这些机器人或不阻止它们。
“他们已经拥有了我所有的内容”
也许吧。OpenAI 过去曾使用过各种数据源,直到最近才发布(披露?)自己 巴林 手机号码数据 的爬虫。例如,Common Crawl是 GPT-3 训练数据的很大一部分,这与 GPTBot 不同。很少有网站会屏蔽 Common Crawl CCbot,在少数听说过它的人中,它被认为对服务器的需求相当小,但可能带来的好处非常广泛,远远超出了训练 AI 模型的范围。此外,如果您现在屏蔽较新的 AI 专用机器人,您不会删除它们过去从您的网站收集的任何内容。
因此,最糟糕的情况是,你只是减慢了他们访问你发布的新内容的速度。尽管如此,你还是可能相信这些新内容具有某种独特的价值,尤其是当它们最新鲜的时候。(新闻网站目前倾向于屏蔽这些内容,这并非巧合。)
然而,它很可能在其他抓取网站上被复制。我怀疑更复杂的模型确实包含某种权威信号(可能是链接!),因此抓取网站可能不像你自己的网站那样受信任,或者被自由或定期重新抓取。不过,我无法证实这一点。
“他们不需要我的内容”
您可能认为,即使您是行业中更大运动的一部分,人工智能机器人最终也能够像您一样出色地针对您的网站所涉及的主题制作内容。即使没有您新发布或最近更新的页面的输入。
如果是这样,我首先要说,这可能是对任何以内容为中心的网站的价值主张相当严厉的控诉,可能对其在 SEO 方面的持续可行性产生严重影响,无论未来人工智能是否有发展。
尽管如此,这也许是真的——一些行业遭受着大量网站发布极其相似的内容的困扰。一些行业也不太可能遭遇大范围屏蔽。这些都是您在做决定时必须考虑的因素。
解除封锁的理由
我将提出三个理由来支持你的网站对人工智能机器人完全开放:
当前流量采集
这肯定会因业务而异。话虽如此,我目前的经验是:
自整合 ChatGPT 以来, Bing 的市场份额增长不到 1%,因此用户似乎并不认为 Bing 的类似功能能够改变游戏规则
我曾在其他地方说过,我不认为生成式人工智能可以完全替代搜索。它是一种用途不同的工具。但你应该根据自己的业务来评估这一点。
对于“Google-Extended”的情况,我们还必须考虑这是否会影响 Google 搜索作为用户获取渠道。目前,Google 表示不会,一些人对此持怀疑态度,这是可以理解的。无论如何,如果 Google 推出生成式 AI 搜索功能,这种情况可能会迅速改变。