输出阶段是使用上述所有模型生成图像

Telemarketing List delivers verified business contact numbers to help companies expand their customer base. Target the right prospects and increase sales efficiently.
Post Reply
pappu636
Posts: 454
Joined: Thu Jan 02, 2025 8:39 am

输出阶段是使用上述所有模型生成图像

Post by pappu636 »

生成模型中还有一个非常重要的元素,这就是潜在空间。为了训练一个包含数百万甚至数十亿个单个数据点的模型,以同样的方式处理每个数据点是低效的,可能会出现类似作品的聚类。如果我们考虑图像,你可能不必查看每张猫图片,对相似的数据进行聚类就足够了。将数据想象成一个房间,你会把猫图片放在同一个空间,把狗图片放在另一个空间,等等。潜在空间是可以解释观察到的数据的隐藏或潜在因素的空间,通过对相似数据进行聚类,它用于生成模型,其目标是学习数据的表示,可用于生成与训练集中的样本类似的新样本。这非常有价值,因为它有助于压缩输入,不需要复制所有猫的图像,模型包含猫的潜在表示。

它是使用可以获取文本提示并基于统计数据、语言模型和潜在空间的组合生成新图像的应用程序完成的。

换句话说,这不是拼贴画。

分析索赔

从上述技术描述中可以看出,诉讼中对事物的描述存在很大问题,与机器学习和传播模型在现实中的工作方式相冲突。差异在于,对模型训练和模型存储知识的方式的理解似乎存在巨大差距。根据投诉,Stability.ai 获取训练数据集中的图像,这些图像“以压缩副本的形式存储在 Stable Diffusion 中并纳入其中”。事实并非如此,训练过的模型没有训练数据的副本,这将创建一个难以估量的笨重庞然大物。实际发生的是创建事物表示集群,即潜在空间。

如果审判真的到了这一步,那么在审判期间可能会发生的情况是,会有专家作证,而这一说法很可能很容易被驳回。当然,在某个阶段会有一些临时的复制,重要的是要记住 LAION 也不会复制图像,但在训练过程中会抓取图像,但这些图像不会像声称的那样存储在模型中。

这将是至关重要的一点,因为如上所述,投诉并未声称输出是原告的任何训练图像的复制品。

投诉中的另一个问题在于,声称所有生成的图像都必然是用于训练模型的 50 亿张图像的衍生品。我不确定我是否喜欢这种程度的责任稀释的含义,这就像顺势疗法版权,训练数据中的任何作品痕迹都会导致衍生品承担责任。这样就太疯狂了。

其他法律考虑

或许诉状中最大的意外在于没有列明被告,特别是两个非常 德国手机数据 显眼的名字:LAION 和 OpenAI。我认为 LAION 比较容易解释,它是一个德国研究机构,他们的工作是收集超链接和文本描述。我认为这属于欧盟DSM 指令中的文本和数据挖掘例外情况。OpenAI 的缺席更难解释。我认为主要原因是 OpenAI 没有透露他们使用的是哪个数据集,因此原告很难证明它们已被用于训练数据。由于这起诉讼完全基于输入阶段,因此这些缺失的信息至关重要。

另一个问题是诉讼是否会成功,老实说,我不知道。我对上述技术错误并不满意,我认为这将成为辩护的重要组成部分。被告可能会声称合理使用,而本案有可能成为未经许可训练人工智能是否符合合理使用要求的测试案例。我们不知道,但我发现这起诉讼对艺术家来说可能是一场冒险的赌博。失败将最终解决自 Google Books 以来一直悬而未决的问题,我不认为这是最有力的案例,至少目前如此。编辑后补充:回应实际上并没有声称合理使用,这很有趣。

结论

这是一场被预言的诉讼的编年史。既然它已经到来,它将在接下来的几周内被无休止地分析和讨论,我期待着阅读其他人的想法,也许我的怀疑会被证明是错误的,我们拭目以待。我的第一印象是,这完全是“庭外和解”的写照,但如果没有妥协,那么这场诉讼可能会持续数年,因为任何结果都可能被上诉。
Post Reply