Page 1 of 1

以辨别它是否与训练数据相似

Posted: Mon Jan 20, 2025 8:49 am
by pappu636
假设训练人工智能的大量输入都是合法的,那么输出又如何呢?由现有作品训练的人工智能生成的作品会侵犯版权吗?

这个问题比较难回答,而且很可能取决于训练期间和训练之后发生的事情,以及输出是如何生成的,所以我们必须更详细地了解机器学习方法。首先要提醒大家,我显然不是机器学习专家,虽然几年来我一直在阅读大量基础文献,但我的理解是业余爱好者的理解,如果我误解了这项技术,那是我自己的错,我很乐意纠正任何错误。当然,我会过度简化一些东西。

创造性人工智能背后的主要思想是训练系统,使其能够生成与训练数据在统计上相似的输出,换句话说,为了生成诗歌,你需要用诗歌来训练人工智能;如果你想让它生成人脸,你需要用人脸来训练它。生成人工智能有多种模型,但主要有两种:生成对抗网络 ( GAN ) 和扩散模型。

GAN 是一种使用两个相互对抗的代理(因此是对抗性的)来生成更好输出的模型。有一个生成器,它根据训练数据集生成输出;还有一个鉴别器,它将生成的输出与训练数据进行比较,,如果不相似,则将其丢弃,以支持与输入相似的输出。



在相当长的一段时间里,GAN 是机器学习的王者,因为它们能够生成一些合格的输出(参见所有这些不存在的猫)。但是 GAN 有局限性,鉴别器可能太好,所以没有输出会通过等级,或者生成器只能学会生成有限类型的输出,这些输出会通过鉴别器。

人工智能最近最成功的例子,如 Imagen、DALL·E 2、Stable Diffusion 和 Midjourney,都使用了扩散模型,据报道,该模型产生了出色的效果。扩散的工作原理是获取输入(例如图像),然后通过向其中添加噪声来破坏它,训练是通过教神经网络通过逆转破坏过程将其恢复原状来进行的。



从法律分析的角度来看,最重要的结论是,生成式人工智能不会精确地复制输入,即使你要求输入特定内容。例如,我要求 Midjourney 生成“文森特·梵高的《星夜》。结果是这样的:



看上去很像,但又不完全一样,这几乎就像是人工智能从记忆中画出来的,某种程度上确实如此,它正在重新构建星夜的模样。它做得相对较好,因为它已经看过很多次了。

此外,这些工具的开发人员意识到在训练数据集中制作艺术品的精确 加纳手机数据 复制品可能存在隐患。OpenAI承认,这是该程序早期迭代中存在的问题,现在他们过滤掉了这种情况的具体实例。据 OpenAI 称,这种情况主要发生在低质量图像上,这些图像更容易被神经网络记住,而且数据集中也有一些图像重复性很强。他们通过训练系统识别重复图像来缓解这种情况,DALL·E 不再进行图像重复。

那么,如果没有直接侵权,而且系统没有完整地复制作品,是否仍有可能侵犯版权?大多数人一直在生成早已去世的艺术家的提示,他们的作品属于公共领域。因此,人工智能将很容易创作出梵高、伦勃朗、亨利·卢梭、高更、马蒂斯等人风格的作品。只需在提示中输入艺术家的名字,甚至输入您想要复制的具体艺术品,人工智能就会做到。但这些作品属于公共领域,所以没人在乎。那么那些仍然活着的艺术家,他们的作品受版权保护呢?

这里事情变得棘手了。很明显,人们可以以在世艺术家的风格创作艺术作品。[编辑注:对这部分进行了几次调整,现在我对平衡感到满意]。例如,您可以转到任何工具并输入一位艺术家的名字,这可能是一位在世或最近去世的艺术家,其作品可能仍受版权保护。有时这会起作用,但大多数情况下不会。问题在于并非所有艺术家都有可识别的风格,也可能是因为艺术家在数据集中的复制不够。因此,输入“城市景观”的艺术家会产生这张图片。