从ChatGPT开始对于AI使用的训练数据是否侵权就一直争论不休,经常能看到xx行业联合抵制的新闻。尽管我个人认为是“侵权”的,但也知道大概率这并不违反任何现行法律(可能违法的是爬取训练数据这个过程),等到相关法律出台的时候互联网上的优质数据大概都已经被收集完成了,所以除了感慨一句快速变革的时期总是有漏子可钻之外也没多想。
结果今天看到音乐人抵制Suno AI的帖子,顺藤摸瓜看了看知乎上相关的问题和回答,震惊于居然有如此多的人认为不应该算侵权,甚至大力支持,我实在是有些不敢苟同,于是写下了这些碎碎念。
讨论这个问题之前,需要先界定一下“侵权”的概念。就我了解到的情况,“爬取公开数据训练AI”这件事应该是不违背现行的著作权法或专利法之类的法律,所以自然不构成现行法律意义上的侵权。我所说的“侵权”是一种我构想中的应然而非实然。为了避免概念过于宽泛可能导致的诸多问题,我姑且只针对这个问题将“权”定义为“作品创作人可以拒绝公开发表的作品被拿来训练AI”的权力。
认为爬取公开数据训练AI不算侵权的人最多复述的一个观点就是,人和AI的学习过程没有任何差别。这类观点大意如下:即便你的作品表明了不能商用,你也无法避免“一个人看了你的作品,学习到了一些东西,然后基于此创作一些不违反现行法律的作品并进行商用”,而显然没有创作者因此控告自己被侵权了。把这个表述中的人换成AI,依旧成立,如果人这么做不算侵权,为什么AI就算?
从我的观点来看,人这么做其实也侵权了,只不过被侵权者没有追究,或者ta们认为这种侵权是自己可以接受的(当然客观上也没有能力追究或不接受);或者从创作者的角度出发,ta们授权了人们可以这么做,不然完全可以跟卖课一样,只有交钱了才能看且不得作他用。这属于某种在特定时代进程下的约定俗成:现行法律已经能比较好的维护创作者的权利,因此一些“侵权”行为已经被默许或者授权了。而“训练AI”这件事,在我看来属于尚没有被法律约束而又没有被默许或者授权的“侵权”行为,属于由于生产力发展新产生的灰色地带。随着时代发展,这个灰色地带一定会越来越小,只是会偏向哪侧并不好说。我个人当然是倾向被法律约束,但从实操层面也确实存在诸多困难,因为授权问题将其一刀砍死也多少有些因噎废食(这也是一部分人认为不应该侵权的理由)。