牛津大学研究团队发现生成式 AI 可能遭遇“模型崩溃”

【环球网科技综合报道】9月5日消息,据《福布斯》报道,牛津大学的伊利亚·舒梅洛夫博士及其团队在《自然》杂志上发表了一项研究,指出当生成式 AI 软件仅依赖 AI 生成的内容时,其输出答案的质量会迅速下降。

研究显示,在经过两次查询后,AI 的回答开始出现偏差,到了第五次查询,质量明显降低,而到了第九次连续查询,回答已经退化为无意义的内容。这种现象被研究团队称为“模型崩溃”,即 AI 在不断使用自身生成的数据进行训练后,输出的内容逐渐脱离现实,最终变得毫无价值。

舒梅洛夫博士指出,模型崩溃的发生速度之快和难以察觉的程度令人惊讶。它首先影响的是那些代表性不足的数据,然后是输出的多样性,最终导致整体数据表现的恶化。这种崩溃可能会带来严重的后果。

为了验证“模型崩溃”的存在,研究人员采用了一种方法:他们使用了一个预训练的 AI 驱动的维基百科,并让 AI 模型基于自己生成的内容进行更新。随着受污染数据的累积,原本的训练集被侵蚀,输出的信息质量也随之下降。例如,在研究中的一个案例里,维基百科的条目在经过多次查询循环后,内容从14世纪英国教堂尖顶的介绍滑稽地转变为关于各种颜色短尾兔子的论文。

此外,亚马逊网络服务团队在6月发布的研究显示,大约57%的网络文本都经过了 AI 算法的翻译。如果互联网上的人类生成数据被 AI 过滤内容迅速覆盖,且舒梅洛夫博士的研究发现属实,那么 AI 可能正处于一种“自我毁灭”的状态,同时也在“毁灭”互联网。

研究得出的结论是,为了确保 AI 的长期可持续发展,必须确保其能够访问现有的非 AI 生成内容,并持续引入新的人工生成内容,以避免模型崩溃的发生。