Reinhard Heckel2024-08-28 09:20:15Technical University of Munich

数据在人工智能系统的训练中扮演什么角色?
人工智能系统使用数据作为训练样本。像 ChatGPT 这样的大型语言模型只能回答已训练过的主题的问题。
通用语言模型用于训练的大部分信息都是来自互联网的开放数据。一个问题的训练数据越多,答案就越好。例如,如果可以为一个用于描述数学思想的人工智能系统找到许多好的文本,那么训练数据也会很好。然而,目前数据的选择是经过严格筛选的。在大量可用的数据中,只有高质量的材料才会被收集并用于训练。
例如,在选择数据时,如何防止人工智能系统产生种族主义或性别歧视等偏见?
开发一种不依赖传统刻板印象、公平公正的方法非常困难。例如,防止肤色方面出现偏差结果相当容易。但如果我们将性别与肤色结合起来,可能会出现模型不再可能完全不偏不倚肤色和性别的情况。
因此,大多数语言模型都试图为政治问题提供平衡的答案,并从多个角度进行考量。在使用媒体内容训练 AI 系统时,会优先考虑符合新闻质量标准的媒体。此外,过滤过程可确保不包含某些词语(例如带有种族主义或性别歧视意图的词语)的文本。
某些语言的互联网内容比其他语言的要多得多。这会对搜索结果的质量产生什么影响?
大多数互联网内容都是英文的。因此,英语大型语言模型效果最好。但德语内容也非常丰富。然而,对于鲜为人知的语言,由于文本不多,训练数据并不丰富。因此,模型效果不佳。
但是,很容易确定语言模型在某些语言中的使用效果如何,因为这些模型遵循所谓的缩放定律。这涉及测试语言模型是否能够预测下一个单词。它拥有的训练数据越多,模型的性能就越好。而且性能不仅会随着时间的推移而提高——而且会以可预测的方式提高。这个缩放定律在数学方程中表达得很好。
在实践中,人工智能系统必须有多准确?
这取决于应用领域。例如,当使用 AI 处理照片时,不需要确保每根头发都正确无误。在很多情况下,我们只希望最终的图像看起来不错。对于大型语言模型,获得良好的答案很重要,而细节或不准确性并不总是至关重要。但除了语言模型外,我还在医学成像领域进行研究。在这里,生成的图像的每个细节都必须正确,这一点非常重要。如果我使用 AI 进行该领域的诊断,它必须绝对准确。
关于人工智能,数据保护的缺失也引发了很多争论。我们如何确保个人数据得到保护,特别是在医疗领域?
在大多数医疗应用中,患者数据都是以匿名形式使用的。实际的危险在于,在某些情况下,可以使用这些数据确定个人详细信息。例如,可以根据 MRI 或 CT 扫描粗略地确定患者的年龄或性别。因此,数据实际上包含一些匿名信息。在这种情况下,向患者提供适当的信息非常重要。
在医疗环境中训练人工智能系统还会出现哪些困难?
一个很大的困难是收集反映许多不同情况和场景的数据。当我们将人工智能应用于与训练数据相似的数据时,它会发挥最佳作用。但是,不同医院的数据会因患者资料或生成数据的设备而有所不同。解决这个问题有两种方法:要么我们改进算法,要么我们必须优化我们的数据,使其能够更好地应用于其他情况。
Declare:The sources of contents are from Internet,Please『 Contact Us 』 immediately if any infringement caused