人工智能数据困境:平衡创新与治理

Artin Avanes2025-04-24 16:17:56The New Stack

通过将安全视为基础,组织可以利用其所有数据来自信地扩展人工智能创新,而不会使人工智能成为负担。


在数据隐私法规日益严格、人工智能模型需要访问海量多样化数据集的环境下,传统的安全框架显得力不从心。从跨国合作到内部数据孤岛,以数据为中心的全新人工智能治理方法至关重要。


无论是跨内部团队、外部合作伙伴还是新市场进行协作,组织都必须确保其敏感数据受到保护并符合当地法律——而传统的安全框架并不能解决人工智能的流动性和数据饥渴的特性。


例如,一家跨国公司培训人工智能客服人员时,需要汇总来自不同地区办事处的数据,而每个办事处都受不同的数据隐私法约束,例如欧洲的《通用数据保护条例》(GDPR)和加州的《消费者隐私法案》(CCPA)。又或者,一家使用人工智能进行欺诈检测的金融机构必须从风险、合规和客户服务团队(每个团队都有不同的访问控制)提取数据,且不得违反内部安全政策。


那么,组织如何在不引入风险的情况下实现这一目标呢?为了充分释放人工智能的潜力,企业需要一种新的安全与合规方法,从而通过设计实现可控的协作。通过将安全视为基础而非事后诸葛亮,组织可以充分利用所有数据,自信地扩展人工智能创新,而不会将人工智能变成负担。


跨数据生命周期的安全数据管理

在探讨如何建立安全的数据基础之前,我们先来聊聊原因。任何成功的人工智能战略都需要一个安全且可管控的数据策略,并由功能强大的现代数据平台提供支持。


将安全性和治理直接构建到数据基础设施中的组织获得了竞争优势:他们可以更快地行动,访问更多样化的数据集,并在整个企业内更广泛地部署人工智能,同时保持与客户的信任。


这在整个端到端数据生命周期中都是如此,从最初在“青铜层”收集原始数据(例如包含非结构化文本和敏感个人身份信息 (PII) 的客户支持票),到在“白银层”进行转换(其中数据被清理、规范化,PII 被屏蔽或标记),最终到“黄金层”,其中数据已为 AI 做好准备(丰富的数据集具有适当的访问控制,可以安全地训练情绪分析模型或为客户服务聊天机器人提供支持)。


在每个阶段,安全和治理协议确保数据受到保护,同时仍可供人工智能驱动的创新访问。


数据是人工智能最宝贵资产的秘诀

对于在人工智能潜力和数据保护之间寻找平衡的组织来说,有几种关键策略可以帮助维持微妙的平衡以避免风险。


1. 构建数据所在位置

最安全的 AI 实现遵循一个基本原则:将 AI 模型直接应用于数据,而不是将数据应用于模型。通过将 AI 系统与数据平台现有的安全边界共置,组织可以显著降低暴露风险。

战略接近性还能确保敏感信息在模型训练或推理期间不会离开组织的安全环境。这种方法通过保持地理限制来解决关键的监管问题——将数据保留在经批准的管辖范围内,并防止可能引发合规违规的未经授权的跨区域传输。

通过技术控制建立明确的边界执行还可以确保人工智能模型仅在组织管理的数据生态系统内运行,为创新创建安全的基础,同时不损害保护标准。


2. 了解你的工作内容

看不见摸不着的东西,保护不了。实施强大的数据发现功能,使组织能够自动识别、分类和标记其数据环境中的敏感信息。

自动分类工具可以扫描结构化和非结构化数据,识别个人身份信息 (PII)、受保护的健康信息 (PHI) 以及其他需要特殊处理的敏感元素。这些系统可以生成描述性元数据,从而提升可搜索性和治理能力,确保根据数据敏感度实施适当的控制措施。


3. 实施智能治理

随着数据复杂性的增长,静态治理模型已显得力不从心。领先的组织正在从基于角色的访问控制 (RBAC) 转向更具情境感知能力的模型,例如自主访问控制 (DAC)。这些模型可以更明智地决定谁可以访问哪些内容,例如通过列级屏蔽将敏感数据隐藏在特定列中,或通过行筛选根据用户权限管理数据可见性。

根据用户属性(例如角色、位置和目的)、资源属性(例如数据敏感度或分类)以及环境属性(例如时间或位置)授予访问权限,可以实现细粒度的、基于上下文感知的访问控制。话虽如此,在隐私和数据实用性之间取得适当的平衡并非易事——过多的噪声会降低模型准确性,而过少的噪声则会暴露敏感模式。

这些动态系统在授予适当权限之前会考虑多种因素——用户是谁、他们访问哪些数据、从何处访问以及出于何种目的。结合实时数据脱敏技术,组织可以根据授权级别向不同用户以不同的方式呈现相同的数据集,从而最大限度地提高数据效用,同时最大限度地减少漏洞。

除了基于角色的标准控制之外,这些系统还必须包含额外的安全和治理策略,例如列屏蔽、行访问策略和隐私政策,以提供分层控制,进一步限制访问并保护敏感信息。越来越多的组织在内部利用生成式人工智能和语言模型来加强和执行安全性,利用它们检测异常、自动化策略执行,并确保在大型分布式数据环境中实现更一致的合规性。

这种方法使数据科学家能够在丰富的数据集上训练模型,而无需查看敏感元素,确保遵守 GDPR 和 CCPA 等法规,同时仍能提取有价值的见解。


4. 保持全面的监督、合规和治理

在当今的监管环境下,记录数据流向与保护数据同等重要。实施强大的数据沿袭追踪,可以创建可审计的记录,记录信息如何在您的系统中流动并进入 AI 模型。

这种透明度不仅满足了日益增长的监管需求,还能通过清晰地展示训练数据的来源,建立组织对AI输出的信任。补充监控系统应持续审核访问模式,检测可能存在安全隐患的异常行为。因此,监管设计应基于具体的现代用例场景,例如安全且受管控的数据和应用程序共享,以及构建安全的AI应用程序。

通过保存数据转换和使用模式的详细记录,组织可以快速响应监管查询并自信地展示其对负责任的人工智能开发的承诺。

前进之路:数据安全和人工智能融于一个平台

在数据泄露频发、全球监管日益收紧的时代,能否平衡数据效用与隐私保护,不仅是企业脱颖而出的关键因素,更是企业发展的战略要务。能够解决这一挑战的企业,能够释放人工智能真正的变革潜力,同时守护自身最宝贵的资产。


Declare:The sources of contents are from Internet,Please『 Contact Us 』 immediately if any infringement caused