2024 年影响数据管理和分析的 6 大趋势

Eric Avidon2025-01-03 10:49:27TechTarget

数据平台向人工智能开发平台的转变以及代理人工智能的兴起是数据管理和商业智能领域的主要发展。


过去 12 个月影响数据管理和分析的最大趋势是生成式 AI 代理的兴起。

另一个趋势是数据平台(包括数据库、数据仓库、数据湖和数据湖屋)向 AI 开发环境的持续转变。此外,数据质量越来越受重视,AI 治理的重要性也日益凸显。

数据目录供应商 Alation 的产品管理副总裁 Diby Malakar 表示:“在每一次客户来电中,他们都表示正在使用 GenAI 做更多事情,或者至少正在考虑这件事。他们谈论的第一件事之一就是如何管理这些资产——

数据目录供应商 Alation 的产品管理副总裁 Diby Malakar 表示:“在每一次客户来电中,他们都表示正在使用 GenAI 做更多事情,或者至少正在考虑这件事。他们谈论的第一件事之一就是如何管理这些资产——资产包括 AI 模型、特征存储以及任何可以用作 AI 或机器学习生命周期输入的东西。”

但这些只是影响 2024 年数据管理和分析的一些趋势。大多数趋势受到2022 年底开始的对人工智能开发兴趣高涨的影响,当时 OpenAI 推出 ChatGPT 标志着生成式人工智能技术的显著进步。

当与企业的专有数据相结合时,生成式 AI 模型可以使员工更加博学和高效。因此,企业自然而然地在 AI 开发方面投入了大量资金。数据管理和分析供应商对此做出了回应,他们认识到市场需要能够简化使用数据来训练模型和应用程序的工具。

这些需求催生出了许多趋势。以下是过去一年中出现的六大重要趋势:


代理人工智能的出现

虽然 2024 年伊始,供应商终于推出了一些他们在 2023 年推出的生成式人工智能助手,但随着时间的推移,单纯的助手已经过时了。

助手可以实现自然语言交互。但它们是被动的。它们需要用户通过提问来与自然语言界面互动。有些助手足够复杂,可以提出后续问题以进行更深入的分析,而有些助手至少可以让用户提出后续问题,而不会让助手失去线索。

在 2024 年下半年,代理 AI迅速崛起。

Agentic AI 工具是主动的,而不是被动的。与之前的助手不同,它们可以自主行动。

ISG 旗下 Ventana Research 分析师 David Menninger 在 9 月份表示:“市场正在向代理 AI 和代理分析转变。构建代理而非依赖仪表板的概念代表了组织利用数据方式的范式转变。数据不再出现在仪表板中,数据解释留给查看者,而是代理可以根据数据发起操作。”

同样,Google Cloud 数据、分析和人工智能战略和外向产品管理总经理 Yasmeen Ahmad 表示,开发人工智能代理是企业人工智能发展的下一阶段。

Google Cloud 是目前正在开发 AI 代理并为客户提供相关工具的公司之一。这家科技巨头的主要分析平台 Looker 正在采用代理方法实现生成 AI。

Databricks、Qlik、Salesforce、Snowflake 和 ThoughtSpot 等众多公司也是如此。

例如,ThoughtSpot 于 11 月推出了 Spotter,这是一款基于 AI 的生成式代理,能够理解情境并不断学习,以更好地了解企业的运营情况。Salesforce 的子公司 Tableau 于 9 月推出了 Tableau Einstein,这是其 BI 平台的全新版本,以代理式 AI 为核心。Databricks 于 6 月推出了 Mosaic AI 代理框架,以支持代理式 AI 开发。

艾哈迈德在 8 月份表示:“数据代理不是人类来获取数据并寻求见解或提高数据质量,而是监控数据、寻找异常、提出见解、建议要监控的语义建模指标。”“我们正在从一个被动的世界转向一个生成式人工智能主动支持数据分析生命周期的世界。”


不断发展的数据平台

不久前,数据管理和分析的主要目的是使客户能够准备和分析数据。

Databricks 和 Snowflake 等数据管理供应商提供了基于云的平台来存储数据,让客户可以轻松访问数据进行分析。MicroStrategy 和 Qlik 等供应商则提供了创建和查看报告和仪表板的平台,从而获得见解和决策。

现在,它们都正在成为人工智能平台。

自 OpenAI 推出 ChatGPT 以来,许多数据管理和分析供应商的重点一直是开发使客户能够构建生成式 AI 模型和应用程序的环境。

门宁格在 11 月表示:“所有数据平台供应商都在大力投资提供 AI/ML 功能。”

例如,Databricks于 2023 年以 13 亿美元收购了 MosaicML,为 AI 开发奠定了基础。在过去两年中,它还与 Mistral AI 和 Anthropic 等大型语言模型 (LLM) 开发商进行了集成,建立了自己的 LLM,并推出了模型质量和 AI 治理功能。

同样,竞争对手 Snowflake 也与 LLM 提供商建立了集成,建立了自己的 LLM,并与 Cortex AI 一起为客户创建了创建 AI 工具的环境。Cortex AI 包括 AI 可观察性和容器化存储等功能,可安全地管理 AI 模型。

此外,科技巨头AWS、谷歌云和微软,以及埃森哲、Zoho等专家都将人工智能开发作为其产品开发的重点。

然而,Snowflake 人工智能主管巴里斯·古尔特金 (Baris Gultekin) 表示,由于对人工智能开发的兴趣和投资不断增加,过去两年只是数据管理和分析新时代的开始。

“说到人工智能,我想说每个人都处于起步阶段,而且我们的发展速度非常快,”他在三月份表示。“总的来说,发展速度——发展步伐——令人难以置信。”


人工智能潜力变为现实

ChatGPT 首次发布后大约三个月,来自数据管理和分析供应商的首批生成式 AI 举措开始陆续推出。

Pyramid Analytics、ThoughtSpot 和 Sisense 等供应商公布了与 LLM 供应商的集成。通过这些集成,他们计划开发人工智能助手,使客户能够使用自然语言而不是代码来处理他们的数据。

许多其他公司也纷纷效仿。他们承诺,这些工具将使几乎所有员工都能获得决策智能能力,并承担繁重的编码和文档编制任务,从而提高专家的工作效率。

然而,大多数产品在首次推出时甚至还没有预览。在整个 2023 年,有很多承诺,但实际兑现的却很少。

IDC 分析师斯图尔特·邦德 (Stewart Bond) 在四月份表示:“过去一年,我们看到生成式人工智能在数据智能软件中出现了许多应用,但大多出现在研发实验室和演示中,可能有也可能没有一些障眼法。”

这种情况在 2023 年末开始发生变化,当时MicroStrategy 是首批普遍提供生成式 AI 功能的供应商之一。许多其他公司在 2024 年纷纷效仿,生成式 AI 的前景开始实现。

Informatica 和 Dremio 等数据管理专家推出了人工智能助手,Tableau 和 Qlik 等分析专家也推出了人工智能助手。

此外,数据平台供应商(Databricks 和 Snowflake)和科技巨头都普遍提供了生成式人工智能功能,以及旨在帮助客户开发自己的生成式人工智能应用程序的功能。

PowerSchool 是一家充分利用了 2024 年推出的 AI 开发功能的企业。该教育技术供应商的平台被美国和国外的 17,000 个学区使用。

该公司利用 Snowflake 和微软的技术开发了 PowerBuddy ,这是一款生成式人工智能助手,使用户能够使用自然语言与数据交互。

“任何用户都可以用自然语言提问,”PowerSchool 首席产品和创新官 Shivani Stumpf 在 11 月表示。“我们的想法是,教育界的每个人,无论是家长、学生、管理人员、辅导员还是校长,都可以使用一个伙伴,为他们提供与他们相关的信息。”


对数据质量的需求

随着人工智能发展的蓬勃发展,人工智能助手、代理和其他应用程序要想对组织有价值,用于训练和通知应用程序的数据就需要是高质量的。

因此,数据质量变得越来越重要。

人工智能模型和应用程序由数据训练而成。数据赋予了它们智能。因此,模型和应用程序的好坏取决于为其提供的数据。

如果数据不准确、不一致、不完整或过时,模型和应用程序提供的输出将反映这一点,并且不可信。后果可能包括人工智能应用程序因为其输出不可信而无法使用,如果应用程序被使用并根据错误的输出做出决策,则可能造成财务损失、违反监管规定和严重的尴尬。

然而,如果数据质量高、完整、一致、准确且最新,模型和应用程序输出将更有可能是正确且值得信赖的。好处包括广泛使用数据来指导决策,这已被证明可以促进增长,并提高效率,这也有助于组织的盈利。

MicroStrategy 首席产品官 Saurabh Abhyankar 9 月表示:“在从手工创建的仪表板和报告转向希望 AI 进行大规模分析的世界中,数据质量非常重要。但除非你有一个系统来确保 [AI 应用程序] 的准确性,否则你无法扩展。... 要做到这一点,数据质量必须有保障。”

然而,保证数据质量一直以来都是企业面临的一大挑战,随着企业数据采集量呈指数级增长,数据复杂度不断提升,数据质量的保障也愈发困难。

TreeHive Strategy 创始人兼负责人唐纳德·法默 (Donald Farmer) 表示,为了尽可能确保仅使用高质量数据来训练人工智能工具,需要采用自动化流程(例如矢量搜索、检索增强生成和数据可观察性),并在必要时由人类进行干预。

“[数据质量] 强调可以自动化的流程,识别出比以前需要更少专业知识的数据清理流程,”他在 9 月表示。“这就是变化之处。我们正试图在更大的规模上做事,而你不可能在如此大规模下让一个人参与其中。这个过程是否可以审计非常重要。”


人工智能治理兴起

尽管高度重视数据质量有助于确保人工智能模型和应用程序提供适当的输出,但组织仍然需要确保他们适当地使用人工智能工具。

正如不良数据会给组织带来危害一样,不当使用人工智能模型和应用程序也会产生同样的影响。

几十年来,数据一直保存在本地数据库中,并由组织的 IT 部门监管,分析师必须提交报告和仪表板开发请求。由于数据访问权限有限,因此无需进行数据治理。

随后,自助分析时代来临,Tableau 和 Qlik 等供应商提供了让非专业人士也能访问和分析数据的平台。一旦数据访问不再仅限于训练有素的专家,组织就需要数据治理框架,让业务用户能够自信地处理数据,并限制他们对数据的使用,以保护组织免受意外伤害。

现在,人工智能也正在发生同样的演变。

机器学习、预测分析和其他形式的传统人工智能长期以来都是数据科学团队的领域。生成式人工智能改变了这一现状,使人工智能能够更广泛地用于决策。现在,几乎任何员工都可以询问组织的数据。

BARC US 分析师 Kevin Petrie 表示,如果不采用适当的做法和政策进行管理,不当使用人工智能工具可能会产生与训练不足的模型和应用程序相同的后果,包括准确性差、输出有偏差、不遵守法规和财务损失

他在 9 月份表示:“如果这些风险没有得到适当的控制和缓解,你最终可能会面临监管处罚或与合规相关的成本,愤怒或疏远的客户,并且最终会导致运营流程陷入瓶颈,因为人工智能预期的效率效益无法实现。”

Petrie 继续说道,由于人们对 AI 开发的兴趣刚刚兴起,许多组织尚未开发 AI 治理框架。不过,许多数据管理供应商(如Alation和Collibra)现在正在添加 AI 治理工具,使客户能够更好地确保 AI 的正确使用。

Constellation Research 分析师 Doug Henschen 在 10 月份表示:“作为一项数据驱动的活动,人工智能的发展必须像我们管理数据一样受到严格管理,因此这是数据治理计划的自然延伸。”“组织需要帮助应对这些挑战,因此很高兴看到......供应商增加功能以应对特定于人工智能的风险和新兴的监管要求。”


资金返还

投资者曾经青睐数据管理和分析供应商。

2010 年代,随着分析成为一种越来越流行的决策手段,金融家们看到了机会。2020年,这种机会进一步增加,当时 COVID-19 疫情爆发,实时分析变得至关重要,数据为企业提供决策情报,使它们能够在不断变化中生存下来。

2020 年 9 月,Snowflake 创下了技术供应商历史上规模最大的首次公开募股纪录。此后,仅在 2021 年,就有 10 家数据管理或分析供应商进行了 1 亿美元或以上的融资,其中包括当年 2 月筹集 10 亿美元的 Databricks 和筹集 8.28 亿美元的 Confluent。

2022 年初,此类供应商继续吸引资本,其中 Sigma Computing 和 Pyramid Analytics 的融资额超过 1 亿美元。

但随后俄罗斯入侵乌克兰、供应链问题频发、利率上升以及对经济衰退的担忧加剧等一系列事件导致了经济不确定性。

随着整体股市下跌,科技股也大幅下跌。裁员人数增加。风险投资资金枯竭。

只有 Databricks 和少数其他数据管理和分析供应商能够在 2022 年下半年和整个 2023 年筹集资金。

2024 年,虽然资金流入数据领域不像几年前那么自由,但该领域仍有所回暖,Cribl、Aerospike 和 Sigma 分别筹集了超过 1 亿美元,而 Ocient 和 Coalesce 等其他公司则吸引了约 5000 万美元。

ISG 旗下 Ventana Research 分析师马特·阿斯莱特 (Matt Aslett) 在 4 月份表示:“鉴于整体经济环境,近年来筹集风险资本有些困难。但对于拥有有吸引力的差异化价值主张的分析和数据软件提供商来说,资金仍然可用。”

从某种程度上来说,这个价值主张就是人工智能。

AI 供应商本身也在筹集大量资金。例如,OpenAI 在 2024 年筹集了超过 100 亿美元,而开发 Claude 系列生成式 AI 模型的Anthropic今年筹集了约 70 亿美元。

Informa TechTarget 企业战略集团分析师 Stephen Catanzano 表示,提供可用于开发人工智能模型和应用程序的工具的数据管理和分析供应商往往会吸引投资者。

“[吸引资金的供应商]都在增加人工智能支持功能,以追逐人工智能工作负载市场,”他在四月份表示。“我认为供应商看到庞大的人工智能市场预测,并可以很容易地表明他们可以分得一杯羹,但他们需要更多的资金,并且正在引起关注。” 


Declare:The sources of contents are from Internet,Please『 Contact Us 』 immediately if any infringement caused