骑浪前行:生成式AI的670天 Justine Iverson / leeron
2022年11月22日,OpenAI发布了首个版本的ChatGPT,开启了生成式AI的大潮。在这大约670天里「 译注,原文发表于2024年10月17日」 ,OpenAI持续创新,包括2023年3月推出的首个GPT-3.5模型API,让企业能够将生成式AI引入自己的应用程序。在此期间,Anthropic、谷歌和Meta等科技巨头也纷纷加入战局。对这些进展的反应五花八门——从狂热到激烈猜测,再到投资、政府听证会、设立AI委员会及公司AI负责人等。
人们常将生成式AI革命与互联网的诞生相提并论。作为参照,第一张网页在1991年8月上线,但在此后的五年(约1800天)里,谷歌才出现。如今,谷歌是全球最受欢迎、访问量最大的网页,每天支持数十亿用户。
那么如今我们身处何地?在过去18个月中,我们与AI专家、金融与企业界各类公司以及希望抓住这波机遇的初创企业进行了数百次交流。在这些会面中,普遍共识是,金融行业已过了热潮顶峰,开始面对现实及相关挑战,逐步走向可衡量的实质性收益。通过这些交流,我们发现了一些共性主题,帮助S&P Global Capital IQ Solutions在制定其生成式AI战略时提供了指导。这些关键趋势包括:
数据基础:俗话说,“输入垃圾,输出垃圾”,这在生成式AI中尤为真实。无论是训练模型还是使用检索增强生成(RAG,一种通过检索数据为模型提供上下文以提高输出质量的AI方法),不准确的数据只会导致模型给出不准确的答案。仅仅理解并组织企业的数据资产,仍是许多公司面临的难题。
数据组织或目录编制的一个关键要素是理解数据格式(例如,非结构化数据与结构化数据)及其相关的元数据。两者对于生成式AI模型的成功利用都至关重要——非结构化数据(如财报电话会议记录等文本数据),在正确的元数据标记下,非常适合大语言模型(LLM)使用。而结构化数据(如以行和列呈现的财务数据)则更具挑战性,通常需要额外的整形和上下文工作,以便从LLM中获得最佳结果。最后,在使用有许可证的数据时,数据权利的理解正拖累法律部门,减缓了行业内实施的步伐。数字化转型和云计算的兴起在这些挑战中提供了一定帮助,但尤其是大型公司,仍处于本地和云混合的过渡状态。
准确性:金融行业对准确性和精确度有着极高要求,因为日常的决策直接影响市场走势、风险管理、供应链运作,乃至推动全球经济。生成式AI解决方案生成内容的准确性问题,以及相关的监管要求,让整个行业保持高度警觉。
为应对不准确或“幻觉”现象,必须投入时间进行模型选择,理解数据源,并设定保护措施和微调方法。在生成式AI应用中,了解模型所依赖的数据源能带来信心,尤其是当基础数据质量较高时。如今,生成式AI工具提供可溯源性或数据来源已逐渐成为一种期待。模型选择在准确性方面也能发挥关键作用,因为某些模型在特定任务上表现更佳,如数学推理或可视化创建。因此,根据具体用例采用多模型方法有助于提高结果的准确性。微调和保护措施在训练模型时帮助规范其运行方式及内容创建——在这一过程中,适当的领域专家知识尤为重要。
从概念验证到商业价值:约90%的生成式AI概念验证(POC)未能,或将无法转入生产阶段。这种低转化率主要由几大核心因素驱动,包括用例定义不清或错误、人才和技术空缺、资金不足与对投资回报的谨慎、以及POC结果乏善可陈。技术的快速发展和兴奋感使得许多企业在“寻找问题的解决方案”中构建产品,而不是从解决实际问题的需求出发。
成功率较高的公司通常从对用例的压力测试入手,通过绘制工作流程、确定主要痛点,然后评估生成式AI是否是解决问题的合适技术。在确认用例后,确保机器学习工程师或数据科学家、开发者、领域专家和终端用户之间的紧密连接,对于将解决方案推向生产价值至关重要。建立这些跨职能团队,使机器学习人才与领域专家配合,确保在产品开发过程中进行适当的模型微调、提示工程及保护措施的设置。
人才、技术与成本:生成式AI加剧了机器学习和数据科学人才的争夺战。同时,各组织正在任命AI负责人——根据Gartner在2024年6月对1800位高管的调查,有54%的组织已任命AI负责人。这种现象,加上在生成式AI成功应用中所需的变革管理、教育和培训,为组织带来了挑战。
经济增长放缓及不确定性、全球各地的选举、日益增加的监管措施和行业阻力,导致企业预算收紧。这些因素,再加上AI人才争夺战、生成式AI开发相关的高昂云计算成本、技术栈的重塑需求,以及害怕落后于竞争对手的担忧,使企业在资金方面面临相互竞争的现实。此外,许多企业正在权衡如何将生成式AI引入组织并创造价值,尤其是在其创收核心竞争力并非AI的情况下。这促使众多企业评估“自主构建还是外部采购”的策略,并寻求值得信赖的合作伙伴来支持其生成式AI之旅。最后,随着投资的到位,高管团队期望获得投资回报。由于许多现有的生成式AI用例集中在提高运营效率上,但仍需要“人类参与”,这使得衡量积极的财务影响变得具有挑战性。
在最近的一次金融行业会议上,有人表示:“我们今天使用的(生成式AI)模型将是我们用过的最差的模型。”考虑到整个行业的关注点、投入的资金及对解决方案的期望,这句话发人深省。讽刺的是,当我为这篇博客核查数据时,我先咨询了ChatGPT,然后用传统的谷歌搜索来验证准确性。这说明了我们在生成式AI的浪潮上处于什么位置?这告诉我,我们还有很长的路要走。