引言:
在人工智能领域,大语言模型在生成统计数据时往往容易产生幻觉,导致信息不准确或过时。为了解决这一问题,谷歌近日开源了AI统计学专家DataGemma,以及支撑其运行的庞大数据库Data Commons。这一创新举措旨在通过整合海量公共数据,提升大语言模型的准确性和时效性。
正文:
一、Data Commons:构建海量公共数据存储库
Data Commons是一个开源的公共统计数据存储库,它汇集了来自联合国(UN)、疾病控制与预防中心(CDC)、人口普查局、卫生部、环境机构、经济部门、非政府组织和学术机构等可信来源的大量统计数据。目前,该数据库包含超过2500亿个数据点和超过2.5万亿个三元组,为研究人员和开发者提供了丰富的数据资源。
二、DataGemma:AI统计学专家的诞生
DataGemma是一个基于Data Commons的大型模型,旨在通过桥接大语言模型(LLM)与外部数据源,解决模型在生成统计数据时可能出现的幻觉问题。本文提出了一种通用架构,并探讨了三个关键问题:
-
选择时机:LLM需要学会在适当的时机决定是使用模型内部的知识还是从外部获取信息。这一决策过程需要通过多种机制将查询外部源的能力嵌入到LLM的参数中。
-
选择信息源:由于可用的信息源可能很多且动态变化,LLM需要决定从哪个外部源查询所需的信息。本文中,作者使用单一外部信息源来整合大量数据源。
-
生成查询:一旦确定了需要哪些外部数据,LLM需要生成一个或多个查询来获取这些数据。为了避免LLM学习各种API,作者开发了一个用于外部数据和服务的单一通用API。该API的灵感来自于1993年Robert McCool设计的URL参数编码接口,它简单而有效,被广泛应用于网络。
三、挑战与前景
尽管DataGemma为LLM提供了利用最新最全外部数据的能力,但在实际应用中仍面临挑战。用户查询可能涉及复杂的逻辑、算术或比较运算,这要求LLM具备更高的处理能力和精确性。例如,用户可能询问“世界上排名前5的二氧化碳排放国是哪些国家?”或“加利福尼亚州是世界上最大的经济体吗?”等问题,这些问题需要LLM在Data Commons中准确检索和计算数据。
结论:
谷歌开源的AI统计学专家DataGemma和Data Commons数据库为解决大语言模型在生成统计数据时的问题提供了新的方向。通过整合海量公共数据并开发通用API,DataGemma有望提升语言模型的准确性和时效性,为未来的研究提供更多可能性。
参考文献:
– 论文地址:DataGemma-FullPaper
Views: 0