北京 – 为了帮助地质学领域更好地解读地质图,微软亚洲研究院近日推出了首个用于评估多模态大语言模型(MLLMs)在地质图理解方面的基准集 GeoMap-Bench,并同步发布了专为地质图理解设计的智能体GeoMap-Agent。这两项成果旨在突破现有AI在地质图分析中的瓶颈,为地质灾害预警、矿产资源勘探、工程建设和环境保护等领域带来更高效、更精准的解决方案。
地质图是地质科学的核心工具,蕴含着丰富的地球地下及地表结构信息。然而,地质图的解读门槛极高,需要解读者具备深厚的专业知识和实践经验,并耗费大量时间和精力关联地质、地理和地震等相关数据。人工分析还可能出现遗漏或错误,主观偏差也可能会影响判断的准确性。
尽管现有的多模态大语言模型(MLLMs)在通用图像识别任务上表现出色,但在特定领域的应用如地质图的理解上,却面临着图片分辨率过高、依赖专业领域知识、区域繁多且相互关联等挑战,导致它们的表现远未达到专业标准。
为了解决这一难题,微软亚洲研究院推出了GeoMap-Bench基准集,旨在明确定义地质图理解的问题,并为人工智能在地质学领域的应用研究提供一个起点。该基准集基于中国地质调查局(CGS)和美国地质勘探局(USGS)的数千幅地图,定义了提取、定位、指代、推理和分析五大关键能力下的25种不同任务,并挑选了100余张有代表性的地质图,创建了3,000多个带有标准答案的问题。
武汉大学遥感信息工程学院地理信息工程系主任桂志鹏表示:“如果人工智能模型能够实现更精准的地质图解读,将对测绘地理信息、地图学、导航位置服务乃至无人驾驶领域产生重大影响。这意味着,那些过去只有专业人士才能解读的图表将不再是专业人员特有的技能。同时,这还将有助于提升地质学领域的自动化和智能化水平,从而更好地保存大量纸质和电子地图中的地质信息,促进它们的集成应用,例如知识发现,甚至激发新时代的地理大发现。”
与此同时,微软亚洲研究院还借助微软 Azure OpenAI 服务中的多模态大模型技术,设计并开发了一个专门的智能体 GeoMap-Agent,以提高地质图理解的准确率和效率。研究人员通过使用 MLLMs 增强对地质图整体理解(empowering geologic map holistic understanding,PEACE)的能力,为人工智能在地质学领域的应用打开了一扇新的大门。
GeoMap-Agent旨在解决现有模型在地质图理解与分析中的局限性,包括高分辨率需求、领域知识密集以及多样化视觉表现等问题。微软亚洲研究院高级研发工程师黄杨昱表示:“地质学家们迫切需要的是数字化地质图,这是一个侧重于产品开发的目标,技术实现相对容易。但我们希望更进一步,让大模型不仅能解析地质图上的已有地质信息,还能对与地质图相关的下游应用问题进行分析,例如评估特定地质区域的地震灾害风险等。为了提供综合、全面且准确的问题解答,我们需要将地质图作为媒介,联系并整合不同的知识领域。”
目前,GeoMap-Bench和GeoMap-Agent两项成果均已在 GitHub 上开源,相关论文已被 CVPR 2025 接收。相信这两项研究成果将推动人工智能在地质学领域的应用,为地质科学的发展注入新的活力。
关键词: 地质图, 人工智能, 多模态大语言模型, 微软亚洲研究院, GeoMap-Bench, GeoMap-Agent, 地质科学, 灾害预警, 矿产资源勘探, 工程建设, 环境保护。
Views: 0