东南亚巨头Grab:AI赋能数据发现,将数据搜索时间缩短至秒级
引言: 在当今数据爆炸的时代,高效的数据发现能力已成为企业竞争力的关键。东南亚领先的超级应用Grab,正面临着海量数据带来的挑战。为了解决数据搜索效率低下的难题,Grab巧妙地利用了生成式人工智能(GenAI)技术,将数据发现时间从几天缩短到几秒钟,为其业务增长注入了强劲动力。
Grab的数据困境:大海捞针的痛点
Grab拥有庞大的数据湖、Kafka数据流、生产数据库以及机器学习功能,管理着数十万张数据表。对于开发新产品的团队而言,寻找合适的分析数据集一直是一项艰巨的任务。根据Grab内部数据显示,高达18%的数据搜索在未查看结果的情况下就放弃了,这凸显了数据发现效率低下的严重性。团队成员主要依赖于“部落知识”(依靠经验丰富的员工口头传授),数据发现过程往往耗时数天,严重阻碍了业务创新和快速迭代。
Hubble:Grab的数据发现利器
为了解决这一问题,Grab构建了名为Hubble的内部数据发现工具,该工具建立在Datahub平台之上。Hubble团队首先对现有的数据发现流程进行了优化,例如隐藏不相关的表、删除已废弃的表、改进搜索排序算法、增强认证机制以及添加相关标签等。这些改进措施使搜索点击率提升了12%。
GPT-4的惊艳亮相:AI赋能文档生成
然而,Hubble团队并未止步于此。他们意识到,数据文档的匮乏是阻碍数据发现效率提升的关键因素之一。为此,他们引入了GPT-4大语言模型,利用其强大的文本生成能力,根据数据表的模式和样本数据自动生成文档。这套新的解决方案与Hubble UI集成,数据生产者可以轻松创建表格文档或定制GenAI文档生成。
这项创新举措显著提升了数据文档的覆盖率,从最初的20%提升至90%。更重要的是,95%的用户认为GPT-4生成的文档具有实用价值,这证明了AI技术在数据发现领域的巨大潜力。 Grab首席产品经理Shreyas Parbat表示:“我们的愿景非常明确:通过大语言模型驱动的产品实现整体流程的自动化,消除数据发现环节中的人为因素。我们的目标是将数据发现所需的时间从以天为单位缩短到秒为单位,让人人都能学会数据发现。”
Slack Bot的便捷性:数据发现触手可及
为了进一步提升数据发现的便捷性,Hubble团队还开发了一个Slack bot,该bot利用Glean平台与Hubble搜索功能集成。数据消费者可以直接在Slack上搜索所需的数据集,无需切换到其他平台,大大提高了工作效率。这个名为HubbleIQ的Slack bot,让数据发现真正触手可及,降低了数据获取的门槛。
未来展望:持续优化,拓展应用
Grab并未满足于目前的成果,他们计划进一步增强GenAI的功能,例如利用更多上下文信息来丰富文档生成器,允许分析师根据Slack消息列自动更新文档,并计划整合Reflexion技术来进一步提高文档生成的质量。这些举措将进一步提升数据发现的准确性和效率,为Grab的业务发展提供更强大的数据支持。
结论:
Grab利用GPT-4、Glean和Slack等技术,成功构建了一个基于AI的数据发现平台,将数据搜索时间缩短至秒级,极大地提升了数据利用效率。这不仅解决了Grab自身的数据发现难题,也为其他大型企业提供了宝贵的经验和借鉴。 在未来,随着AI技术的不断发展,我们可以期待更多类似的创新应用,帮助企业更好地挖掘数据价值,推动业务创新和增长。Grab的案例也充分证明了,AI技术并非遥不可及的未来科技,而是能够立竿见影地解决实际问题的强大工具。
参考文献:
- Grab Engineering Blog: [需补充Grab工程博客的具体链接]
- InfoQ News: Grab Employs LLMsfor Conversional Data Discovery with GPT-4, Glean and Slack (https://www.infoq.com/news/2024/11/grab-data-discovery-llm-slack/)
*(注:由于无法访问外部链接,参考文献链接仅为示例,实际撰写时需补充完整链接。) *
Views: 0