李沐重返上海交大，分享LLM求学与职业生涯心得

8 月 26, 2024 #LLM, #上海交大, #机器之心, #李沐

昨日，知名人工智能专家李沐回到母校上海交通大学，进行了一场关于语言模型（LLM）和个人生涯的演讲。这次分享的内容由机器之心整理，源于B站用户@考拉klkl上传的视频。

在开场白中，李沐谦虚地表示自己不敢担当“计算机杰出校友”的称号。他提及，此次回国主要是想拜访本科时期的导师，而在导师的提议下，他决定与大家分享他的知识和人生经验。原本计划讲解语言模型的专业内容，考虑到听众的多样性，李沐也融入了自己在不同领域和选择中的感悟。

在技术层面，李沐将语言模型的构成归纳为算力、数据和算法三个关键要素。他以炼丹为比喻，生动地解释了数据相当于寻找材料，算力是炼制的火候，而算法则是炼丹的配方。他强调，数据采集的困难性、算力的提升和算法的优化都是推动技术进步的重要驱动力。

李沐还指出，当前语言模型与早期深度学习模型的区别在于，以前的模型针对特定问题，而现在则追求更全面、更具有“灵魂”的解决方案。他预测，未来几年，硬件、数据和算法的发展将遵循一定的规律，而非跳跃性进步。

在硬件方面，李沐特别提到了带宽的重要性。随着模型训练规模的扩大，分布式训练成为常态，带宽成为主要瓶颈。他以英伟达的GB200系统为例，说明了水冷技术在提升计算密度和减少延迟方面的关键作用，以及多卡并置的趋势，以实现更高效的通讯和性能。

李沐的演讲深入浅出，结合个人经历和前沿技术，为听众呈现了人工智能领域的最新进展和未来展望。他的分享不仅启发了在场的师生，也为人工智能领域的研究和应用提供了新的思考角度。

【source】https://www.jiqizhixin.com/articles/2024-08-26-5