正文:
近日,资深媒体人、前新华社、人民日报、中央电视台等知名媒体记者和编辑李沐,在知名科技媒体“机器之心”上发表了题为《创业一年,人间三年》的文章,分享了自己在LLM创业第一年的进展、纠结和反思。
文章中,李沐透露了自己从Amazon离职后创业的心路历程。在Amazon工作期间,他一直想尝试创业,但疫情耽搁了计划。直到第7年半,他毅然决然地提出了离职,开始了自己的创业之路。
李沐的新公司名为BosonAI,取名来源于之前在Amazon和Microsoft联合项目中所使用的“Gluon”项目。在量子物理中,Gluon是一种把夸克绑在一起的玻色子,象征着这个项目一开始就是两个大公司的联合项目。新公司干脆就用“Boson”来命名,寓意着“Boson和费米子组成了世界”。
在创业初期,李沐团队遇到了诸多挑战。22年底,他们想到了两个用大语言模型(LLM)做生产力工具的想法。恰巧遇到张一鸣,讨论后张一鸣反问:“为什么不做LLM本身呢?”李沐表示之前在Amazon的团队已经做了好几年这个,但张一鸣告诉他这些都是短期困难,要眼光看长远。
李沐团队凑齐了数据、预训练、后训练、和架构各方向负责人的创始团队,开始了融资。运气不错,很快拿到了种子投资。但在第二轮融资时,领头机构在签字前一天突然决定不投资,导致跟投的几家退出。李沐感慨:“当时蹭着资本市场热情还在,其实可以继续融资,说不定也跟其他友商一样,现在十亿现金在手。”
在技术方面,李沐团队遇到了各种匪夷所思的bug。他们为了尽早获得GPU,给Nvidia CEO黄仁勋写邮件,20天后就拿到了机器。尽管遇到了各种问题,但他们依然坚持不懈,不断优化算法,提高模型性能。
在商业方面,李沐表示他们第一年收支平衡,非常幸运。他们的收入主要来自于为大客户提供定制模型。他们相信,随着技术成本的降低和行业领先者的推动,未来会有更多公司尝试使用LLM。
在技术认知方面,李沐将LLM的认知分为四个阶段。第一阶段是从Bert到GPT3,感受到了新架构、大数据的魅力。第二阶段是GPT4的出现,让他们感到震撼。第三阶段是从具体问题出发,针对具体需求去训练模型。第四阶段是发现针对单一应用训练,模型很难再次飞跃,于是开始设计Higgs系列模型,主打通用能力。第五阶段仍在进行中,他们希望能尽快分享。
对于未来,李沐表示他们蒙头做技术,给客户做定制,然后再慢慢想自己追求的愿景。他们希望未来生产工具越来越发达,人类更加个体独立,大家都忙着追求自己的事情。
这篇文章详细介绍了李沐在LLM创业第一年的经历,展现了他们在探索与挑战中不断前行。相信在未来的日子里,BosonAI会取得更多的成绩。
Views: 0