获红杉、今日资本等投资，MoonshotAI的大模型“长文本”征途-亚洲娱乐界

作为中国版OpenAI的强有力竞争者，杨植麟创办的Moonshot AI近日在北京正式公开亮相。

同为清华系大模型创业者，杨植麟的公众知名度虽然比不上王小川、王慧文等在科技领域富有影响力的大咖，其在AI界早已是赫赫有名。据了解，杨植麟清华求学时期，师从清华大学计算机系知识工程实验室带头人，智源研究院学术副院长、悟道项目负责人唐杰教授。最终，他以满分成绩通过所有程序设计课程，并以年级第一的成绩毕业。

2015年，杨植麟进入美国卡内基梅隆大学语言技术研究所(LTI)，跟随苹果公司AI负责人Ruslan Salakhutdinov和Google AI智能首席科学家William W. Cohen攻读博士位。

杨植麟先后以一作身份，发表 Transformer-XL 和 XLNet 两项工作，谷歌学术被引次数近两万。其在过去五年内的NLP领域华人学者引用排名中位居前10，并在40岁以下排名第一。

正如杨植麟在此次媒体沟通会上所说，“我们最主要的特色是高人才密度”。在Moonshot AI大概50人的公司团队中，除了学术背景深厚的杨植麟，还有许多成员都有训练超大模型的经验。其创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发，多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。

而除了拥有大量技术人才，Moonshot AI也吸纳了不少产品人才，这些成员中有人具备从0到1 的产品经验，有人运营过几亿DUA的产品。“我们希望把技术和产品结合，在C端让大模型落地产生更大的价值。”杨植麟说。

杨植麟带领的Moonshot AI也迅速获得投资机构的认可，公司自今年三月成立以来，已获得来自红杉资本、今日资本、砺思资本等投资机构近20亿元的投资。

同时，公司在成立半年后，已经在“长文本”领域实现突破。公司在10月9日正式推出首个支持输入20万汉字的智能助手产品Kimi Chat，这是目前全球市场上能够产品化使用的大模型服务中，所能支持的最长上下文输入长度。

直面核心技术挑战，打造长文本大模型

今年以来，ChatGPT的火爆出圈正引领新一波的AI浪潮。各大科技巨头、初创公司纷纷加入这场AI大模型军备赛，热闹程度堪称“百模大战”。

但需要注意的是，当前大模型输入长度普遍较低的现状，对其技术落地产生了极大制约。比如在使用大模型作为工作助理完成任务的过程中，几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户，由于常常需要分析处理较长的文本内容，使用大模型时受挫的情况发生频率极高；对于大模型开发者来说，输入prompt长度的限制约束了大模型应用的场景和能力的发挥。

拥有超长上下文输入后的大模型，让这些问题迎刃而解，从而使得大模型的应用可以覆盖更多使用场景。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等，都可以在超长文本技术的加持下，成为人们工作和生活的一部分。

值得注意的是，长文本技术的开发，存在一些对效果损害很大的“捷径”。比如“金鱼”模型，特点是容易“健忘”。通过滑动窗口等方式主动抛弃上文，只保留对最新输入的注意力机制。模型无法对全文进行完整理解，无法处理跨文档的比较和长文本的综合理解。

“蜜蜂”模型，特点是只关注局部，忽略整体。通过对上下文的降采样或者RAG，只保留对部分输入的注意力机制，模型同样无法对全文进行完整理解。“蝌蚪”模型，特点是模型能力尚未发育完整。通过减少参数量来提升上下文长度，这种方法会降低模型本身的能力，虽然能支持更长上下文，但是大量任务无法胜任。

“不管是‘金鱼’模型、‘蜜蜂’模型，还是‘蝌蚪’模型，都没有办法真正达到产品化的效果。只有真正去面对核心技术挑战、正面解决问题，才有可能真正达到产品化的效果。所以我们做了非常多算法和工程的优化，在存储、算力、带宽等各方面，去实现真正可用、可产品化的长文本大模型。”杨植麟说。

基于此，Moonshot AI推出智能助手产品Kimi Chat。相比当前市面上以英文为基础训练的大模型服务，Kimi Chat具备较强的多语言能力。例如，Kimi Chat在中文上具备显著优势，实际使用效果能够支持约20万汉字的上下文，2.5倍于Anthropic公司的Claude-100k，8倍于OpenAI公司的GPT-4-32k(实测约2.5万字)。

“当然，更长的上下文长度只是Moonshot AI在下一代大模型技术上迈出的第一步，未来团队将持续加速大模型技术的创新和应用落地。”杨植麟说。

清华系大模型同台竞技，笃定2C阵营会有Super APP出现

虽成立只有半年时间，Moonshot AI已经获得来自红杉资本、今日资本、砺思资本等投资机构的追捧。

“眼下，美国硅谷的OpenAI和Anthropic等公司获得了多方关注，实际上在国内，拥有足够多技术储备的Moonshot AI也正成长为全球领先的AGI初创公司。”作为Moonshot AI首轮融资的三家投资机构之一，砺思资本创始合伙人曹曦说。

在曹曦看来，多模态大模型是各家AI厂商竞争的关键领域，其中长文本输入技术更是其核心技术之一，Moonshot AI团队最新发布的大模型和Kimi Chat在这方面实现了重要突破，并已应用于多个实际场景。

毋庸置疑，AI天才杨植麟是清华系大模型创业者中的闪耀新星。事实上，清华系创业者已经撑起大模型创业的半壁江山。百川智能、生数科技、面壁智能、深言科技、智谱AI、一流科技等大模型创业公司，均拥有清华背景的创始团队。

在这场清华系创业公司的同台竞技中，杨植麟坦言，这更多的是大家共同在大模型领域产生贡献。这里面的空间非常大，很难有一家公司就可以把所有的事情都做了。大家的侧重点各有不同，有些专注C端有些专注B端，技术路线也会有所不同，每个人都能够产生独一无二的价值。

“我们会坚定站在2C阵营发展，在这个阵营中，一定会有Super APP出现。”杨植麟说，“这些SuperAPP会基于自研模型做出来，因为你需要在用户体验上能够有差异化。但同时我们会觉得可能出现很长尾的各种各样应用，有可能是基于开源模型去做，然后发挥数据或者场景产品化的优势。”

面对有更多生态资源和资金优势的大厂，Moonshot AI在2C阵营中的竞争优势如何体现？“我认为通过AI native的产品，会有很多新的流量入口出现。比如美国现在有很多新的流量入口，没有一个是大厂做出来的。如果瞄准新的流量入口，肯定是有创业公司的机会的。”杨植麟告诉21世纪经济报道。

比如以前没有Midjourney这样的产品，它就是新的流量入口，因为以前做不了这样的需求。再比如可交互的直播等，会有很多新的想象空间、新的app出现，所以创业公司肯定是有机会的。