AI资讯
智源「悟界」大模型:跨模态理解生成与开源生态的高性能 AI 方案
2025-07-04
6367次阅读
? 智源「悟界」大模型:跨模态理解生成与开源生态的高性能 AI 方案
在人工智能领域,大模型的发展正在经历从数字世界向物理世界的跨越。2025 年北京智源大会上,智源研究院推出的「悟界」系列大模型,标志着这一技术趋势的重要突破。这个系列包含原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0 以及全原子微观生命模型 OpenComplex2,覆盖了从宏观到微观、从数字到物理的多个维度。
Emu3 是全球首个原生多模态世界模型,它的核心在于对多种模态信息的深度融合与理解。与传统模型不同,Emu3 从底层设计上就支持图像、文本、音频、视频等多模态数据的协同处理,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。这种设计使得 Emu3 在图像生成、视频生成、视觉语言理解等任务中展现出优越的能力,例如在文本到图像生成任务中,Emu3 超越了 Stable Diffusion XL(SDXL),在视频生成任务中也优于 Sora。
Emu3 的出现,让大模型真正具备了理解和推理物理世界的能力。它通过将不同模态的数据编码为一个离散空间,并通过自回归的方式进行统一训练,相当于为文字、图像、视频发明了一种统一 “新语言”,可在同一空间中进行表达。这种技术不仅提升了模型的性能,还降低了对新基础设施的需求,有利于产业化应用。
脑科学多模态通用基础模型见微 Brainμ 是智源研究院在脑科学领域的重要突破。它整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据,完成了超过 100 万单位的神经信号预训练。Brainμ 能够将不同的脑信号(包括人类和动物的脑信号)与文字、图像、视频等不同模态进行融合,实现科学数据注释、交互式科学结论解读、大脑感觉信号重建及模拟刺激信号生成等任务。
在实际应用中,Brainμ 已经展现出了强大的潜力。例如,在抑郁症、阿尔茨海默病、帕金森综合征的预测上,Brainμ 的能力已经超越了专用模型的预测能力。此外,Brainμ 还支持拓展脑机接口应用,在与脑机接口企业强脑科技 BrainCO 的合作中,它实现了首次在便携式消费级脑电系统上重建感觉信号。这些成果表明,Brainμ 有望成为脑科学领域的 “AlphaFold” 模型,推动神经科学研究从假设驱动向数据驱动转变。
具身智能是人工智能从数字世界迈向物理世界的关键环节。智源研究院推出的跨本体具身大小脑协作框架 RoboOS 2.0 与具身大脑 RoboBrain 2.0,为具身智能的发展注入了新动力。RoboOS 2.0 是全球首个支持 MCP 的跨本体具身大小脑协作框架,旨在构建具身智能领域的 “应用商店” 生态,开发者可一键下载并部署来自全球开发者创建的相同型号机器人本体的小脑技能,完成大小脑的无缝整合。
具身大脑 RoboBrain 2.0 是目前全球最强的开源具身大脑大模型。实验数据显示,RoboBrain 2.0 的任务规划准确率相较 RoboBrain 1.0 实现了 74% 的效果提升,全链路平均响应时延低至 3 毫秒以下,端云通信效率提升 27 倍。它还新增了闭环反馈以及具身智能的深度思考能力,能够支持不同构型、不同品牌的机器人,帮助它们真正看到物理世界,对人类发出的指令进行拆解、逻辑推理和规划决策。
目前,智源研究院已与全球 20 多家具身智能企业建立战略合作关系,共同打造开放繁荣、协同共生的具身智能生态体系。例如,银河通用的具身大模型机器人 Galbot 已在北京的 7 处无人药店上岗,并计划今年在北京、上海、深圳开 100 家这样的无人药店。
全原子微观生命模型 OpenComplex2 是智源研究院在生物医药领域的重要成果。它实现了生物分子研究从静态结构预测到动态构象分布建模的突破,在蛋白质、DNA、RNA 等复合物的结构预测上表现出色,还能准确预测大小分子之间的相互作用。OpenComplex2 打破了静态结构预测的限制,进一步预测蛋白质构型分布,助力新型治疗方案研发。
通过结合人工智能精准预测与高通量实验验证平台,OpenComplex2 将有望显著缩短生物医药研发周期,降低研发成本,提升科研成果转化率。例如,智源研究院构建的全球首个高速跨尺度心脏药物安全性评价平台,基于 OpenComplex2 将药物的评价时间从 90 天缩短不到一天,目前已和安贞医院、协和医院等医院开展合作。
智源研究院一直坚持开源开放的原则,打造了覆盖模型、算法、数据、评测、系统的大模型开源技术体系 FlagOpen。截至目前,FlagOpen 已开源约 200 个模型和 160 个数据集,其中模型全球总下载量超 6.4 亿次,开源数据集下载量近 113 万次,开源项目代码下载量超 140 万次。例如,BGE 曾成为中国首个登顶 Hugging Face 月度下载排行榜榜首的开源模型。
RoboOS 2.0 与 RoboBrain 2.0 也已全面开源,包括代码、数据、模型、基准评测等,为全球研究者和开发者提供了一个强大的基础平台,促进了具身智能技术的交流与创新。这种开源生态不仅推动了技术的发展,也让更多的企业和开发者能够受益于智源的研究成果。
从 “悟道” 到 “悟界”,智源研究院始终走在技术路线探索的前沿。“悟道” 的 “道” 代表智源对大语言模型系统化方法和路径的探索,而 “悟界” 的 “界” 则代表虚实世界边界的不断突破。未来,智源研究院将持续解构物理世界与智能本质的深层关联,在通用人工智能的征途中刻下新的坐标。
随着 “悟界” 系列大模型的推出,人工智能正从数字世界迈向物理世界,从单一模态走向多模态,从实验室走向实际应用。无论是在脑科学、生物医药领域,还是在具身智能、工业制造领域,“悟界” 都展现出了巨大的潜力。而开源生态的建设,更是让这种潜力得以普惠,推动整个 AI 行业的发展。
可以预见,智源「悟界」大模型将在未来的 AI 发展中扮演重要角色,引领人工智能技术向更高层次迈进。
【该文章由dudu123.com嘟嘟 ai 导航整理,嘟嘟 AI 导航汇集全网优质网址资源和最新优质 AI 工具】
用户评论 (0)
暂无评论,快来发表第一条评论吧!