苹果推出 300 亿参数多模态 AI 大模子 MM1.5

发布日期:2024-10-15 06:52    点击次数:72

IT之家 10 月 13 日讯息,苹果公司现已为旗下多模态大模子 MM 推出 1.5 版块,该版块模子基于前代 MM1 的架构,链接继续数据运行的侦查原则,重心商讨在不同侦查周期中搀杂不同类型数据对模子性能的影响。

现在关系模子文档已发布于 Hugging Face 上,IT之家附论文地址如下(点此探问)。

该版块模子提供 10 亿-300 亿多种参数界限,领有图像识别和当然说话推理才能。苹果公司研发东谈主员在新版块中调动了数据搀杂战略,权贵缓助了模子在多文本图像显露、视觉援用与定位(Grounding)以及多图像推理方面的才能。

参考论文,团队在 MM1.5 的捏续预侦查阶段引入了高质地的 OCR 数据和合成图像相貌,权贵缓助了模子对包含多数文本的图像的显露才能。

此外,商讨东谈主员在监督式微调阶段分析了不同数据类型对模子发达的影响,优化了视觉提示微调数据的搀杂方法,从而为模子竣事了更高的后果,团队暗意,即等于小界限的模子(10、30 亿参数版块)也能发达出色。

值得热心的是,苹果公司本次还推出了有利用于视频显露的 MM1.5-Video 模子和有利处分迁移成就用户界面(UI)显露的 MM1.5-UI 模子,其中 MM1.5-UI 模子改日有望算作 iOS 幕后的“苹果牌”AI,其简略处分多样视觉援用与定位任务、转头屏幕上的功能,或者通过与用户的对话进行交互。

尽管 MM1.5 模子在多项基准测试中赢得了优秀发达,苹果团队仍野心通过进一步交融文本、图像和用户交互数据,假想更复杂的架构,来缓助模子对迁移成就 UI 的显露才能,加强“苹果牌”AI 的实力。