苹果公司近期为其多模态大模型MM推出了1.5版本,新版本在延续前代MM1数据驱动训练原则的基础上,着重研究了混合不同类型数据对模型性能的影响。相关模型文档已在Hugging Face上发布,并附有论文链接。

MM1.5版本提供了10亿至300亿多种参数规模的选择,具备图像识别和自然语言推理能力。苹果的研发团队在新版本中改进了数据混合策略,显著增强了模型在多文本图像理解、视觉引用与定位以及多图像推理方面的表现。
根据参考论文,苹果在MM1.5的持续预训练阶段引入了高质量的OCR数据和合成图像描述,大幅提升了模型对富含文本内容的图像的理解能力。研究团队还在监督式微调阶段分析了不同数据类型对模型性能的影响,并优化了视觉指令微调数据的混合方式,使模型实现了更高的效率,即便是小规模的模型(10亿、30亿参数版本)也能展现出优秀的性能。
苹果公司此次还推出了MM1.5-Video模型,专门用于视频理解,以及MM1.5-UI模型,专注于移动设备用户界面的理解。MM1.5-UI模型未来有望成为iOS背后的“苹果牌”AI,它能够处理各种视觉引用与定位任务,总结屏幕上的功能,或者通过对话与用户进行交互。
2025CSDI:大模型引领智能研发与IT组织变革
今年大家会听到越来越多的AI化、智能化,商业化,这些会成为主流旋律。未来,AI技术的发展从可靠、能干、聪明的阶段,将被部署到更广泛的场景中。得益于算法和算力的技术突破,带来了AI的更新变革,也为行业带来更多的能力和动力去获取更多的数据。AI的发展与AI的应用紧
2025-08-13
周鸿祎称智能体是“赛博牛马” 上班可以摸鱼自由了
文 / 玄玄也美编 / 顾青青出品 / 网界8月6日,第十三届互联网安全大会(ISC.AI 2025)在北京国家会议中心盛大开幕。这场以 “All In Agent” 为主题的盛会,因 360 集团创始人周鸿祎的一番惊人言论瞬间引爆舆论。周鸿祎表示,“智能体将变成我们的赛博牛马,做繁琐的工作
2025-08-07
快手可灵 AI 太能打,商业化跑得比谁都快
文 / 玄玄也美编 / 顾青青出品 / 网界最近,花旗和长江证券的研报都表示,快手可灵 AI 的商业化进程超出了预期。这个判断主要来自实实在在的成果,就在上周的世界人工智能大会上,可灵AI亮出成绩单,目前可灵 AI 在全球已经有超过 4500 万创作者,产品发布到现在升级了
2025-08-05