科技领域迎来一项突破性进展——meta旗下基础人工智能研究团队(FAIR)正式开源新一代AI模型TRIBE v2。该模型通过创新的多模态融合技术,实现了对人类大脑视觉、听觉及语言反应的高精度预测,为神经科学研究开辟了全新路径。与传统依赖脑部扫描的研究方式不同,TRIBE v2无需实际测量即可生成大脑活动图,显著降低了研究成本与周期。
模型的核心机制在于整合视频、音频与文本三种输入数据。通过Video-JEPA-2、Wav2Vec-Bert-2.0及Llama 3.2三个预训练模型分别提取特征后,Transformer架构将这些信息融合,最终输出包含7万个"体素"的3D大脑活动图。实验数据显示,其预测精度超越传统线性模型,甚至能复现经典神经科学实验结果,且在处理新数据时无需重新训练,仅需短暂微调即可提升准确性。
在性能对比中,TRIBE v2展现出显著优势。功能性磁共振成像(fMRI)常受心跳、头部微动等生理噪声干扰,而该模型通过预测"调整后的平均反应"有效过滤杂音,生成的大脑活动图清晰度优于真实扫描结果。研究团队特别指出,当同时输入多模态数据时,模型在大脑颞叶、顶叶与枕叶交界处的预测准确率可提升50%,而单独输入音频时仅能激活听觉皮层。
实际应用场景中,TRIBE v2已验证多项神经科学发现:在视觉实验中准确识别出处理面部、地点等信息的专门脑区;在语言实验中复现了言语与沉默、情感与疼痛等经典区分模式。不过,该模型仍存在技术局限——其依赖血流数据导致无法捕捉毫秒级神经活动,且未纳入触觉与嗅觉维度。目前,meta已公开模型代码与权重,重点探索其在脑科学实验设计、类脑AI架构开发及脑疾病诊断等领域的潜在价值。

