网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

从文生视频到世界模型:智象未来如何以认知迭代破局AI创业之困?

2026-05-18来源:天脉网编辑:瑞雪

在人工智能领域,视频生成模型的竞争正愈发激烈。智象未来作为一家以创作为核心的初创公司,凭借其独特的技术路径和市场策略,在这场竞争中脱颖而出。近日,全球知名独立第三方AI模型评测平台Artificial Analysis发布的文生图榜单中,智象未来的HiDream-O1-Image开源版本跻身前列,并在开源模型中排名第一,这一成绩引发了业界广泛关注。

智象未来的创始人兼CEO梅涛,曾是全球第一篇文生视频论文的作者,他在视频生成领域拥有深厚的技术积累。公司成立四年来,从图像、视频生成到原生全模态世界模型,从工具到co-creator,从DIT架构迭代到UiT架构,每一次技术转向都伴随着对原有认知的突破。梅涛认为,创业只能挣到认知范围内的钱,认知范围外是一个巨大的陷阱。为了跳出这个陷阱,他强调自身迭代、团队碰撞和朋友圈的刺激。

UiT架构是智象未来近期的一项重要突破。该架构将文本Token、视觉信息和控制条件纳入同一个模型空间,由统一Transformer直接完成对齐、理解与生成。通过这一架构,智象未来用8B参数的模型实现了超出56B模型的效果,显著提升了模型对用户意图的理解能力,生成效果更加稳定,复杂修改也更容易一次完成。

当前,视频生成模型赛道正加速升温。年初,Seedance2.0将AI视频生成从“能用”推向“可控且可规模化”;快手计划分拆旗下视频生成大模型业务可灵AI,并以约200亿美元估值寻求融资。商业化、资本化与模型能力同步提速,视频生成正成为生成式AI的核心战场。在这一背景下,初创公司出现分化,智象未来与爱诗科技、生数科技等头部公司成为资本和用户关注的焦点。

东方富海合伙人王兵选择投资智象未来,看中的是公司强大且稳定的底层技术班底。他指出,最终能持续获得资金支持的公司,一定是人才密度最高的公司。智象未来的核心团队在视频生成领域拥有深厚积累,核心研究者多年来保持稳定,这为公司的发展奠定了坚实基础。

与此同时,具身智能世界模型这一新赛道正在向视频模型公司打开。Yann LeCun的AMI Labs和李飞飞的World Labs在这一领域分别完成了高额融资,2026年年初至今,已有超过13亿美元流向世界模型赛道。梅涛表示,智象未来早在2022年便开始研究具身智能,并在创业之初就在视觉生成和具身智能两个方向之间进行深度思考。他认为,做视频生成模型的公司最有可能将世界模型变为现实。

智象未来的CTO姚霆指出,公司的核心逻辑是解决视觉创作本身的问题。无论是面向影视、营销行业,还是为机器人提供内容创作,都属于创作范畴。在服务不同行业的过程中,公司会沉淀行业know-how,将其转化为相关功能,未来随着智能体发展,这些功能还可以沉淀为具备行业属性的skill。

在商业模式上,智象未来定位为视频领域的Anthropic,专注于ToB企业服务。梅涛将大模型赛道分为三层:大型互联网公司、基础模型公司和垂类应用公司。智象未来定位于第二层和第三层之间,既做模型又做应用,模型和应用双轮驱动。公司通过跨境电商短视频营销、影视制作和专业级C端创作工具三大场景,构建了稳定的商业闭环。

在跨境电商短视频营销领域,智象未来开发了一个agent,专门分析电商平台上的爆款视频,拆解、重构成视频生成模板,供商家使用。这一模式已跑通完整链路,每天能支持商家产出近50条短视频广告。在专业级C端创作工具方面,公司面向不同国家推出差异化模板,每月新增下载量超过千万。

智象未来还探索了RaaS(Results as a Service,按结果付费服务)模式。梅涛表示,公司为客户提供AI生成服务的同时,直接为客户的商业结果负责,客户按最终转化结果付费。这一模式展现了AI颠覆传统商业模式的潜力,但公司也花了近一年半时间才跑通。

在智能体战略方面,智象未来致力于为人类创作者和智能体搭建桥梁。在人类创作者的世界里,智能体是co-creator;在智能体的世界里,智能体是能力提供者。姚霆认为,未来智能化应用的范式等于Harness乘以skills,底层是OS。公司正在沉淀行业定制的skill和完整工作流,形成端到端的解决方案,这是其真正的护城河。

当被问及公司未来可能面临的风险时,梅涛表示,最担心的是方向错误和自身认知成为公司天花板。他强调,团队成员的认知迭代至关重要,希望每个人都能从不同角度感知方向是否正确。姚霆则指出,虽然AI领域人才薪酬高,但团队成员对模型研发充满热情,大家聚在一起是为了做出能被记住的成果,而非单纯追求薪资。