从文生视频到世界模型：智象未来如何以认知迭代破局AI创业之困？-网界

在人工智能领域，视频生成模型的竞争正愈发激烈。智象未来作为一家以创作为核心的初创公司，凭借其独特的技术路径和市场策略，在这场竞争中脱颖而出。近日，全球知名独立第三方AI模型评测平台Artificial Analysis发布的文生图榜单中，智象未来的HiDream-O1-Image开源版本跻身前列，并在开源模型中排名第一，这一成绩引发了业界广泛关注。

智象未来的创始人兼CEO梅涛，曾是全球第一篇文生视频论文的作者，他在视频生成领域拥有深厚的技术积累。公司成立四年来，从图像、视频生成到原生全模态世界模型，从工具到co-creator，从DIT架构迭代到UiT架构，每一次技术转向都伴随着对原有认知的突破。梅涛认为，创业只能挣到认知范围内的钱，认知范围外是一个巨大的陷阱。为了跳出这个陷阱，他强调自身迭代、团队碰撞和朋友圈的刺激。

UiT架构是智象未来近期的一项重要突破。该架构将文本Token、视觉信息和控制条件纳入同一个模型空间，由统一Transformer直接完成对齐、理解与生成。通过这一架构，智象未来用8B参数的模型实现了超出56B模型的效果，显著提升了模型对用户意图的理解能力，生成效果更加稳定，复杂修改也更容易一次完成。

当前，视频生成模型赛道正加速升温。年初，Seedance2.0将AI视频生成从“能用”推向“可控且可规模化”；快手计划分拆旗下视频生成大模型业务可灵AI，并以约200亿美元估值寻求融资。商业化、资本化与模型能力同步提速，视频生成正成为生成式AI的核心战场。在这一背景下，初创公司出现分化，智象未来与爱诗科技、生数科技等头部公司成为资本和用户关注的焦点。

东方富海合伙人王兵选择投资智象未来，看中的是公司强大且稳定的底层技术班底。他指出，最终能持续获得资金支持的公司，一定是人才密度最高的公司。智象未来的核心团队在视频生成领域拥有深厚积累，核心研究者多年来保持稳定，这为公司的发展奠定了坚实基础。

与此同时，具身智能世界模型这一新赛道正在向视频模型公司打开。Yann LeCun的AMI Labs和李飞飞的World Labs在这一领域分别完成了高额融资，2026年年初至今，已有超过13亿美元流向世界模型赛道。梅涛表示，智象未来早在2022年便开始研究具身智能，并在创业之初就在视觉生成和具身智能两个方向之间进行深度思考。他认为，做视频生成模型的公司最有可能将世界模型变为现实。

智象未来的CTO姚霆指出，公司的核心逻辑是解决视觉创作本身的问题。无论是面向影视、营销行业，还是为机器人提供内容创作，都属于创作范畴。在服务不同行业的过程中，公司会沉淀行业know-how，将其转化为相关功能，未来随着智能体发展，这些功能还可以沉淀为具备行业属性的skill。

在商业模式上，智象未来定位为视频领域的Anthropic，专注于ToB企业服务。梅涛将大模型赛道分为三层：大型互联网公司、基础模型公司和垂类应用公司。智象未来定位于第二层和第三层之间，既做模型又做应用，模型和应用双轮驱动。公司通过跨境电商短视频营销、影视制作和专业级C端创作工具三大场景，构建了稳定的商业闭环。

在跨境电商短视频营销领域，智象未来开发了一个agent，专门分析电商平台上的爆款视频，拆解、重构成视频生成模板，供商家使用。这一模式已跑通完整链路，每天能支持商家产出近50条短视频广告。在专业级C端创作工具方面，公司面向不同国家推出差异化模板，每月新增下载量超过千万。

智象未来还探索了RaaS（Results as a Service，按结果付费服务）模式。梅涛表示，公司为客户提供AI生成服务的同时，直接为客户的商业结果负责，客户按最终转化结果付费。这一模式展现了AI颠覆传统商业模式的潜力，但公司也花了近一年半时间才跑通。

在智能体战略方面，智象未来致力于为人类创作者和智能体搭建桥梁。在人类创作者的世界里，智能体是co-creator；在智能体的世界里，智能体是能力提供者。姚霆认为，未来智能化应用的范式等于Harness乘以skills，底层是OS。公司正在沉淀行业定制的skill和完整工作流，形成端到端的解决方案，这是其真正的护城河。

当被问及公司未来可能面临的风险时，梅涛表示，最担心的是方向错误和自身认知成为公司天花板。他强调，团队成员的认知迭代至关重要，希望每个人都能从不同角度感知方向是否正确。姚霆则指出，虽然AI领域人才薪酬高，但团队成员对模型研发充满热情，大家聚在一起是为了做出能被记住的成果，而非单纯追求薪资。