网界
网络资讯 产业经济 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

智谱清言App新功能上线,CogView3-Plus文生图模型有何亮点?

2024-10-14来源:ITBEAR编辑:瑞雪

智谱技术团队今日宣布,其研发的文生图模型CogView3及CogView3-Plus-3B已正式开源,并已在“智谱清言”App中上线。据团队介绍,CogView3是一款基于级联扩散技术的text2img模型,其生成过程分为三个阶段:首先生成512x512像素的低分辨率图像,随后通过中继扩散过程实现2倍超分辨率,生成1024x1024像素的图像,最后再次迭代生成2048x2048像素的高分辨率图像。

在实际应用中,CogView3的表现尤为出色。据官方数据显示,在人工评估中,其性能比目前最先进的开源文本到图像扩散模型SDXL高出77.0%,同时,其推理时间仅为SDXL的约十分之一。CogView3-Plus模型在CogView3的基础上引入了最新的DiT框架,进一步提升了整体性能。该模型采用了Zero-SNR扩散噪声调度,并引入了文本-图像联合注意力机制,有效降低了训练和推理成本。

CogView3-Plus模型使用的VAE潜在维度为16,相较于常用的MMDiT结构,它在保持模型基本能力的同时,实现了成本的有效控制。这两款模型的开源,无疑将为文本到图像的生成领域带来新的突破。

用户可以通过以下链接访问CogView3及CogView3-Plus-3B的开源仓库:

开源仓库地址:https://github.com/THUDM/CogView3

Plus 开源模型仓库:https://huggingface.co/THUDM/CogView3-Plus-3B https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

2025CSDI:大模型引领智能研发与IT组织变革
今年大家会听到越来越多的AI化、智能化,商业化,这些会成为主流旋律。未来,AI技术的发展从可靠、能干、聪明的阶段,将被部署到更广泛的场景中。得益于算法和算力的技术突破,带来了AI的更新变革,也为行业带来更多的能力和动力去获取更多的数据。AI的发展与AI的应用紧

2025-08-13

周鸿祎称智能体是“赛博牛马” 上班可以摸鱼自由了
文 / 玄玄也美编 / 顾青青出品 / 网界8月6日,第十三届互联网安全大会(ISC.AI 2025)在北京国家会议中心盛大开幕。这场以 “All In Agent” 为主题的盛会,因 360 集团创始人周鸿祎的一番惊人言论瞬间引爆舆论。周鸿祎表示,“智能体将变成我们的赛博牛马,做繁琐的工作

2025-08-07

快手可灵 AI 太能打,商业化跑得比谁都快
文 / 玄玄也美编 / 顾青青出品 / 网界最近,花旗和长江证券的研报都表示,快手可灵 AI 的商业化进程超出了预期。这个判断主要来自实实在在的成果,就在上周的世界人工智能大会上,可灵AI亮出成绩单,目前可灵 AI 在全球已经有超过 4500 万创作者,产品发布到现在升级了

2025-08-05