网界科技
网络资讯 产业经济 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 热点资讯

智谱清言App新功能上线,CogView3-Plus文生图模型有何亮点?

2024-10-14来源:ITBEAR编辑:瑞雪

智谱技术团队今日宣布,其研发的文生图模型CogView3及CogView3-Plus-3B已正式开源,并已在“智谱清言”App中上线。据团队介绍,CogView3是一款基于级联扩散技术的text2img模型,其生成过程分为三个阶段:首先生成512x512像素的低分辨率图像,随后通过中继扩散过程实现2倍超分辨率,生成1024x1024像素的图像,最后再次迭代生成2048x2048像素的高分辨率图像。

在实际应用中,CogView3的表现尤为出色。据官方数据显示,在人工评估中,其性能比目前最先进的开源文本到图像扩散模型SDXL高出77.0%,同时,其推理时间仅为SDXL的约十分之一。CogView3-Plus模型在CogView3的基础上引入了最新的DiT框架,进一步提升了整体性能。该模型采用了Zero-SNR扩散噪声调度,并引入了文本-图像联合注意力机制,有效降低了训练和推理成本。

CogView3-Plus模型使用的VAE潜在维度为16,相较于常用的MMDiT结构,它在保持模型基本能力的同时,实现了成本的有效控制。这两款模型的开源,无疑将为文本到图像的生成领域带来新的突破。

用户可以通过以下链接访问CogView3及CogView3-Plus-3B的开源仓库:

开源仓库地址:https://github.com/THUDM/CogView3

Plus 开源模型仓库:https://huggingface.co/THUDM/CogView3-Plus-3B https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

法拉利F250动力曝光:3.0T混动,马力或超1200?
10月14日消息,法拉利全新旗舰跑车F250的动力系统信息在网络上曝光,据悉这款新车或将采用一套由3.0升V6涡轮增压发动机和三台电动机组成的混合动力系统,最大输出功率有望超过1200马力,0至100…

2024-10-14

现代全新胜达插混版谍照曝光,这次有何不同?
2024-10-1407:40:22作者:姚立伟海外媒体“SHORTSCAR”近日发布了一组现代全新一代胜达插电混动版的谍照。据悉,该车搭载了现代汽车的第二代插电混动技术,纯电续航可达100公里,并将于未来应…

2024-10-14

Faker受伤复发引热议:尚未痊愈,正接受治疗!
截止至发稿时,“Faker受伤复发正在接受治疗”这一话题已在贴吧热搜榜排名第7位。 值得一提的是,在T1战队以一场胜利击败G2战队成功晋级8强后,Faker也凭借这一胜利成为了《英雄联盟》S赛事中首位达成10…

2024-10-14