网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

乐高设计新纪元:卡内基梅隆AI模型LegoGPT让文字变积木

2025-05-09来源:ITBEAR编辑:瑞雪

近日,卡内基梅隆大学的一支研究团队在人工智能领域取得了创新突破,他们成功研发出一款名为LegoGPT的AI系统。该系统能够根据用户的文字指令,自动生成可实际搭建的乐高设计图。

据了解,LegoGPT项目的详细信息和代码已全面开源,用户可以通过访问GitHub上的项目地址进行了解和使用。该项目的GitHub链接为:https://github.com/AvaLovelace1/LegoGPT/

研究团队通过训练一种大型自回归语言模型,使LegoGPT能够预测并确定下一块应该放置的乐高积木。为了实现这一目标,团队为模型设计了复杂的算法,通过不断预测下一个token的方式,逐步构建出完整的乐高设计。

为了确保生成的乐高设计既实用又稳固,团队还为LegoGPT增加了有效性校验和物理感知回滚机制。这一机制能够检测并避免积木重叠或悬空等问题,保证最终的设计既符合用户要求,又能实际搭建。

LegoGPT不仅能够生成人手可搭建的设计,还支持机器人操作。这意味着,用户不仅可以根据自己的想象来创造乐高作品,还可以通过机器人实现自动化搭建。

为了实现LegoGPT的训练,研究团队构建了一个名为StableText2Lego的数据集。该数据集的构建过程相当繁琐,它首先将文本提示转化为ShapeNetCore网格模型,然后将其嵌入一个20×20×20的体素网格中,生成初步的乐高积木布局。之后,系统会对这些布局进行变化,并剔除结构不稳定的设计。保留下来的样本会从多个角度进行渲染,并最终生成相应的描述文本。

StableText2Lego数据集包含了超过47000个乐高建构样本,涵盖了28000多种三维造型,如书架、桌子、椅子、汽车、船只和吉他等。这些丰富的数据为LegoGPT的训练提供了坚实的基础,使其能够从文字描述中生成独特且原创的乐高设计。

在使用LegoGPT时,用户只需输入文字描述,系统就会将描述转化为乐高设计图。然后,LegoGPT会按照从底部到顶部的顺序,将这些设计编码为文本token。系统会根据这些token生成指令,将乐高积木结构与注释相对应,使模型学会理解文本与积木组件之间的关系。

接下来,LegoGPT会采用自回归的方式,逐步预测并放置下一块积木。每次添加积木时,系统都会进行严格的格式校验和冲突检测,确保积木的放置正确无误。这一过程会持续进行,直到设计完成。最后,系统还会对生成的设计进行稳定性测试,以确保其结构稳固。

如果系统在测试过程中发现结构不稳,LegoGPT会自动回滚到最近的稳定状态,并从该点继续生成设计,直到完成一个稳定且可行的乐高作品。

百度AI成果井喷:从智能涌现到效果涌现,产业结构迈向健康倒金字塔
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-15

百度世界大会:李彦宏携AI“军火库”全面开放,开启应用新篇章
现场演示连线数字人罗永浩环节上,出现了“翻车”这一尴尬现象时,李彦宏的情绪也并没有太多波动,而是感觉“有点遗憾”,并表示“其实我们在之前演练的过程当中觉得这个效果还是非常令人惊艳的”。 还有大模型层面上的文…

2025-11-15

百度世界大会发布AI新成果:文心5.0等亮相,李彦宏畅谈AI内化生产力变革
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-13

百度“文心杯”第三届落幕:8支团队获千万投资,李彦宏力推AI应用普及
李彦宏表示,我们看到越来越多的创业者在各种场景发现AI的新能力、新效果,希望更多的人能够加入这个发现之旅,也正基于此,百度连续三年举办“文心杯”创业大赛。 第三届“文心杯”创业大赛8支优胜团队共获得数千万元…

2025-11-13

2025百度世界大会聚焦AI发展:成果发布,内化能力引领新质生产力变革
本届大会以“效果涌现”为主题,聚焦国产芯片最新进展、大模型升级、AI应用创新与全球出海,呈现了百度作为中国人工智能领军企业,如何将AI技术内化为产业发展的原生动能,为加快形成新质生产力提供可落地的“百度方案”…

2025-11-13