AI大牛卡帕西开源nanochat：百元成本4小时训练，12小时性能超GPT-2-网界

与卡帕西此前开发的nanoGPT不同，nanochat构建了完整的全栈训练/推理流程。项目采用Rust语言实现分词器训练，在FineWeb数据集上进行Transformer模型预训练，并通过CORE指标体系评估模型的基础能力。开发者仅需启动云GPU实例并运行单一脚本，即可在4小时内完成从零开始的模型训练，生成可进行简单对话、创作诗歌、解答基础问题的AI系统。

技术实现层面，项目整合了多项创新：中期训练阶段引入SmolTalk对话数据与选择题数据，指令微调阶段覆盖常识推理（ARC-E/C）、数学计算（GSM8K）、代码生成（Humaneval）等基准测试。特别设计的"GRPO"算法支持GSM8K数据集上的强化学习，配合带KV缓存的推理引擎，实现了包含工具调用（Python解释器）的高效交互，用户可通过命令行或网页界面与模型交互。

性能表现方面，训练12小时的模型已在CORE指标上超越GPT-2。当预算提升至1000美元（约合人民币7114.7元）时，41.6小时训练可使模型具备基础数学与编程能力。具体测试数据显示，深度30的模型训练24小时后，在MMLU语言理解基准取得40+分，ARC-Easy常识推理突破70分，GSM8K数学测试获得20+分，性能相当于GPT-3千分之一计算量的水平。

项目代码库包含8304行实现，涵盖从数据预处理到模型评估的全流程。开发者可生成单页Markdown报告，以可视化方式追踪训练进度。卡帕西展示的对话案例显示，基础版模型已能完成诗歌创作等创意任务。开源社区迅速响应，已有开发者制作出交互式代码图谱，帮助新手更直观地理解项目架构。

这项成果为AI开发成本控制提供了新范式。通过架构优化与流程简化，项目证明了在有限预算下实现基础AI功能的可行性。尽管当前性能与商业大模型存在差距，但其展现的性价比优势为AI技术普及开辟了新路径。随着社区持续优化，这种高效开发模式有望推动AI技术在更多场景的落地应用。

百度世界大会发布文心大模型5.0 多项能力达全球领先水平

文心5.0基础能力全面升级，在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出，拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式，文心5.0的技术路…

2025-11-15

富士胶片2025上半财年业绩全线飘红，影像事业领涨上调全年预期

2025-11-14

《全球城市产业创新指数报告2025》发布深圳跻身全球创新“第一梯队”

2025-11-14

2025陆海物博会重庆启幕聚焦物流融合助力西部产业新发展

2025-11-14

李彦宏2025百度世界大会发声：AI跨越临界点，百度成果引领产业新变革

李彦宏在大会上表示，“我们用AI重构搜索结果页，不是简单地在搜索结果中插入AI摘要，而是把搜索从一个以文字内容和链接为主的互联网应用，转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来，AI数字…

2025-11-14

百度智能云发布新芯与超节点，持续布局AI算力助力企业AI能力内化

百度智能云今年已经点亮了昆仑芯三万卡集群，可同时支撑多个千亿参数大模型训练，打造了国产AI算力集群的一大里程碑。未来，百度智能云将持续优化软硬件协同效果，通过百舸AI计算平台，将昆仑芯单一集群的规模从三万卡进…

2025-11-13

最低4.99万起售，京东首推“国民好车”意在构建汽车生态闭环？

2025-11-13

李彦宏2025百度世界大会发声：AI迈向效果涌现产业构建倒金字塔生态

11月13日举办的2025百度世界大会上，百度创始人李彦宏围绕 AI 技术发展阶段与产业生态发表观点，指出 AI正从技术演示走向实际应用，产业结构也在发生根本性转变。在 AI 产业结构层面，李彦宏表示该领…

2025-11-13

AI从“智能涌现”迈向“效果涌现”，李彦宏：百度引领AI产业结构新变革

2025-11-13