大语言模型慢思考能力的涌现物理
数学专题报告
报告题目(Title):大语言模型慢思考能力的涌现物理
报告人(Speaker):陈锟(中科院理论物理研究所)
地点(Place):后主楼1220
时间(Time):2026年4月30日(周四)10:00-11:00
邀请人(Inviter):段玉萍
报告摘要
本报告围绕“大语言模型中通用 System-2 推理如何涌现”这一问题,提出一个复杂网络与统计物理结合的理论框架。报告指出,RLVR 并不需要全面重塑模型的局部 token 分布,而是主要通过调整高熵“分叉 token”来改变推理路径结构,从而催生长链、可泛化的慢思考能力。为解释这一现象,报告将长链推理表述为潜在概念网络上的随机游走,并在 Markov 状态压缩视角下揭示 GRPO-RLVR 的两个核心机制:路径合并与受挫遗忘。进一步地,报告提出 CoNet toy model,展示推理结构如何从局部“逆树”逐步结晶,并在多任务训练中形成类似玻璃态的相变过程。该框架不仅解释了 System-2 推理的形成机制与跨领域泛化来源,也为训练算法优化提供了物理启发,例如退火式 RLVR、临界点附近的最优训练,以及对灾难性遗忘与策略塌缩等问题的统一理解。
主讲人简介
陈锟,现任中国科学院理论物理研究所副教授。他的研究主要聚焦于大语言模型(LLMs)中逻辑推理能力的涌现,以及在基础科学中探索人工通用智能(AGI)的新范式。陈锟本科毕业于中国科学技术大学,随后获得马萨诸塞大学凝聚态物理博士学位,以及合肥微尺度物质科学国家实验室量子信息博士学位。此后,他在罗格斯大学和 Flatiron Institute 从事博士后研究,期间获得西蒙斯基金会支持。获国家级青年人才计划支持。目前还担任 SciencePedia 项目的首席科学家。