
报 告 人:李建
清华大学
主 持 人:林宙辰
尊龙凯吋官方网站智能学院、凯时尊龙人生就是博
时 间:2025年9月16日 15:00-16:00
地 址:尊龙凯吋官方网站 燕园校区理科二号楼 2736 报告厅
腾讯会议:158-502-882
报告题目:
通过压缩视角理解大语言模型行为: 数据生成、知识获取与扩展定律
报告摘要:
大语言模型(LLMs)在众多任务中展现出卓越能力,但其内在机制及扩展定律、幻觉现象等相关行为仍缺乏系统性理论解释。本研究基于Kolmogorov复杂度与Shannon信息论,重新审视压缩与预测的经典关系,从而深入解读大语言模型的行为机制。通过运用Kolmogorov结构函数并将LLM压缩理解为双部分编码过程,我们详细揭示了模型如何随参数量和数据规模增长获取并存储信息——从普遍存在的句法模式到逐渐稀疏的知识要素。受此理论视角及Heap定律与Zipf定律启发的自然假设驱动,我们提出一个简化但具有代表性的分层数据生成框架——句法-知识模型。在贝叶斯框架下,研究表明该模型中的预测与压缩过程可自然推导出大语言模型的多样化学习行为与扩展规律。特别地,我们的理论分析为数据与模型扩展定律、训练与微调中的知识获取动态、以及LLM事实性知识幻觉现象提供了直观的理论的解释。我们在大预言模型上的实验结果验证了理论预测的合理性。
报告人简介:
李建,清华大学交叉信息研究院,长聘教授,博士生导师。研究方向为理论计算机科学、人工智能基础理论、金融科技、数据库等。曾在主流国际会议和杂志上发表了100余篇论文。曾获数据库顶级会议VLDB和欧洲算法年会ESA的最佳论文奖、数据库理论会议ICDT最佳新人奖、多篇论文入选口头报告或亮点论文。主持并参与了多项自然科学基金项目,国家级青年人才项目,以及多个企业合作项目包括百度、蚂蚁金服、今日头条、易方达、华泰证券等。