报告人:董镇 博士后
UC Berkeley
主持人:李萌 助理教授
人生就是博-尊龙凯时
时 间:2023/6/12 10:00 - 12:00
Zoom Meeting:863 0922 7920
Tencent Meeting:904-321-305
报告题目:高效人工智能:模型压缩和软硬件协同设计
报告摘要:
随着人工智能的快速发展,先进神经网络规模急剧扩大,存储和算力要求显著提升,在云端和终端平台的部署愈发困难。本次讲座将主要介绍模型压缩和软硬件协同设计两种解决方案。具体而言,我们将讨论混合精度量化面临的困难和解决方案,介绍我们的相关工作,包括HAWQ系列、Q-BERT、ZeroQ、NoisyQuant、Q-Diffusion等等方法。同时本次讲座还会讨论软硬件协同设计的优势和问题,介绍包括CoDeNet、HAO、EPIM、ETA在内的相关工作。最后我们将对量化和协同设计的工作进行总结与展望。
报告人简介:
董镇,2018年本科毕业于北大EECS,2022年博士毕业于伯克利EECS,目前在伯克利做Postdoc,研究的方向有模型压缩(Model Compression)、人工智能大模型生成模型(LLM、AIGC)、架构搜索(NAS)、软件硬件协同设计(HW-SW Co-Design)。发表的论文HAWQ系列 (HAWQ、HAWQV2、HAWQV3)使用Hessian矩阵信息来优化混合精度量化,论文Q-BERT/Diffusion第一个将模型量化引入大规模语言模型/生成模型,论文ZeroQ提出不需要样本的后训练量化范式(Zero-Data PTQ),发表的综述论文详细地介绍了以往的模型量化方法并且系统的对量化进行了归类和展望。