ChatGPT原理与架构:大模型的预训练、迁移和中间件编程

程戈
内容简介 这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。 第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识; 第2~5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进; 6~8章从底层技术实现的角度讲解了大语言模
暂无评价
暂时没有数据