WIP | AI | 大语言模型工作原理概述

5eqn

2023-11-03

草稿

本文主要讲解 GLM-130B ^1 的工作原理，可能并不适用于 GPT-3.5、GPT-4 等闭源模型，但依然能大致反映大语言模型的机制。对于有一定耐心的读者，我强烈推荐阅读原论文。

参考论文