模型杂谈

Llama3的关键组件解读

如果前面已经了解过transformer，那么学习llama就顺理成章了一些，llama采用Decoder-only 架构，也就是

Administrator 发布于 2026-02-17

手撕系列

手撕transformer

transformer 模型架构图示一、transformer的子模块划分 1.1、注意力机制

Administrator 发布于 2026-02-15

模型杂谈

一、预训练与微调预训练是大语言模型能力形成的基石。在这个阶段，模型通过海量无标注文本（如网页、书籍、代码）进行学习，其目标并非执行某个具体任务，而是掌握语言的通用规律、积累世界知识与常识，并形成基础的逻辑推理能力。这个过程类似于人类的“基础教育”（就好像咱们在读小学的时候认字识字，通过周围的信息了

Administrator 发布于 2026-02-14