作者:Administrator

Llama3的关键组件解读

如果前面已经了解过transformer,那么学习llama就顺理成章了一些,llama采用Decoder-only 架构,也就是

Administrator Administrator 发布于 2026-02-17

手撕transformer

transformer 模型架构图示 一、transformer的子模块划分 1.1、注意力机制

Administrator Administrator 发布于 2026-02-15

大语言模型的前世今生

一、预训练与微调 预训练是大语言模型能力形成的基石。在这个阶段,模型通过海量无标注文本(如网页、书籍、代码)进行学习,其目标并非执行某个具体任务,而是掌握语言的通用规律、积累世界知识与常识,并形成基础的逻辑推理能力。这个过程类似于人类的“基础教育”(就好像咱们在读小学的时候认字识字,通过周围的信息了

Administrator Administrator 发布于 2026-02-14