🧪 语言模型炼金术

从零训练你的第一个语言模型

模型架构

层数 (Layers):
隐藏维度 (d_model):
注意力头 (Heads):
词表大小 (Vocab):
参数量: 0M
显存需求: 0GB

训练进度

训练损失
-
困惑度 (PPL)
-
步数 (Steps)
0
学习率
0

文本生成测试

训练模型后可以生成文本...

数据集

高质量的中文维基百科文本

训练配置

预设配置

训练阶段

📚
预训练
大规模无监督学习
🎯
微调
特定任务优化
🤝
RLHF
人类反馈对齐

💡 游戏说明

🔑 核心概念

自回归: 根据前文预测下一个词

Transformer: 基于注意力机制的架构

涌现能力: 规模达到阈值后出现新能力

规模定律: 性能随参数量、数据量、计算量增长

💡 训练技巧

小模型: 快速实验,验证想法

大模型: 更强能力,但需要更多资源

学习率: 太大不收敛,太小训练慢

批大小: 越大越稳定,但显存需求高