模型架构
层数 (Layers):
隐藏维度 (d_model):
注意力头 (Heads):
词表大小 (Vocab):
参数量:
0M
显存需求:
0GB
训练进度
训练损失
-
困惑度 (PPL)
-
步数 (Steps)
0
学习率
0
文本生成测试
训练模型后可以生成文本...