Andrej Karpathy 重写minGPT库,NanoGPT上线速揽2500星 | 您所在的位置:网站首页 › nanogpt怎么训练 › Andrej Karpathy 重写minGPT库,NanoGPT上线速揽2500星 |
$ cd data/openwebtext$ python prepare.py 这将生成两个文件:train.bin 和 val.bin,每个文件都包含一个代表 GPT-2 BPE token id 的 uint16 字节原始序列。该训练脚本试图复制 OpenAI 提供的最小的 GPT-2 版本,即 124M 版本。 $ python train.py 假如你想使用 PyTorch 分布式数据并行(DDP)进行训练,请使用 torchrun 运行脚本。 $ torchrun --standalone --nproc_per_node=4 train.py 为了让代码更有效,用户也可以从模型中进行取样: $ python sample.py Karpathy 表示,该项目目前在 1 个 A100 40GB GPU 上一晚上的训练损失约为 3.74,在 4 个 GPU 上训练损失约为 3.60。在 8 x A100 40GB node 上进行 400,000 次迭代(约 1 天)atm 的训练降至 3.1。 至于如何在新文本上微调 GPT,用户可以访问 data/shakespeare 并查看 prepare.py。与 OpenWebText 不同,这将在几秒钟内运行。微调只需要很少的时间,例如在单个 GPU 上只需要几分钟。下面是运行微调的一个例子 $ python train.py config/finetune_shakespeare.py |
CopyRight 2018-2019 实验室设备网 版权所有 |