2023-04-29

GPT-21.5B是超越LLaMA7B的最佳fine-tun

最近的一篇论文比较了各种fine-tune模型，其中GPT-2 1.5B从2019年开始的表现超越了LLaMA 7B从2023年开始的表现。更有趣的是，LLaMA 7B的数字与其论文中报告的数字存在巨大的差异。 OBQA有15个点的巨大差异吗？ LLaMA在原始论文中如何获得57.2分而在最近的论文中只有42.4分？

他们在130M的指令令牌和84M的响应令牌上fine-tune了模型，总计约215M令牌。对于GPT 1.5B模型，这大约需要36小时的单个3090 GPU。

这个在自己的机器上运行也很合理

我以前在GPT-2-XL上进行了优调，并使用DeepSpeed处理了约6M令牌/小时

我忽略了epochs，他们运行了5个epochs，所以你需要5 x 36个小时。