GPT-21.5B是超越LLaMA7B的最佳fine-tun



最近的一篇论文比较了各种fine-tune模型,其中GPT-2 1.5B从2019年开始的表现超越了LLaMA 7B从2023年开始的表现。更有趣的是,LLaMA 7B的数字与其论文中报告的数字存在巨大的差异。 OBQA有15个点的巨大差异吗? LLaMA在原始论文中如何获得57.2分而在最近的论文中只有42.4分?

他们在130M的指令令牌和84M的响应令牌上fine-tune了模型,总计约215M令牌。对于GPT 1.5B模型,这大约需要36小时的单个3090 GPU。

这个在自己的机器上运行也很合理

我以前在GPT-2-XL上进行了优调,并使用DeepSpeed处理了约6M令牌/小时

我忽略了epochs,他们运行了5个epochs,所以你需要5 x 36个小时。