斯坦福推出最省钱模型FrugalGPT

FrugalGPT：一个灵活的框架

斯坦福推出了一个新的大型语言模型（LLM）框架——FrugalGPT，它可以解决高昂的成本和性能问题。

FrugalGPT框架使用了三种策略来降低LLM推理成本：

FrugalGPT框架使用了基于SID（神经搜索器）的提示适应方法来减少计算成本。具体来说，它将SID模型的输出作为输入来指导GPT模型的搜索，从而减少计算成本。

另一种减少计算成本的方法是LLM的近似。FrugalGPT框架使用了Quantize-aware training（QAT），这种方法允许在训练过程中直接对LLM进行量化，从而减少计算成本。

FrugalGPT框架还使用了一种压缩注意力机制，该机制使用了稀波矩阵技术，可以将LLM中的注意力机制压缩成更小的规模。这个方法在保证推理精度的同时，还可以显著降低计算成本。

FrugalGPT框架的三种策略可以显著降低LLM的推理成本，不仅能够节省成本，还能够提高性能。现在，这个框架已经在BERT等经典的语言模型上取得了良好的效果。