ChatGPT、Claude等公司背后的奖励模型在训练过程中

让我们从基本问题、研究问题、未来前沿和社会技术轴等方面讨论一些问题。

奖励模型的基本问题

奖励模型试图捕捉我们的偏好,这些偏好随时间变化,不能转化,不基于语言等等。

这些模型仅是通过比较两个句子进行训练的,这与我们表达价值观的方式相差甚远(多目标优化)。

研究问题

有很多研究问题提出了其他反馈是否可以使用,比如用户编写回复、从更多答案中选择等等。我怀疑除了被动用户监测和建模,其他方法难以被接受(啪嗒啪嗒,这是一个关注经济)……

如果你同意这个观点,那么这里有一篇新文章,我会说我们需要@OpenAI @AnthropicAI或另一个RLHF领导者,打开奖励模型的研究访问权限,以减轻模拟人类偏好的潜在危害。

未来的前沿

未来,用户所捕获的数据将变得更加复杂:比如关掉生成页面的标签、过度暂停、投诉回复和重新生成按钮点击等等!

与今天的社交媒体算法一样,聊天机器人很可能会被调整以从我们身上提取价值。

社会技术层面

在概念上,奖励模型起源于一个技术论文,用于研究主体系统(例如采取行动的系统)的对齐能力。

消费者使用的生成AI技术是一个完全不同的问题领域。让我们回顾一下过去的工作。

哲学思考

从哲学的角度来看,我们可以从优化成本(如大多数工程),奖励(如大多数RL)和偏好之间的隐含差异入手。

后记

你在研究奖励模型吗?我很想知道你的想法!

我们需要更多的人在这里清晰地沟通。无论是在公司内部还是在公司外部。