参数细节Parameter details
频率和存在惩罚
在完成 API中找到的频率和存在惩罚可用于减少对令牌的重复序列样本的采样概率。
它们通过直接使用加法贡献对 logits
(未归一化的对数概率)进行修改。
mu[j] -> mu[j] - c[j] * alpha_frequency - float(c[j] > 0) * alpha_presence
何时使用?
mu[j]
是第 j 个 token 的 logits 值。c[j]
是在当前位置之前样本中采样到该 token 的次数。float(c[j] > 0)
如果c[j] > 0
,则为 1,否则为 0。alpha_frequency
是频率惩罚系数。alpha_presence
是存在惩罚系数。
正如我们所看到的,存在惩罚是一次性的加法贡献,适用于已采样至少一次的所有令牌,而频率惩罚是与已经采样多少次特定令牌成比例的贡献。
惩罚系数的合理值约为 0.1 到 1,如果目标只是稍微减少重复样本。如果目标是强烈抑制重复,则可以将系数增加到2,但这可能明显降低样本质量。负值可用于增加重复的可能性。