内容审核(Moderation)

概览(Overview)

moderation endpoint是一个工具，您可以使用它来检查内容是否符合OpenAI的使用政策。开发人员可以因此识别违反我们使用政策的内容并采取行动，例如过滤掉。

模型将以下类别归类：

类别	描述
`hate`	根据种族、性别、种族、宗教、国籍、性取向、残疾状况或阶级的内容、煽动或促进仇恨的表达。
`hate/threatening`	包括针对特定群体的暴力或严重伤害的仇恨内容。
`self-harm`	促进、鼓励或描绘自我伤害行为，例如自杀、自伤行为和饮食障碍。
`sexual`	旨在引起性兴奋的内容，例如性行为的描述，或者促进性服务的内容（不包括性教育和健康）。
`sexual/minors`	包括未满18岁的个人的性内容。
`violence`	促进或美化暴力或庆祝其他人的痛苦或羞辱的内容。
`violence/graphic`	以极度详细的形式描绘死亡、暴力或严重实体伤害的暴力内容。

当监视OpenAI API的输入和输出时，审核endpoint是免费使用的。

我们目前不支持监视第三方流量。

我们一直在努力提高我们的分类器的准确性，特别是在改进对hate、self-harm和violence/graphic内容的分类方面。

我们对非英语语言的支持目前还有限。

快速起步 (Quickstart)

要为文本获取分类，请像以下代码片段演示的那样向moderation endpoint发出请求：

示例：获取审核结果 curl 选择库Python代码示例

curl https://api.openai.com/v1/moderations 
  -X POST 
  -H "Content-Type: application/json" 
  -H "Authorization: Bearer $OPENAI_API_KEY" 
  -d '{"input": "Sample text goes here"}'

它返回以下字段：

flagged: 如果模型将内容分类为违反OpenAI使用政策，则设置为true，否则为false。
categories: 包含每个类别二进制使用政策违规标志的字典。对于每个类别，如果模型将相应的类别标记为违规，则值为true，否则为false。
category_scores: 包含模型输出的每个类别的原始分数字典，表示模型对输入是否违规，数值反映在该类别的OpenAI政策的信心度。该值在0和1之间，数值越大表示可信度越高。分数不应被解释为概率。

{
 "id": "modr-XXXXX",
 "model": "text-moderation-001",
 "results": [(
    {
 "categories": {
 "hate": false,
 "hate/threatening": false,
 "self-harm": false,
 "sexual": false,
 "sexual/minors": false,
 "violence": false,
 "violence/graphic": false
      },
 "category_scores": {
 "hate": 0.18805529177188873,
 "hate/threatening": 0.0001250059431185946,
 "self-harm": 0.0003706029092427343,
 "sexual": 0.0008735615410842001,
 "sexual/minors": 0.0007470346172340214,
 "violence": 0.0041268812492489815,
 "violence/graphic": 0.00023186142789199948
      },
 "flagged": false
    }
  )]
}

OpenAI将持续升级审核基础模型。因此，依赖于category_scores的自定义策略可能需要随着时间的推移进行重新校准。

语音转文字指南(Speech-to-Text Guide)速率限制(Rate Limits)