入门文档(docs)
指南(Guides)
内容监管指南(Moderation Guide)

内容审核(Moderation)

概览(Overview)

moderation endpoint是一个工具,您可以使用它来检查内容是否符合OpenAI的使用政策。开发人员可以因此识别违反我们使用政策的内容并采取行动,例如过滤掉。

模型将以下类别归类:

类别描述
hate根据种族、性别、种族、宗教、国籍、性取向、残疾状况或阶级的内容、煽动或促进仇恨的表达。
hate/threatening包括针对特定群体的暴力或严重伤害的仇恨内容。
self-harm促进、鼓励或描绘自我伤害行为,例如自杀、自伤行为和饮食障碍。
sexual旨在引起性兴奋的内容,例如性行为的描述,或者促进性服务的内容(不包括性教育和健康)。
sexual/minors包括未满18岁的个人的性内容。
violence促进或美化暴力或庆祝其他人的痛苦或羞辱的内容。
violence/graphic以极度详细的形式描绘死亡、暴力或严重实体伤害的暴力内容。

当监视OpenAI API的输入和输出时,审核endpoint是免费使用的。

我们目前不支持监视第三方流量。

我们一直在努力提高我们的分类器的准确性,特别是在改进对hateself-harmviolence/graphic内容的分类方面。

我们对非英语语言的支持目前还有限。

快速起步 (Quickstart)

要为文本获取分类,请像以下代码片段演示的那样向moderation endpoint发出请求:

示例:获取审核结果 curl 选择库Python代码示例

curl https://api.openai.com/v1/moderations 
  -X POST 
  -H "Content-Type: application/json" 
  -H "Authorization: Bearer $OPENAI_API_KEY" 
  -d '{"input": "Sample text goes here"}'

它返回以下字段:

  • flagged: 如果模型将内容分类为违反OpenAI使用政策,则设置为true,否则为false
  • categories: 包含每个类别二进制使用政策违规标志的字典。对于每个类别,如果模型将相应的类别标记为违规,则值为true,否则为false
  • category_scores: 包含模型输出的每个类别的原始分数字典,表示模型对输入是否违规,数值反映在该类别的OpenAI政策的信心度。该值在0和1之间,数值越大表示可信度越高。分数不应被解释为概率。
{
 "id": "modr-XXXXX",
 "model": "text-moderation-001",
 "results": [(
    {
 "categories": {
 "hate": false,
 "hate/threatening": false,
 "self-harm": false,
 "sexual": false,
 "sexual/minors": false,
 "violence": false,
 "violence/graphic": false
      },
 "category_scores": {
 "hate": 0.18805529177188873,
 "hate/threatening": 0.0001250059431185946,
 "self-harm": 0.0003706029092427343,
 "sexual": 0.0008735615410842001,
 "sexual/minors": 0.0007470346172340214,
 "violence": 0.0041268812492489815,
 "violence/graphic": 0.00023186142789199948
      },
 "flagged": false
    }
  )]
}

OpenAI将持续升级审核基础模型。因此,依赖于category_scores的自定义策略可能需要随着时间的推移进行重新校准。