内容审核(Moderation)
概览(Overview)
moderation endpoint
是一个工具,您可以使用它来检查内容是否符合OpenAI的使用政策。开发人员可以因此识别违反我们使用政策的内容并采取行动,例如过滤掉。
模型将以下类别归类:
类别 | 描述 |
---|---|
hate | 根据种族、性别、种族、宗教、国籍、性取向、残疾状况或阶级的内容、煽动或促进仇恨的表达。 |
hate/threatening | 包括针对特定群体的暴力或严重伤害的仇恨内容。 |
self-harm | 促进、鼓励或描绘自我伤害行为,例如自杀、自伤行为和饮食障碍。 |
sexual | 旨在引起性兴奋的内容,例如性行为的描述,或者促进性服务的内容(不包括性教育和健康)。 |
sexual/minors | 包括未满18岁的个人的性内容。 |
violence | 促进或美化暴力或庆祝其他人的痛苦或羞辱的内容。 |
violence/graphic | 以极度详细的形式描绘死亡、暴力或严重实体伤害的暴力内容。 |
当监视OpenAI API的输入和输出时,审核endpoint是免费使用的。
我们目前不支持监视第三方流量。
我们一直在努力提高我们的分类器的准确性,特别是在改进对hate
、self-harm
和violence/graphic
内容的分类方面。
我们对非英语语言的支持目前还有限。
快速起步 (Quickstart)
要为文本获取分类,请像以下代码片段演示的那样向moderation endpoint发出请求:
示例:获取审核结果 curl 选择库Python代码示例
curl https://api.openai.com/v1/moderations
-X POST
-H "Content-Type: application/json"
-H "Authorization: Bearer $OPENAI_API_KEY"
-d '{"input": "Sample text goes here"}'
它返回以下字段:
flagged
: 如果模型将内容分类为违反OpenAI使用政策,则设置为true
,否则为false
。categories
: 包含每个类别二进制使用政策违规标志的字典。对于每个类别,如果模型将相应的类别标记为违规,则值为true
,否则为false
。category_scores
: 包含模型输出的每个类别的原始分数字典,表示模型对输入是否违规,数值反映在该类别的OpenAI政策的信心度。该值在0和1之间,数值越大表示可信度越高。分数不应被解释为概率。
{
"id": "modr-XXXXX",
"model": "text-moderation-001",
"results": [(
{
"categories": {
"hate": false,
"hate/threatening": false,
"self-harm": false,
"sexual": false,
"sexual/minors": false,
"violence": false,
"violence/graphic": false
},
"category_scores": {
"hate": 0.18805529177188873,
"hate/threatening": 0.0001250059431185946,
"self-harm": 0.0003706029092427343,
"sexual": 0.0008735615410842001,
"sexual/minors": 0.0007470346172340214,
"violence": 0.0041268812492489815,
"violence/graphic": 0.00023186142789199948
},
"flagged": false
}
)]
}
OpenAI将持续升级审核基础模型。因此,依赖于category_scores
的自定义策略可能需要随着时间的推移进行重新校准。