审核open in new window

概述

审核open in new window端点是一个工具,您可以使用它来检查内容是否符合OpenAI的使用政策open in new window。因此,开发人员可以识别违反我们使用政策的内容,并采取行动,例如进行过滤。

该模型对以下类别进行分类:

类别描述
hate(仇恨)基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓而表达、煽动或促进仇恨的内容。
hate/threatening(仇恨/威胁)对目标群体还包括暴力或严重伤害的仇恨内容。
self-harm(自我伤害)提倡、鼓励或描绘自我伤害行为的内容,如自杀、切割和饮食失调。
sexual(性)旨在引起性兴奋的内容,如对性活动的描述,或促进性服务的内容(不包括性教育和健康)。
sexual/minors(性/未成年人)包括未满18岁的人的性内容。
violence(暴力)宣扬或美化暴力或赞美他人痛苦或羞辱的内容。
violence/graphic(暴力/图画)以极端图画方式描述死亡、暴力或严重身体伤害的暴力内容。

在监控OpenAI API的输入和输出时,审核端点可以免费使用。我们目前不支持对第三方流量的监控。

TIP

我们正在不断努力提高我们分类器的准确性,尤其是努力提高仇恨、自残和暴力/图片内容的分类。我们对非英语语言的支持目前是有限的。

快速开始

要获得一段文本的分类,请向审核端点open in new window提出请求,如以下代码片断所示:

Python:

response = openai.Moderation.create(
    input="Sample text goes here"
)
output = response["results"][0]
1
2
3
4

cUrl:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Sample text goes here"}'
1
2
3
4
5

下面是一个端点的输出示例。它返回以下字段:

  • flagged:如果模型将内容分类为违反OpenAI的使用政策,则设置为true,否则为false
  • categories:包含一个每个类别的二进制使用政策违规标志的字典。对于每个类别,如果模型将相应的类别标记为违规,则值为true,否则为false
  • category_scores:包含模型输出的每个类别原始分数的字典,表示模型对输入违反OpenAI对该类别的策略的信心。数值在0到1之间,数值越高表示信心越大。分数不应该被解释为概率。
{
  "id": "modr-XXXXX",
  "model": "text-moderation-001",
  "results": [
    {
      "categories": {
        "hate": false,
        "hate/threatening": false,
        "self-harm": false,
        "sexual": false,
        "sexual/minors": false,
        "violence": false,
        "violence/graphic": false
      },
      "category_scores": {
        "hate": 0.18805529177188873,
        "hate/threatening": 0.0001250059431185946,
        "self-harm": 0.0003706029092427343,
        "sexual": 0.0008735615410842001,
        "sexual/minors": 0.0007470346172340214,
        "violence": 0.0041268812492489815,
        "violence/graphic": 0.00023186142789199948
      },
      "flagged": false
    }
  ]
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

TIP

OpenAI将持续升级审核端点的基础模型。因此,依赖category_scores的自定义策略可能需要随着时间的推移重新校准。

Last Updated:
Contributors: lanheixingkong