OpenAI 能做什么
文本对话
也即目前大家所知的 ChatGPT。目前支持文本对话,将来可能支持图片输入与输出。
文本补全
它可以完成各种任务,比如基于上下文语境进行文本补全、文本归类、文本生成、对话、翻译、文本转换(比如文字转emoji表情)、模拟语气、总结、纠错、修改润色文本等等。
代码补全
它可以将注释转化成代码;根据上下文补完函数;帮你找到合适的三方库或合适的API调用;重构代码;添加注释等等。
对话补全
它可以起草邮件、文章;根据一系列文档回答问题;给软件提供自然语言界面;模拟身份(游戏身份、对话身份、各种角色)
图像生成
它可以根据文本提示生成图片;根据原图与文本提示生成新图片;根据原图生产有差异化的图片。测试地址:传送门
模型调优
支持训练自定义模型。但目前底模只支持 OpenAI 提供的 davinci
、curie
、babbage
和ada
模型。这几个模型是文字处理模型。给定一些预输入与预输入的训练数据,交给对应的模型,即可生成自定义的模型。
嵌入
它可以对多个文本进行比对,并将人类的自然语言和文本转换成一个浮点型的向量。向量之间的距离代表了它们的关系。
语音转文字
它可以将语音转成录制语音时使用的文字;也可以将语音进行翻译,但目前翻译功能只支持英语。它也支持使用提示词,以让翻译更精准。
几个概念
Prompt
提示词。自然语言提示词可以是一些示例、一些词组,或者是一些说明。
Token
令牌,每个模型都有自己可接收的最大令牌数。计费的依据。输入与输出都要计算令牌,每个令牌大约是 4
个英文字母或 0.75
个英文单词。2048 个令牌大约是 1500 个单词。Tokennizer 可以帮助查询输入或输出的令牌数。
Temperature
温度,通过调节这个值,可以让 AI 给出的回答从『更具有确定性』到『更具有创造性』之间进行调整。
模型
OpenAI 提供不同的模型来完成不同的任务。
gpt-4
目前支持文字处理,将来会支持图片处理。最大支持 8192 tokens,训练数据到 2021 年 9 月。
模型 | 功能 | 数据集 |
---|---|---|
gpt-4 | 文字处理 | 2021年9月 |
gpt-4-32k | 文字处理 | 2021年9月 |
gpt-3.5
模型 | 功能 | 数据集 |
---|---|---|
gpt-3.5-turbo | 文字处理 | 2021年9月 |
text-davinci-003 | 文字处理 | 2021年6月 |
text-davinci-003 | 文字处理 | 2021年6月 |
code-davinci-002 | 代码处理 | 2021年6月 |
ChatGPT 就是基于 gpt-3.5-turbo
模型运作的,并且针对对话功能做了调优。
gpt-3
模型 | 功能 | 数据集 |
---|---|---|
text-curie-001 | 文字处理 | 2021年10月 |
text-babbage-001 | 文字处理 | 2019年10月 |
text-ada-001 | 文字处理 | 2019年10月 |
davinci | 文字处理,质量最高 | 2019年10月 |
curie | 文字处理 | 2019年10月 |
babbage | 文字处理 | 2019年10月 |
ada | 文字处理,速度最快 | 2019年10月 |
DALL·E
可以根据自然语言输出图片;可以编辑一张图片;可以根据用户提供的图片产生有差异化的图片。
Whisper
音频处理,支持多种语言的识别、翻译、文本提取
Embeddings
处理文本,主要功能是衡量两段文本之间的相关性。在搜索、聚类分析、推荐、异常检测、分类的工作时比较有用。
- 搜索:根据语言描述,从指定文本中按相关度提取结果并排序
- 聚类:根据相似度将多个文本分组
- 推荐:多个文本中哪个更推荐使用
- 异常检测:检测多个文本中相似度最低的部分,也即『异常』的部分
- 多样性检测:检测相似性分布并分析
- 分类:文本按其最相似的标签分类
其处理结果是一些浮点数,数字越小相关似越大;反之亦然。
Codex
代码处理。适用于将自然语言制作成代码。也支持代码补全、查错、编辑。支持Python, JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript, SQL, Shell。最大支持 8001 tokens,训练数据到 2021 年 6 月。
模型 | 功能 | 数据集 |
---|---|---|
code-davinci-002 | 代码处理 | 2021年6月 |
code-cushman-001 | 代码处理 | 2021年6月 |
text-moderation-latest
政策查询,用于查询文本内容是否符合 OpenAI 的使用政策。
收费
GPT-4
模型 | 输入 | 输出 |
---|---|---|
8K | $0.03 / 1K tokens | $0.06 / 1K tokens |
32K | $0.06 / 1K tokens | $0.12 / 1K tokens |
Chat
模型 | 用量 |
---|---|
gpt-3.5-turbo | $0.002 / 1K tokens |
InstructGPT
模型 | 用量 |
---|---|
Ada(最快) | $0.0004 / 1K tokens |
Babbage | $0.0005 / 1K tokens |
Curie | $0.0020 / 1K tokens |
Davinci(最强) | $0.0200 / 1K tokens |
训练
模型 | 训练 | 用量 |
---|---|---|
Ada | $0.0004 / 1K tokens | $0.0016 / 1K tokens |
Babbage | $0.0006 / 1K tokens | $0.0024 / 1K tokens |
Curie | $0.0030 / 1K tokens | $0.0120 / 1K tokens |
Davinci | $0.0300 / 1K tokens | $0.1200 / 1K tokens |
嵌入
模型 | 用量 |
---|---|
Ada | $0.0004 / 1K tokens |
图像
分辨率 | 价格 |
---|---|
1024×1024 | $0.020 / image |
512×512 | $0.018 / image |
256×256 | $0.016 / image |
语音转文字
模型 | 用量 |
---|---|
Whisper | $0.006 / 分钟 |
官网给出的一些例子
- 提问与回答
- 语法纠错
- 文本精简
- 使用自然语言生成调用 OpenAI API 的代码
- 将文本翻译为编程指令
- 翻译
- 使用自然语言生成调用 Stripe API 的代码(Stripe是全球最大的三方收付款平台)
- 将自然语言翻译为 SQL 查询命令
- 从文本中提取结构化数据并生成表格
- 给一堆文本进行分类
- 将代码解释为自然语言
- 文本转为 emoji
- 给定一段代码,计算时间复杂度
- 将一种代码的语言翻译为另一种(比如 Python to JS)
- 文本情绪分析
- 从文本中提取关键词
- 从产品描述中生成广告词
- 给定一些产品名字,生成新的产品名字
- 文本换行分段
- 代码查找 BUG
- 编写科幻小说
- 从一段文本中提取联系人信息
- 给情绪生成一个颜色
- 给代码写注释
- 做类比
- 编写迷你恐怖小说
- 人称转换
- 总结会议纪要
- 给论文编写题纲
- 食谱
- 聊天,甚至模拟语气
局限性
- GPT 更多的是进行文字与代码处理,如要进行数据分析,需要训练模型或生成代码自行运算,示例
- 图片处理只能基于方形图,且对于真人的生成并不理想;未找到批量输入图片的入口。