毫升 | JURASSIC-1 – 语言模型

Jurassic-1是最新和最先进的“语言模型” ，由以色列的 AI21 Labs 开发。 “Jurassic-1”是几个自回归自然语言处理 (NLP) 模型的名称。该模型是为与 OpenAI 的 GPT-3 竞争而开发的，由 J1 Jumbo 和 J1 Large 组成。该模型打破了多项记录。不仅在 Jumbo 的大小（1780 亿个参数）方面，而且在它的覆盖范围和人们的可用性方面。这是将向开发人员和研究人员提供的所有语言模型中的第一个。

这种未来主义的模型，以将机器作为人类的思想伙伴的想法引入，承诺执行各种语言和操作任务。不仅如此，它还允许用户构建自己的应用程序和服务。它的一些最酷的功能如下所述。

文本摘要或简化： Jurassic-1 在将任何给定长度的文本缩减为仅包含相关信息的较短文本方面做得非常出色。此功能可用于制作会议纪要、捕捉长邮件/文本的要点、判断评论或反馈是正面还是负面等。
分类：该模型专门根据标签或类别对文本进行分类。这种分类不仅限于二进制分类。分类的一个主要用例是情感分析。
世界知识和创造力：该模型经过海量数据的训练，因此它能够熟练地回答问题、提出建议和消除疑虑。不仅如此，这个模型非常有创意，它能够自己写文章。它也很幽默，虽然人工智能很难掌握这些东西。它如此聪明和富有创造力的能力在文案、构思、营销和制作交互式聊天机器人等领域都有应用。

它的更多功能包括将程序和代码从一种编程语言翻译成另一种编程语言、仅基于文本命令生成代码、提取信息和格式化。它可以写一首歌或说唱的歌词，沉迷于字谜游戏，和你下棋。

为了存储大约 1780 亿个参数，Jurassic-1 需要 356 GB 以上的半精度内存。因为即使是最好的 GPU 的内存也仅限于大约 80 GB 的内存，所以它是使用多个节点进行训练的。该模型已经使用来自公开来源的 3000 亿个标记（标记是通过拆分大文本以使其被 NLP 理解而产生的一小部分文本）进行训练。换句话说，该模型几乎刮掉了所有公开可用的资源。这一事实使该模型成为无所不知的。

该模型在以下方面与其前身 GPT-3 不同。 GPT-3 具有 1750 亿个参数的容量，使其成为第二大语言模型。大约 250,000 个唯一标记（其中一个标记可以表示一个单词或一个单词片段）已用于训练 Jurassic-1，而 GPT-3 仅使用大约 50,000 个唯一标记进行了训练。这使得 Jurassic-1 的处理效率更高，因为它的每字节令牌 (TPB) 比率更小，这意味着与 GPT-3 中的表示相比，Jurassic-1 中的相同文本可以用更少的令牌表示。如果假设 GPT-3 和 Jurassic-1 具有相同的架构，这会将 Jurassic-1 的查询处理速度提高 1.4 倍。但问题是 Jurassic-1 的架构不同，因为其神经网络的深度/宽度比不同。其架构比较如表1所示。考虑到 Jurassic-1 的不同架构和词汇训练，它将查询处理速度提高了 1.8 倍。由于提高了计算效率，与 GPT-3 相比，Jurassic-1 在少样本学习设置中可以包含更多示例。 Jurassic-1 的另一个非常特殊的功能是它允许其用户通过提供很少的示例（正确映射/回答的数据集）来自定义训练模型。制造商声称，给它大约 50-100 个例子应该足以让模型给出相当准确的结果。尽管提供的示例数量越多，其准确性就越高，这始终是事实。与 GPT-3 相比，这也允许用户将其用作聊天机器人。

表 1：GPT-3 和 Jurassic-1 的架构比较

n _params : 模型中的参数数量
n_层：模型中的层数
d _model : 每个瓶颈模型中的单元数
d _head ：注意力头的维度
n _head : 注意头的数量
n _vocab : 训练中使用的唯一标记数

AI21 目前处于公开测试阶段，因此，任何人和每个人都可以尝试 Jurassic-1。去实验。

参考：

Jurassic-1 的技术论文及其后续博客文章
表一来源：侏罗纪一号技术论文