Token 是什么？

2023-12-17 23:41| 来源: 网络整理| 查看: 265

中文：「词元」ChatGPT 每个 Token 到底能写几个字？

在语言模型中，每一个token约可以写1个英文字；中文则只能写0.5个字，这些字数会根据不同的文案而变动。根据《OpenAI》的建议，可以把每个token看成i个带有4哥字幕的ing问单子，每个token约可以写出75字的英文文章。

ChatGPT每次能写几个字？

GPT-3语言模型：每词输出最高上限为2049个token，大约可以写出1000字的中文文章、1720字的英文文章

GPT-4语言模型：每词输出最高上限为32768个token,约是16056个中文字、25000个英文字

为什么每个词元（token)写出来的字数不固定？

因为每个中文字或英文字所消耗token（词元）数量不一样，而标点符号、空白键，甚至换行等，，都代表不同的token数目。

比如说“你好吗？“是3个中文字，但使用了7个token

而“我很好”一样也是个中文字，但是用的token数为6个

怎么训练

简单模型就是把一句话切成一个个词，然后统计概率，这类模型叫做Ngram语言模型，是最简单的语言模型，这里的N表示每次用到的上下文长度。还是举个例子，看下面这句话：「我喜欢在深夜的星空下伴随着月亮轻轻地想你」。常用的N=2或3，等于2的叫Bi-Gram，等于3的叫Tri-Gram：

Bi-Gram：我/喜欢喜欢/在在/深夜深夜/的的/星空星空/下……Tri-Gram：我/喜欢/在喜欢/在/深夜在/深夜/的深夜/的/星空的/星空/下……

前者下一个词是根据上一个词来的，后者是根据上两个词来的，就是这个区别。这里有个小知识需要说明一下，实际中我们往往不叫一个词为「词」，而是「Token」，你可以将其理解为一小块，可以是一个字，也可以是两个字的词，或三个字的词，取决于你怎么Token化。也就是说，给定一个句子时，我有多种Token化方式，可以分词，也可以分字，英文现在都是分子词。比如单词Elvégezhetitek，Token化后变成了：

['El', '##vé', '##ge', '##zhet', '##ite', '##k']

中文现在基本都是字+词的方式。我们不直接解释为啥这么做，但是可以想一下完全的字或词的效果，拿英文举例更直观。如果只是用26个英文字母，虽然词表很小（加上各种符号可能就100来个），但粒度太细，每个Token几乎完全没法表示语义；如果用词，这个粒度又有点太大，尤其英文还有不同时态，其实它们意思差不多，只是后面不一样。所以子词就应运而生——它把一个词拆成一定大小的语义单位，每个单位既可以表示一定含义，又能灵活组合。中文稍微简单一些，就是字+词，字就是一个字能独立表示意义，比如「是」、「有」、「爱」；词是这个词拆开就不太对劲了，比如「长城」、「情比金坚」。当然，中文你非要搞成一个一个字也不是不可以。我们主要还是从效果上来看。

【本文地址】

公司简介

联系我们