Token 是什么? 您所在的位置:网站首页 一个字几个意思 Token 是什么?

Token 是什么?

2023-12-17 23:41| 来源: 网络整理| 查看: 265

中文:「词元」ChatGPT 每个 Token 到底能写几个字?

在语言模型中,每一个token约可以写1个英文字;中文则只能写0.5个字,这些字数会根据不同的文案而变动。根据《OpenAI》的建议,可以把每个token看成i个带有4哥字幕的ing问单子,每个token约可以写出75字的英文文章。

ChatGPT每次能写几个字?

GPT-3语言模型:每词输出最高上限为2049个token,大约可以写出1000字的中文文章、1720字的英文文章

GPT-4语言模型:每词输出最高上限为32768个token,约是16056个中文字、25000个英文字

为什么每个词元(token)写出来的字数不固定?

因为每个中文字或英文字所消耗token(词元)数量不一样,而标点符号、空白键,甚至换行等,,都代表不同的token数目。

比如说“你好吗?“是3个中文字,但使用了7个token

而“我很好”一样也是个中文字,但是用的token数为6个

怎么训练

简单模型就是把一句话切成一个个词,然后统计概率,这类模型叫做Ngram语言模型,是最简单的语言模型,这里的N表示每次用到的上下文长度。还是举个例子,看下面这句话:「我喜欢在深夜的星空下伴随着月亮轻轻地想你」。常用的N=2或3,等于2的叫Bi-Gram,等于3的叫Tri-Gram:

Bi-Gram:我/喜欢 喜欢/在 在/深夜 深夜/的 的/星空 星空/下……Tri-Gram:我/喜欢/在 喜欢/在/深夜 在/深夜/的 深夜/的/星空 的/星空/下……

前者下一个词是根据上一个词来的,后者是根据上两个词来的,就是这个区别。这里有个小知识需要说明一下,实际中我们往往不叫一个词为「词」,而是「Token」,你可以将其理解为一小块,可以是一个字,也可以是两个字的词,或三个字的词,取决于你怎么Token化。也就是说,给定一个句子时,我有多种Token化方式,可以分词,也可以分字,英文现在都是分子词。比如单词Elvégezhetitek,Token化后变成了:

['El', '##vé', '##ge', '##zhet', '##ite', '##k']

中文现在基本都是字+词的方式。我们不直接解释为啥这么做,但是可以想一下完全的字或词的效果,拿英文举例更直观。如果只是用26个英文字母,虽然词表很小(加上各种符号可能就100来个),但粒度太细,每个Token几乎完全没法表示语义;如果用词,这个粒度又有点太大,尤其英文还有不同时态,其实它们意思差不多,只是后面不一样。所以子词就应运而生——它把一个词拆成一定大小的语义单位,每个单位既可以表示一定含义,又能灵活组合。中文稍微简单一些,就是字+词,字就是一个字能独立表示意义,比如「是」、「有」、「爱」;词是这个词拆开就不太对劲了,比如「长城」、「情比金坚」。当然,中文你非要搞成一个一个字也不是不可以。我们主要还是从效果上来看。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有