智助通

Token 用量计算

大白话讲透 AI 里的 Token:从新手到高手都能用明白

Token 用量计算

很多人看 AI 相关的理论头大,其实不用死记硬背,咱们直接从实际用的角度说 —— Token 就是 AI 处理文字的「基本单位」,搞懂它怎么算、怎么回事,用 AI 拿结果才更顺手。

Token 是什么?

官方说,AI 处理文本都是以 Token 为最小单位,它是常见的字符组合:

  • 生僻字:如「夔」可能拆成好几个 Token
  • 常用词:如「中国」就是 1 个 Token

Deepseek 平台对 Token 的定义更直观:Token 是模型用来表示自然语言文本的基本单位,也是计费单元,可以直观理解为「字」或「词」;通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号 计为 1 个 Token。

换算比例(参考)

不同模型有差异,以下为常见参考:

  • 1 个英文字符 ≈ 0.3 个 Token
  • 1 个中文字符 ≈ 0.6 个 Token
  • 中文也可按 1 个 Token ≈ 1.5–2 个汉字估算

重要:因不同模型分词逻辑不同,实际用量以模型返回的 usage 字段为准,您可从返回结果中查看。

为什么换算不是固定值?

  • 英文:有空格,单词天然分开,如 "I love AI" 可直接分成 3 个 Token,较省事
  • 中文:无空格,按「意思块」分:单字「我」「好」各 1 个 Token,双字词「喜欢」「女友」各 1 个 Token,成语「马到成功」也可算 1 个 Token,故 Token 与汉字换算会有浮动

实际使用时 Token 怎么算?

和 AI 聊天、发指令时,Token 消耗分两部分:您输入的文字 + AI 回复的文字,两者相加即为本次对话的总 Token 数。

示例

  • 您问:「明天会议几点开始?」(按中文词语拆分,约 5 个 Token)
  • AI 回:「会议定在上午 9 点开始」(约 6 个 Token)
  • 本次对话共消耗:5 + 6 = 11 个 Token

同一页面的累计规则

同一对话页面的所有轮次(前面内容不变的前提下),Token 会累加

  • 若在该页面与 AI 对话 100 次,这 100 次的「输入 + 输出」总和才是总消耗
  • 不会对同一段内容重复计费

离线计算 Token 用量

您可以通过项目提供的压缩包中的代码运行 tokenizer,离线计算一段文本的 Token 用量,便于提前预估。

上下文是什么?

上下文 不是「整个页面所有对话」的简单堆砌,而是 AI 处理问题时能「记住」的信息范围,包括:

  • 您之前的提问
  • 您发送的文档
  • 对话历史

就像和朋友聊天:您说「今天天气好」,朋友接「适合出去走走」,这就是基于上下文回应;若朋友突然说「昨天披萨好吃」而前面没提过,就显得突兀。AI 同样依赖上下文理解需求,例如您问「余华最后一本书啥时候出的」,它需要结合之前关于余华作品的讨论才能给出准确答案。

小结

  • Token 是 AI 处理文本的基本单位,也是计费核心
  • 中文/英文与 Token 的换算比例不固定,实际用量以模型返回的 usage 为准
  • 单次对话消耗 = 输入 Token + 输出 Token;同页面多轮对话会累加
  • 上下文是模型「能记住」的信息范围,用于理解您的连续需求

本页目录