Token

用文言,可减 token 乎?

:用文言,可减 token 乎?

对比了不同模型回答:Sonnet 4.6、Gemini 3.1、ChatGPT 5.4、Kimi 2.5。好像 ChatGPT 5.4 好些。

未必也

文言可省字,然 token 之计,在分词法,不专在字数;故字愈简,未必 token 愈少。——[abmedia]

其故

token 乃文本拆分之单位,可以是整词、单字、子词,乃至标点与空格;是故模型所费,视 tokenizer 如何切分,不可径以篇幅长短定之。

中文在诸多模型中,常近于"一字一 token",而海外模型处理中文时,往往每字可至 1.5 至 2.5 token;则文言虽较白话精炼,所减者或仅字面,不必尽化为 token 之减。

何者较省

若所用者偏英文优化之模型,则英文常较中文省 token;若所用者为中文优化之模型,如通义、文心之类,现代汉语常已近一字一 token,文言未必更优。

故欲真省 token

与其强作文言,毋宁删繁语、去套话、限输出长短,此较为稳当。

模型对比 Sonnet/Gemini/ChatGPT/Kimi
文言 vs 白话 token 消耗
tokenizer 分词原理
中文一字一 token 实测
真正省 token 的方法
正在收听 · 脉息播客
0:00
0:00