Token 作为人工智能大模型时代最核心的基础概念之一,其在中文语境中的定名过程跨越了半个多世纪,经历了从学术术语到大众热词、从多译混战到官方统一的漫长演变。这一过程不仅是简单的语言转换,更是技术概念本土化、中国 AI 话语体系构建的重要里程碑。

一、术语起源与早期译法混乱阶段(1906-2017 年)
1. 英文术语的跨学科起源
Token 一词源于古英语tācen,本义为 "符号、标记、信物"。其作为学术概念的正式确立可追溯至 1906 年,美国逻辑学家、符号学创始人查尔斯・桑德斯・皮尔士在其符号学理论体系中提出了 Type(类型)/Token(实例) 二分法:Type 是抽象的、规约性的符号原型,Token 则是 Type 在具体场景中的物理实现与个体实例。
这一术语对随后被结构主义语言学吸纳,与索绪尔的 "语言(Langue)/ 言语(Parole)" 二分体系高度契合,成为理论语言学分析语言符号的核心工具。
2. 进入计算机科学领域
20 世纪中期,随着机器翻译和语料库语言学的兴起,Token 正式进入计算语言学领域,成为文本处理与计量的基础单位。几乎同时,在编译原理领域,Token 被定义为 "词法分析阶段输出的基本语义单元",即源代码被切分后的最小有意义片段。
3. 国内早期译法的碎片化状态
在 2017 年之前,Token 在中文技术语境中长期处于语义漂泊状态,不同领域形成了各自独立的译法体系:
编译原理领域:多译为 "标记" 或 "词法单元"
计算语言学领域:交替使用 "标记"、"符号"、"词例"、"字例" 等译法
网络安全领域:统一译为 "令牌"(如 Session Token、Access Token)
区块链领域:译为 "代币" 或 "通证"
这种领域割裂的译法状态导致了严重的概念混淆,同一个英文单词在不同语境下含义迥异,给跨学科交流和技术普及带来了极大障碍。
二、学术界初步采用 "词元" 阶段(2017-2023 年)
1. 官方学术规范的早期确立
早在 2018 年,全国科学技术名词审定委员会在《计算机科学技术名词(第三版)》中,就已经将自然语言处理 / 计算语言学场景下的 Token 正式审定为 "词元"。这一规范虽然在学术界内部得到了一定程度的认可,但由于当时大模型尚未普及,这一术语并未进入大众视野。
2. 邱锡鹏教授的关键推动作用
"词元" 译法在中文 AI 社区的广泛传播,与复旦大学邱锡鹏教授的《神经网络与深度学习》一书密不可分:
2015 年 12 月,邱锡鹏教授完成了国内最早的深度学习开源电子版教材《神经网络与深度学习》
2017-2020 年期间,该书在自然语言处理相关章节中系统采用了 "词元(token)"、"词元化(tokenization)" 等表述
2020 年 3 月,该书正式出版,成为国内高校计算机专业最主流的深度学习教材之一,发行量超过百万册
邱锡鹏教授选择 "词元" 这一译法的核心理由是:"词" 点明了其源于文本、承载语义的属性;"元" 则凸显了其作为最小、不可再分的基本处理单元的本质。这一译法既保留了语言学本源,又适配了工程场景的技术内涵。
3. 学术界的逐步认同
随着《神经网络与深度学习》的广泛传播,"词元" 译法逐渐被国内学术界接受。ACL、EMNLP 等国际顶会的中文译稿、国内高校计算语言学专业教材以及中国计算机学会的学术文档,都开始逐步统一采用 "词元" 译法。
三、大模型时代的广泛传播与争议阶段(2023-2025 年)
1. 从学术术语到大众热词
2023 年被称为 "大模型元年",随着 ChatGPT 等生成式 AI 产品的爆发式普及,Token 迅速从专业技术圈层破圈,成为社会大众耳熟能详的热词。它不仅是大模型处理信息的最小单位,更是 AI 接口计费、上下文长度限制以及模型能力衡量的核心计量单位。
国家数据局数据显示,2024 年初中国日均 Token 调用量为 1000 亿;至 2025 年底跃升至 100 万亿;2026 年 3 月已突破 140 万亿,两年增长超千倍。如此惊人的增长速度使得一个统一、准确、易于理解的中文译名变得迫在眉睫。
2. 译名混战的全面爆发
大模型的普及也引发了一场关于 Token 中文译名的激烈争论,各种新的候选名称层出不穷,形成了多个观点鲜明的派别:
这场争论不仅涉及语言学问题,更关乎 AI 时代的 "命名权" 与 "认知锚点",不同派别背后反映了学术界、工程界、商业界对技术定位的不同理解。
3. 术语混乱带来的实际问题
译名的混乱给 AI 产业发展带来了诸多实际问题:
行业沟通成本高昂:不同公司、不同团队使用不同译法,导致技术交流中频繁出现误解
产业统计困难:缺乏统一术语使得行业数据统计和政策制定难以准确进行
大众认知障碍:普通用户面对 "代币"、"令牌"、"智元" 等多种说法,难以理解大模型的基本运行原理
国际交流障碍:不统一的中文译名不利于中国 AI 技术与国际接轨
四、官方正式确立阶段(2025-2026 年)
1. 快速审定流程的启动
针对社会各界对 Token 统一译名的迫切需求,全国科学技术名词审定委员会责成第四届计算机科学技术名词审定委员会启动了科技新词快速审定发布流程。这一流程打破了传统科技名词审定需要数年时间的惯例,体现了对 AI 产业快速发展的响应速度。
审定过程遵循了单义性、科学性、简明性、协调性等科技名词审定基本原则,组织召开了多轮专家审定会议,广泛征集了学术界、产业界和社会各界的意见建议。
2. 官方定名的正式发布
2026 年 3 月 23 日,在中国发展高层论坛 2026 年年会上,国家数据局局长刘烈宏在演讲中正式宣布:人工智能领域的核心术语 "Token",其标准中文译名定为 "词元"。在这次演讲中,刘烈宏局长同时披露了中国日均词元调用量已突破 140 万亿的惊人数据,使得这一定名获得了极高的社会关注度。
2026 年 3 月 25 日,全国科学技术名词审定委员会正式发布《关于发布试用人工智能领域名词 token 中文名 "词元" 的公告》,面向全社会发布试用。公告明确指出:"词元(token)是人工智能时代智能设备中信息存储、处理和交换的具有一定语义的基本符号单元,特别是在人工智能大模型中作为模型处理和交换信息的最小单位。"
2026 年 3 月 30 日,《人民日报》发布了题为《专家解读 token 中文名为何定为 "词元"》的文章,对这一定名从专业角度进行了系统阐释,进一步巩固了 "词元" 作为标准译名的地位。
3. "词元" 定名的核心理由
全国科学技术名词审定委员会最终选择 "词元" 作为标准译名,主要基于以下几个方面的考虑:
准确捕捉技术本质:"词" 点明了其在语言场景下的根源,体现了 Token 与表达对象语义的密切关联;"元" 传达了 "基本单元" 之意,与 "元素"、"原子" 等术语中的 "元" 保持一致的语义脉络。
兼顾多模态扩展:虽然 "词" 源于文本场景,但通过类比思维可以自然延伸至多模态领域。正如 "词云"、"词袋" 等术语已超越了纯文本范畴一样,"词元" 也可以用来指代图像、语音等其他模态的离散基本单元。
具备广泛使用基础:"词元" 译法在国内学术界已经有近十年的使用历史,被大量教材、学术文献和技术文档采用,具备良好的用户基础和认知度。
避免领域歧义:"词元" 专门划定了该术语在人工智能 / 自然语言处理场景的专属含义,与网络安全领域的 "令牌"、区块链领域的 "代币" 形成了清晰的术语边界,有效避免了概念混淆。
符合中文表达习惯:"词元" 是简洁的二字词,符合中文科技术语的命名偏好,易于发音、记忆和传播。
五、"词元" 定名的意义与影响
"词元" 作为 Token 的标准中文译名的确立,具有远超简单术语翻译的深远意义:
终结了术语混乱局面:为学术界、产业界和社会大众提供了统一的沟通语言,大幅降低了交流成本,为 AI 产业的健康发展奠定了基础。
推动了 AI 技术普及:"词元" 这一译名通俗易懂,能够帮助普通大众更好地理解大模型的基本运行原理,消除 AI 技术的神秘感。
构建了中国 AI 话语体系:这是中国首次为 AI 时代的核心基础概念赋予本土化的标准名称,标志着中国在 AI 技术话语体系建设方面迈出了重要一步。
促进了国际交流合作:统一的中文译名有利于中国 AI 技术与国际接轨,提升中国在全球 AI 治理中的话语权。
为后续术语规范化提供了范例:"词元" 的快速审定流程为其他 AI 领域新兴术语的规范化工作提供了可借鉴的模式。

结语
从 1906 年皮尔士提出 Type-Token 二分法,到 2026 年 "词元" 作为标准中文译名正式确立,这一跨越 120 年的术语演变史,见证了人类从符号学理论到人工智能实践的伟大进步。"词元" 这一译名不仅准确捕捉了 Token 的技术本质,更承载了中国 AI 产业对技术本土化、话语体系自主化的追求。
随着大模型从文本走向多模态、从模型能力走向 Agent 系统,"词元" 所对应的概念内涵也将不断丰富和扩展。但无论技术如何发展,"词元" 作为人工智能时代信息基本单元的核心地位不会改变,它将继续作为中国 AI 话语体系的基石,见证中国人工智能产业的蓬勃发展。