介绍

本文主要向用户介绍鲲鹏服务器上Tokenizers的安装和验证方法。

Tokenizers通过彻底规避Python GIL限制并原生支持多线程并行处理批量文本，在服务器CPU上可达到 20 秒内完成1GB文本分词的吞吐性能，广泛应用于大模型推理预处理与自定义词表训练场景。基于鲲鹏服务器部署Tokenizers，其Rust核心与Python绑定的架构在ARM64平台上支持直接安装运行（官方PyPI已提供AArch64预编译wheels），能充分利用鲲鹏处理器多核并行架构实现批量文本的线性加速分词。

父主题： 安装指南