主页
函数参考
DolphinDB 函数分类、语法、详解及示例
函数一览
T
tokenizeBert

关于DolphinDB
快速上手
如何快速部署 DolphinDB、建库建表、写入和查询数据
部署
如何在不同的场景中部署 DolphinDB
数据库
DolphinDB 数据库的基本概念
流数据
DolphinDB 流数据引擎及流数据计算的基本概念
数据迁移
如何从不同数据源向 DolphinDB 迁移数据
系统运维
DolphinDB 的系统运维功能及方法
故障排查
编程语言
DolphinDB 编程基本概念与方法、SQL 在 DolphinDB 的应用
函数参考
DolphinDB 函数分类、语法、详解及示例
连接器 & API
面向不同编程语言的 DolphinDB API 及连接器，相关协议和用法
插件
多个应用场景的插件使用说明和插件开发指导
第三方工具
教程
DolphinDB 产品使用教程
版本说明
DolphinDB 版本发布历史

tokenizeBert

语法

tokenizeBert(text, vocabName, [addSpecialTokens=true])

参数

text LITERAL 类型标量，待分词的字符串。

vocabName 字符串标量，指定用于分词的词库。

addSpecialTokens 可选参数，布尔值，表示是否要在文本的首尾添加特殊 token。目前仅支持在开头加入 [CLS]，在结尾加入 [SEP]。默认为 true。

详情

应用指定词库对输入文本 text 进行分词。本函数使用 WordPiece 分词算法，适用于 BERT（Bidirectional Encoder Representations from Transformers）模型。

返回值：一个表，包含以下三列：

tokens: 分词后的 token 列表。
input_ids: 对应的 token ID 列表。
attention_mask: 目前仅返回值为 1 的掩码，用于模型输入。

例子

loadVocab("/home/data/vocab.txt", "vocab1")
tokenizeBert("apple ```\n—— abcd1234", "vocab1", true)

相关函数：loadVocab, unloadVocab