tokenizeBert
语法
tokenizeBert(text, vocabName, [addSpecialTokens=true])
参数
text LITERAL 类型标量,待分词的字符串。
vocabName 字符串标量,指定用于分词的词库。
addSpecialTokens 可选参数,布尔值,表示是否要在文本的首尾添加特殊 token。目前仅支持在开头加入
[CLS]
,在结尾加入 [SEP]
。默认为 true。
详情
应用指定词库对输入文本 text 进行分词。本函数使用 WordPiece 分词算法,适用于 BERT(Bidirectional Encoder Representations from Transformers) 模型。
返回值:一个表,包含以下三列:
-
tokens: 分词后的 token 列表。
-
input_ids: 对应的 token ID 列表。
-
attention_mask: 目前仅返回值为 1 的掩码,用于模型输入。
例子
loadVocab("/home/data/vocab.txt", "vocab1")
tokenizeBert("apple ```\n—— abcd1234", "vocab1", true)
相关函数:loadVocab, unloadVocab