tokenizeBert

语法

tokenizeBert(text, vocabName, [addSpecialTokens=true])

参数

text LITERAL 类型标量,待分词的字符串。

vocabName 字符串标量,指定用于分词的词库。

addSpecialTokens 可选参数,布尔值,表示是否要在文本的首尾添加特殊 token。目前仅支持在开头加入 [CLS],在结尾加入 [SEP]。默认为 true。

详情

应用指定词库对输入文本 text 进行分词。本函数使用 WordPiece 分词算法,适用于 BERT(Bidirectional Encoder Representations from Transformers) 模型。

返回值:一个表,包含以下三列:

  • tokens: 分词后的 token 列表。

  • input_ids: 对应的 token ID 列表。

  • attention_mask: 目前仅返回值为 1 的掩码,用于模型输入。

例子

loadVocab("/home/data/vocab.txt", "vocab1")
tokenizeBert("apple ```\n—— abcd1234", "vocab1", true)

相关函数:loadVocab, unloadVocab