中文NLP

中文NLP

中文分词

在谣言监测任务中,分词策略的选择需要结合任务特点和模型类型。以下是针对不同场景的推荐方案:


1. 基于规则/传统机器学习的方法

推荐:词语级分词
工具示例
jieba(中文分词)
LTP(哈工大分词工具)
HanLP(支持多任务)
优势
• 保留完整词语的语义(如"疫苗"、"副作用"等关键词可直接作为特征)
• 适合与TF-IDF、TextRank等传统特征提取方法结合
适用场景
• 基于关键词匹配的快速过滤
• 小规模数据集上的分类模型(如SVM、随机森林)


2. 基于深度学习/预训练模型的方法

推荐:子词切分(Subword Tokenization)
工具示例
BERT Tokenizer(WordPiece)
GPT Tokenizer(BPE)
SentencePiece(通用子词切分)
优势
• 解决未登录词问题(如新造词"奥密克戎"会被自动拆分为子词)
• 兼容多语言混合文本(如中英文混杂的社交媒体内容)
• 更适合Transformer等现代模型架构
适用场景
• 使用BERT、RoBERTa等预训练模型进行语义分析
• 处理网络新词和变体(如"新冠→新guan"的拼音变体)


3. 端到端深度学习(无需显式分词)

推荐:字符级输入或混合策略
方法
• 直接以字符序列输入模型(如Char-CNN、BiLSTM)
• 结合词嵌入和字符嵌入(如ELMo风格)
优势
• 避免分词错误传播
• 对非规范文本(如错别字、缩写)更鲁棒
适用场景
• 短文本谣言检测(如微博、评论区)
• 处理含有大量非标准表达的UGC内容


4. 关键增强策略

无论选择哪种分词方式,建议额外加入:

  1. 领域词典扩展
    • 添加疫情、政治等领域的专有名词(如"辉瑞疫苗"、“群体免疫”)到分词工具词典中。
  2. 对抗性文本处理
    • 对拼音变体、谐音词(如"河蟹→和谐")进行归一化。
  3. 多粒度特征融合
    • 同时使用字符级和词语级特征(例如:字符级CNN捕获局部模式,词语级LSTM捕获长程依赖)。

总结建议

场景 推荐分词方案 代表工具/模型
快速关键词匹配 词语级分词 jieba + 自定义词典
深度语义分析 子词切分 BERT/DeepSeek的tokenizer
非规范文本处理 字符级输入 Char-CNN/BiLSTM
多语言混合内容 子词切分 SentencePiece

优先推荐
• 如果使用预训练模型(如BERT、DeepSeek),直接采用其内置的tokenizer(通常是子词切分)。
• 若需高精度且资源充足,可尝试多粒度融合模型(如ACL 2022最佳论文提出的层次化表示方法)。