一、文本分类

历史

上世纪 50 年代:专家规则(pattern)

上世纪 80 年代:知识工程建立专家系统

上世纪 90年代后:统计学习方法,人工特征工程 + 浅层分类模型



特征工程

机器学习的目标是把数据转换成信息,再提炼到知识的过程。特征工程没有很强的通用性,主要要结合对特征任务的理解,主要分为,文本预处理、特征提取、文本表示
,将文本转换为计算机可以理解的形式,封装能够分类的信息,即有很强的特征表达能力。

* 特征:数据—信息,决定结果的上限
* 分类器:信息—知识,逼近结果的上限



文本预处理

预处理就是在文本中提取关键词表示文本的过程,中文文本处理主要包括文本分词和去除停用词。

中文分词:特征粒度为词粒度比字粒度要好,分类算法不考虑词序信息,字粒度损失了过多的“n-gram”信息,常见方法有:

* 基于字符串匹配的正向/逆向/双向最大匹配
* 基于理解的句法和语义分析消歧
* 基于统计的互信息/CRF
* WordEmbedding + Bi - LSTM + CRF
停用词:在文本中高频出现并且对文本分类无意义的词

* 删除停用表中的词,属于特征选择的一部分



表示学习


文本表示:将预处理之后的文本转换为计算机可以理解的部分,决定文本分类的质量,常用方法为词袋模型或者向量空间模型,但是忽略了文本上下文的关系,每个词彼此之间独立,无法表征语义信息。

词袋模型(BOW, Bag Of Words) :

* 高维度、高稀疏性
向量空间模型(Vector Space Model):

* 特征选择降低维度
* 特征权重计算增加稠密醒



特征提取

基于向量空间模型表示文本的方法,特征提取有特征项的选择和特征权重计算两部分

特征选择:根据某个指标,对原始特征项(词)进行排序,从中选择分数最高的一些特征并过滤其他特征,常用方法:文档频率、互信息、信息增益、卡方统计量

特征权重:TF - IDF 及扩展方法,

TF - IDF:词的重要程度与在类别内的词频成正比,与所有类别中该词出现的次数成反比

* TF: 表示词频,该词描述文档的能力
* IDF:逆文档频率,该词区分文档的能力
* 缺点:精度不是特别高、没有体现出单词的位置信息



词频:基于词频的特征选择就是将词频小于某一阈值的词删除,频次低的词对过滤的影响也比较小

* 有时候词频低的词信息量也大,尤其在情感分类当中



文档频次法:计算每个特征的文档频次,根据阈值来去除频次特别低的(没有代表性)和特别高的特征(没有区分度)

* 简单、计算量晓、速度快,时间复杂度跟文档数量成线性关系,非常适合超大规模文本数据集的特征选择



互信息方法 (Mutual information):衡量词和类别之间的统计独立关系,在过滤问题中用于度量特征对于主题的区分度。

* 思想:某个类别中出现频率高,其他类别出现频率低的词,与该类的互信息较大
* 优点:不需要在特征词和类别之间关系的性质做任何假设
* 缺点:得分容易受到词边缘概率的影响。实验效果表示,互信息方法通常比较差



期望交叉熵:文本类别的概率分布,与出现了某个特定词的情况下的文本类别概率分布之间的距离

* 思想:特征词 t 的交叉熵越大,对文本类别分布的影响越大
* 评价:熵的特征选择不考虑单词未发生的情况,效果优于信息增益



信息增益:表示特征项的存在与否对类别预测的影响

* 思想:特征项的信息增益值越大,贡献越大,对分类也重要
* 评价:分类性能偏低,考虑了文本特征没有发生的情形



二、分类器

传统文本表示方法:词袋模型、向量空间模型

文档的深层表示:LDA 主题模型,LSI / PLSI 概率潜在语义索引

基于神经网络的表示学习:NNLM、CBOW、Skip-gram、Glove、word embedding 文本分布式表示




分类器的选择

机器学习方法:Naive Bayes、KNN、SVM、集合类方法、决策树、最大熵、神经网络

深度学习方法:TextCNN、TextRNN、TextRNN + Attention、TextRCNN(TextRNN + CNN)




三、深度学习分类器

端到端的深度学习

只关心系统的输入和输出,给定简单输入后(图像-像素,文本-one-hot编码),同时给定系统输出,神经网络会通过优化来得到近似的解,包含了特征抽取和分类步骤。

传统的机器学习方法主要是基于 Naive Bayes,Maximum Entropy, K-NN,和SVM,需要先进行人工的特征抽取,再进行分类。




fastText

思想:将句子中所有词向量进行平均(可以理解为只有 1 个 avg pooling 的特殊 CNN),然后直接 softmax,加入了一些 n-gram
特征的 trick 来捕获局部序列信息。

思考:文本分类有一些是“线性”问题的部分,不需要做过多的非线性转换、特征组合即可捕获很多的分类信息。



Text-CNN

pre-trained 的 word2vec + 深度学习分类器,这样的两阶段模型,不会比带参数的 Embedding
构建端到端的联动参数学习模型效果好。这样学习到的 embedding 能够更加符合当前语料库当前任务下的要求。

CNN 是基于 pre-trained 的 word2vec 的效果来做的,效果还没有完全超越 SVM



深度学习中的参数调节

A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural
Networks for Sentence Classification

* 词嵌入维度:300维, 主要针对预训练
* Filter 大小:7 的 filter 最优
* Filter 的个数:推荐100 ~ 600个, 最好靠近600
* 激活函数:Iden,ReLU, tanh 比 sigmoid,cube要好, 默认 ReLU 好
* Pooling:推荐1-max pooling,不要用average,效果不好
* 正则化:dropout rate 不要超过0.5, L2 正则化效果不明确



四、方法和实践

经验

* 模型不是最重要的:单纯用 CNN 已经取得不错的结果了,最佳实践是先用 TextCNN 把整体任务效果调试到最好,再尝试改进模型
* 记录和分析每次实验:迭代速度决定算法项目成败的关键,迭代质量也很关键。每次实验分析要回答三个问题:为什么要实验、结论是什么、下一步怎么实验
* 超参数调节:A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional
Neural Networks for Sentence Classification
* 一定要用 dropout:有两种情况可以不用,数据量特别小,或者更好的正则方法。最好是 0.5
* 未必要 softmax loss:如果类别间非互斥,可以训练多个二分类器,定义为 multi label 而非 multi class
* 类别不均衡:如果 loss 被一部分类别 dominate,对总体来说是负向的,可以尝试 booststrap 方法调整 loss
* 避免训练震荡:增加随机采样因素,尽可能使得数据分布 iid,默认 shuffle 机制能够让训练结果更稳定。如果模型更震荡,可以调整学习率或者
mini_batch_size
* 没有收敛前不要过早当下结论:特别是新角度的调试,不要轻易否定



选择

CNN 和 RNN 的比较:Comparative Study of CNN and RNN for Natural Lang uage Processing






时间上来说,EntNet 和 HAN 效果还可以,时间跟 Text-CNN 接近

* EntNet 和 DMN 是类似模型的分组
* Bi-RNN 和 Seq2Seq 可以看成类似模型分组
* RCNN 上下文效果跟 Bi-RNN 类似
* HAN 跟各种 Attention 模型一个类似模型分组


Text-CNN,Text-Bi-RNN,EntNet 和 HAN 可以分别为卷积、上下文、存储记忆和注意力机制的代表。追求速度,先用 fasttext
分类,提升效果考虑 Text-CNN,Text-Bi-RNN,EntNet 和 HAN。

参考文献

[1] https://arxiv.org/pdf/1702.01923 <https://arxiv.org/pdf/1702.01923>
[2] https://zhuanlan.zhihu.com/p/25928551
<https://zhuanlan.zhihu.com/p/25928551>

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信