文本分类原理篇

简单说就是根据我们的语料库，进行文本分类，常见的应用场景可能是情感分析、新闻分类、事件预测等等

1. 文本预处理#

英文文本预处理比较简单，直接按照空格切分即为一个个单词。中文则需要首先进行分词，将一个句子切分成一个个的词。

2. 文本特征提取#

即将文本的信息转为数值的信息，常见的方式有如下几种：

词袋模型：不关注单词在文档中出现的频次，只关注是否出现，即数值都是0、1
CountVector：即word在文档中出现的频次
TF-IDF模型
基于词向量word2vec

除此之外，还可以构造一些基于文本的统计类特征：
- 文档的词语计数—文档中词语的总数量
- 文档的词性计数—文档中词性的总数量
- 文档的平均字密度--文件中使用的单词的平均长度
- 完整文章中的标点符号出现次数--文档中标点符号的总数量
- 整篇文章中的大写次数—文档中大写单词的数量
- 完整文章中标题出现的次数—文档中适当的主题（标题）的总数量
- 词性标注的频率分布

名词数量
动词数量
形容词数量
副词数量
代词数量

3. 训练模型#

传统模型
深度模型

参考#

https://zhuanlan.zhihu.com/p/436429409

案例
https://blog.csdn.net/u014281392/article/details/89972877

https://zhuanlan.zhihu.com/p/60532089

pyspark:
https://spark.apache.org/docs/3.3.2/ml-features.html#tf-idf

文本分类 原理篇

1. 文本预处理#

2. 文本特征提取#

3. 训练模型#

参考#

文本分类原理篇