中文文档分类（朴素贝叶斯） · 数据分析实战

## 问题描述我们在微博上采集了3306篇微博内容，并划分成了4种类型。我们想对新的微博内容自动进行分类（4种类型中的一种）请使用**朴素贝叶斯**训练分类模型，并用测试集进行验证，给出测试集的准确率。数据集地址：https://github.com/cystanford/text_classification 数据说明： 1、文档共有4中类型：女性、体育、文学、校园 ![](https://box.kancloud.cn/67abc1783f7c4e7cd69194fafc514328_585x120.png) 2、训练集放到train文件夹里，测试集放到test文件夹里。停用词放到stop文件夹里。 ![](https://box.kancloud.cn/0c374e3501cc28a24687bc030733050f_580x97.png)