## 问题描述
我们在微博上采集了3306篇微博内容,并划分成了4种类型。我们想对新的微博内容自动进行分类(4种类型中的一种)
请使用**朴素贝叶斯**训练分类模型,并用测试集进行验证,给出测试集的准确率。
数据集地址:https://github.com/cystanford/text_classification
数据说明:
1、文档共有4中类型:女性、体育、文学、校园
![](https://box.kancloud.cn/67abc1783f7c4e7cd69194fafc514328_585x120.png)
2、训练集放到train文件夹里,测试集放到test文件夹里。停用词放到stop文件夹里。
![](https://box.kancloud.cn/0c374e3501cc28a24687bc030733050f_580x97.png)