* 舆情的覆盖度如何保证?
集合了市面上的各大新闻搜索引擎的结果,对一些重点新闻、财经、论坛网站进行定向
监控,同时包含微博、微信、各大论坛数据。
* 舆情的更新频率?
每日四次高频扫描;
* 舆情摘要的生成逻辑?
利用 TextRank 算法生成若干权重较高的句子拼接而成。
* 分类标签的逻辑?
首先有机器学习模型进行大的分类。(这一步目前还没有,如果问起来可以说,目前的算
法模型是 SVM,大类是指,体育类、娱乐类、财经类、新闻类、垃圾信息等,财经和新闻
是我们关注的)
然后利用多模式匹配算法结合关键词模型,对文本进行分类
* 情感标签的逻辑?
结合多个机器学习模型进行投票,产生最后的情感倾向性结果。(目前的算法模型有
SVM 和随机森林,没问的话先不用说)
* 舆情监控优势?
主要从以下几点出发:
* 覆盖范围广,包括微信、微博、论坛;
* 服务器多,高频次网页监控,每日 4 次;
* 自动摘要,基于 TextRank 算法,有内部参数调优;
* 情感准确,内部包含多个机器学习模型,按权重进行结果聚合,最后产生结果;
* 分类准确,首先基于机器学习模型进行一次分类,然后利用多模式匹配算法结合;关键词模型,对文本进行分类;分类类别可定制。