爬虫用途 · 网络爬虫知识汇总

# 爬虫用途第一次听说爬虫是跟搜索引擎联系在一起的，以为爬虫就是搜索，现在看来这种想法是狭隘的，爬虫的目的时采集数据，至于这些数据如何利用，就不单单是用语搜索这么简单了。服务于搜索引擎顾名思义，搜索引擎的基础还是爬虫，爬虫采集互联网上尚未索引的数据，索引到搜索引擎到索引，方便用户搜索。采集网络数据,用于数据分析：数据分析到数据来源，一部分来自雨互联网，在对数据进行分析之前，需要使用爬技术，将数据采集到以后，进行数据清洗，结构化，然后才能对数据进行分析。舆情监测：舆情监测，整合互联网信息采集技术及信息智能处理技术通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦，实现用户的网络舆情监测和新闻专题追踪等信息需求，形成简报、报告、图表等分析结果，为客户全面掌握群众思想动态，做出正确舆论引导，提供分析依据。产品基础服务：这类应用相对来讲通业务相关。举个例子，一个游戏公司想开发一款跟NB相关对游戏,但是对于NBA球员对个人信息这样对数据如何获取，如果公司有钱对话，自然可以从第三方专业机构购买到此数据，但是如果公司预算有限，那么就可以采用爬虫技术，通过特定到网站将数据采集到，当然如果该网站到robot已经屏蔽了爬虫，你就得考虑一下法律问题，不够目前很多爬虫都不遵守robot协议。聚合应用：这类应用目前应用也比较多，产品本身并没有内容，通过爬虫技术，采集同该行业相关都网站上都内容，然后自己再经过整理展示。