企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# 2.3.2 能抓怎样的数据 在网页中我们能看到各种各样的信息,最常见的便是常规网页,其都对应着 HTML 代码,而最常见的抓取便是抓取 HTML 源代码。 另外可能有些网页返回的不是 HTML 代码,而是返回一个 Json 字符串,API 接口大多采用这样的形式,方便数据的传输和解析,这种数据同样可以抓取,而且数据提取更加方便。 此外我们还可以看到各种二进制数据,如图片、视频、音频等等,我们可以利用爬虫将它们的二进制数据抓取下来,然后保存成对应的文件名即可。 另外我们还可以看到各种扩展名的文件,如 CSS、JavaScript、配置文件等等,这些其实也是最普通的文件,只要在浏览器里面访问到,我们就可以将其抓取下来。 以上的内容其实都对应着各自的URL,是基于 HTTP 或 HTTPS 协议的,只要是这种数据爬虫都可以进行抓取。