```py
import requests
from bs4 import BeautifulSoup
import json,sys,time,re,os
class download_mzt():
def __init__(self):
self.url_name='https://www.mzitu.com/'
self.header={
'Referer': 'https://www.mzitu.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'
}
self.title_list=[]
# 获取首页所有连接的函数
def get_list(self):
rq=requests.get(url=self.url_name,headers=self.header)
sp=BeautifulSoup(rq.text,'html.parser')
text=sp.find_all('div',class_='postlist')[0].find_all('a',target='_blank')
for i in text:
title=i.get_text()
url=i.get('href')
if title :
self.title_list.append({
'title':title,
'url':url
})
# for n in self.title_list:
# print(n)
# 定义获取最大列表的函数
def get_maxpage(self):
for name in self.title_list:
urls=name['url']
rq = requests.get(url=urls, headers=self.header)
sp = BeautifulSoup(rq.text, 'html.parser')
text = sp.find_all('div', class_='pagenavi')[0].find_all('span')
maxpag = text[-2].get_text()
# print(maxpag)
name['maxpag']=int(maxpag)
# 获取套图的所有地址
def get_ever_url(self,dic):
print('下载:%s,\t 页数%s'%(dic['title'],dic['maxpag']))
for i in range(1,dic['maxpag']):
# print(i)
page_url="%s/%s"%(dic['url'],i)
rq=requests.get(url=page_url,headers=self.header)
sp=BeautifulSoup(rq.text,'html.parser')
text=sp.find_all('div',class_='main-image')[0].find_all('img')[0]
pic_url=text.get('src')
name=re.split('/',pic_url)[5]
self.down_pic(pic_url,dic['title'],name)
# print('\t\t下载第%s页,名字%s'%(i,name))
# time.sleep(0.5)
# print(pic_url,name)
sys.stdout.write("\r")
sys.stdout.write("%s%% | %s" %(int(i/dic['maxpag']*100),i*'|'))
sys.stdout.flush()
# 定义下载函数
def down_pic(self,pic_url,title,name):
if not os.path.exists(title):
os.mkdir(title)
rq=requests.get(url=pic_url,headers=self.header)
with open("%s/%s"%(title,name),'wb') as f:
f.write(rq.content)
f.close()
if __name__=="__main__":
dm=download_mzt()
# dm.get_list()
# dm.get_maxpage()
# for dic in dm.title_list:
# print(dic)
# dm.get_ever_url(dic)
dic={'title': '秒杀日本AV!夏诗诗老师真实教室场景上演香艳课堂', 'url': 'https://www.mzitu.com/224623', 'maxpag': 78}
dm.get_ever_url(dic)
```
- 基础部分
- 基础知识
- 变量
- 数据类型
- 数字与布尔详解
- 列表详解list
- 字符串详解str
- 元组详解tup
- 字典详解dict
- 集合详解set
- 运算符
- 流程控制与循环
- 字符编码
- 编的小程序
- 三级菜单
- 斐波那契数列
- 汉诺塔
- 文件操作
- 函数相关
- 函数基础知识
- 函数进阶知识
- lambda与map-filter-reduce
- 装饰器知识
- 生成器和迭代器
- 琢磨的小技巧
- 通过operator函数将字符串转换回运算符
- 目录规范
- 异常处理
- 常用模块
- 模块和包相关概念
- 绝对导入&相对导入
- pip使用第三方源
- time&datetime模块
- random随机数模块
- os 系统交互模块
- sys系统模块
- shutil复制&打包模块
- json&pickle&shelve模块
- xml序列化模块
- configparser配置模块
- hashlib哈希模块
- subprocess命令模块
- 日志logging模块基础
- 日志logging模块进阶
- 日志重复输出问题
- re正则表达式模块
- struct字节处理模块
- abc抽象类与多态模块
- requests与urllib网络访问模块
- 参数控制模块1-optparse-过时
- 参数控制模块2-argparse
- pymysql数据库模块
- requests网络请求模块
- 面向对象
- 面向对象相关概念
- 类与对象基础操作
- 继承-派生和组合
- 抽象类与接口
- 多态与鸭子类型
- 封装-隐藏与扩展性
- 绑定方法与非绑定方法
- 反射-字符串映射属性
- 类相关内置方法
- 元类自定义及单例模式
- 面向对象的软件开发
- 网络-并发编程
- 网络编程SOCKET
- socket简介和入门
- socket代码实例
- 粘包及粘包解决办法
- 基于UDP协议的socket
- 文件传输程序实战
- socketserver并发模块
- 多进程multiprocessing模块
- 进程理论知识
- 多进程与守护进程
- 锁-信号量-事件
- 队列与生产消费模型
- 进程池Pool
- 多线程threading模块
- 进程理论和GIL锁
- 死锁与递归锁
- 多线程与守护线程
- 定时器-条件-队列
- 线程池与进程池(新方法)
- 协程与IO模型
- 协程理论知识
- gevent与greenlet模块
- 5种网络IO模型
- 非阻塞与多路复用IO实现
- 带着目标学python
- Pycharm基本使用
- 爬虫
- 案例-爬mzitu美女
- 案例-爬小说
- beautifulsoup解析模块
- etree中的xpath解析模块
- 反爬对抗-普通验证码
- 反爬对抗-session登录
- 反爬对抗-代理池
- 爬虫技巧-线程池
- 爬虫对抗-图片懒加载
- selenium浏览器模拟