过程和思路
1.爬取的网站:某动态壁纸网站(http://wallpaper.upupoo.com/store/search--0-0-0-1.htm)
2.爬取的内容:视频
3.爬取方法:该网站视频没有将视频文件切割,采用HLS流媒体传输协议,而是直接返回视频整个文件,而且html里的可以找到视频文件的真实url,所以用request模块就可以爬取,思路如下:
- 获取html文件
- 用正则匹配出视频url,放到列表里
- 最后遍历列表下载保存
4.代码:
import re
import requests
import time
class Spider(object):
def...