过程和思路

1.爬取的网站：某动态壁纸网站（http://wallpaper.upupoo.com/store/search--0-0-0-1.htm）

2.爬取的内容：视频

3.爬取方法：该网站视频没有将视频文件切割，采用HLS流媒体传输协议，而是直接返回视频整个文件，而且html里的可以找到视频文件的真实url，所以用request模块就可以爬取，思路如下：

获取html文件

用正则匹配出视频url，放到列表里

最后遍历列表下载保存

4.代码：
import re
import requests
import time
class Spider(object):
    def...

查看全文

天天爱学习

批量抓取某动态壁纸网站的视频

过程和思路