分类标签归档:爬虫

批量抓取某动态壁纸网站的视频


过程和思路

1.爬取的网站:某动态壁纸网站(http://wallpaper.upupoo.com/store/search--0-0-0-1.htm)

2.爬取的内容:视频

3.爬取方法:该网站视频没有将视频文件切割,采用HLS流媒体传输协议,而是直接返回视频整个文件,而且html里的可以找到视频文件的真实url,所以用request模块就可以爬取,思路如下:

  • 获取html文件
  • 用正则匹配出视频url,放到列表里
  • 最后遍历列表下载保存
4.代码:
import re
import requests
import time
class Spider(object):
    def...

查看全文