下载网页中的图片

今天从wordpress搬运网站,发现wordpress里面的图片不提供批量下载,所以就自己写了个从html中直接下载一些图片的python小脚本:

1
2
3
4
5
6
7
8
9
10
11
12
13
import re
import wget

f = open('example.html')
lines = f.readlines()
p = re.compile('img.+?src="(http.+?)"')

for line in lines:
imgs = p.findall(line)
if(len(imgs)!=0):
for image in imgs:
filename = wget.download(image)
print(filename)

又一个问题是其中用到的wget插件不支持断点续传等操作,不过一般网络稳定时没问题。