python保存网页图片
这个是个比较简单的例子,网页中的图片地址都是使用'http://。。。。.jpg'这种方式直接定义的。
使用前,可以先建立好一个文件夹用于保存图片,本例子中使用的文件夹是 d:\\pythonpath这个文件夹
代码如下:
# -*- coding: utf-8 -*- import os,re,urllib,uuid #首先定义云端的网页,以及本地保存的文件夹地址 urlpath='http://gamebar.com/' localpath='d:\\pythonpath' #从一个网页url中获取图片的地址,保存在 #一个list中返回 def geturllist(urlparam): urlstream=urllib.urlopen(urlparam) htmlstring=urlstream.read() if( len(htmlstring)!=0 ): patternstring=r'http://.{0,50}\.jpg' searchpattern=re.compile(patternstring) imgurllist=searchpattern.findall(htmlstring) return imgurllist #生成一个文件名字符串 def generatefilename(): return str(uuid.uuid1()) #根据文件名创建文件 def createfilewithfilename(localpathparam,filename): totalpath=localpathparam+'\\'+filename if not os.path.exists(totalpath): file=open(totalpath,'a+') file.close() return totalpath #根据图片的地址,下载图片并保存在本地 def getandsaveimg(imgurl): if( len(imgurl)!= 0 ): filename=generatefilename()+'.jpg' urllib.urlretrieve(imgurl,createfilewithfilename(localpath,filename)) #下载函数 def downloadimg(url): urllist=geturllist(url) for urlstring in urllist: getandsaveimg(urlstring) downloadimg(urlpath)
保存的文件如下:
网页的一部分保存为图片
主要思路是selenium+phantomjs(中文网页需要设置字体)+pil切图
def webscreen(): url = 'http://www.xxx.com' driver = webdriver.phantomjs() driver.set_page_load_timeout(300) driver.set_window_size(1280,800) driver.get(url) imgelement = driver.find_element_by_id('xxxx') location = imgelement.location size = imgelement.size savepath = r'xxxx.png' driver.save_screenshot(savepath) im = image.open(savepath) left = location['x'] top = location['y'] right = left + size['width'] bottom = location['y'] + size['height'] im = im.crop((left,top,right,bottom)) im.save(savepath)
