爬取网页其实就是通过url获取网页信息,网页信息的实质是一段添加了javascript和css的html代码。python提供了一个抓取网页信息的第三方模块requests,requests模块自称“http for humans”,直译过来的意思是专门为人类而设计的http模块,该模块支持发送请求,也支持获取响应。
1.发送请求requests模块提供了很多发送http请求的函数,常用的请求函数具体如表10-1所示。
表10-1 requests模块的请求函数
2.获取响应requests模块提供的response 类对象用于动态地响应客户端的请求,控制发送给用户的信息,并且将动态地生成响应,包括状态码、网页的内容等。接下来通过一张表来列举response类可以获取到的信息,如表10-2所示。
表10-2 response 类的常用属性
接下来通过一个案例来演示如何使用requests模块抓取百度网页,具体代码如下:
# 01 requests baidu
import requests
base_url = 'http://www.baidu.com'
#发送get请求
res = requests.get (base_url)
print(响应状态码:{}.format(res.status_code))#获取响应状态码
print(编码方式:{}.format(res.encoding))#获取响应内容的编码方式
res.encoding = 'utf-8'#更新响应内容的编码方式为uie-8
print(网页源代码:n{}.format(res.text)) #获取响应内容
以上代码中,第2行使用import导入了requests模块;第3~4行代码根据url向服务器发送了一个get请求,并使用变量res接收服务器返回的响应内容;第5~6行代码打印了响应内容的状态码和编码方式;第7行将响应内容的编码方式更改为“utf-8”;第8行代码打印了响应内容。运行程序,程序的输出结果如下:
响应状态码:200
编码方式:iso-8859-1
网页源代码:
百度一下,你就知道
…省略n行…
值得一提的是,使用requests模块爬取网页时,可能会因为没有连接网络、服务器连接失败等原因导致产生各种异常,最常见的两个异常是urlerror和httperror,这些网络异常可以使用 try…except 语句捕获与处理。
以上就是怎样使用requests模块抓取网页?的详细内容。