怎样使用Requests模块抓取网页？

爬取网页其实就是通过url获取网页信息，网页信息的实质是一段添加了javascript和css的html代码。python提供了一个抓取网页信息的第三方模块requests,requests模块自称“http for humans”,直译过来的意思是专门为人类而设计的http模块，该模块支持发送请求，也支持获取响应。
1.发送请求requests模块提供了很多发送http请求的函数，常用的请求函数具体如表10-1所示。
表10-1 requests模块的请求函数
2.获取响应requests模块提供的response 类对象用于动态地响应客户端的请求，控制发送给用户的信息，并且将动态地生成响应，包括状态码、网页的内容等。接下来通过一张表来列举response类可以获取到的信息，如表10-2所示。
表10-2 response 类的常用属性
接下来通过一个案例来演示如何使用requests模块抓取百度网页，具体代码如下：
# 01 requests baidu import requests base_url = 'http://www.baidu.com' #发送get请求 res = requests.get (base_url) print(响应状态码：{}.format(res.status_code))#获取响应状态码 print（编码方式：{}.format(res.encoding)）#获取响应内容的编码方式 res.encoding = 'utf-8'#更新响应内容的编码方式为uie-8 print（网页源代码：n{}.format(res.text）) ＃获取响应内容
以上代码中，第2行使用import导入了requests模块；第3~4行代码根据url向服务器发送了一个get请求，并使用变量res接收服务器返回的响应内容；第5~6行代码打印了响应内容的状态码和编码方式；第7行将响应内容的编码方式更改为“utf-8”；第8行代码打印了响应内容。运行程序，程序的输出结果如下：
响应状态码：200 编码方式：iso-8859-1 网页源代码：百度一下,你就知道 …省略n行…
值得一提的是，使用requests模块爬取网页时，可能会因为没有连接网络、服务器连接失败等原因导致产生各种异常，最常见的两个异常是urlerror和httperror，这些网络异常可以使用 try…except 语句捕获与处理。
以上就是怎样使用requests模块抓取网页？的详细内容。

怎样使用Requests模块抓取网页？

推荐信息