Python网络编程中最强的工具：requests库教程

在进行Python网络编程时，requests库是最强大的工具之一。无论是发起HTTP请求、处理响应数据，还是进行网页抓取，它都能让你轻松完成任务。今天，我们就来深入了解如何使用requests库，它将极大简化你与网络交互的工作。

什么是requests？

requests是一个简单易用的Python库，用于发起HTTP请求。它封装了复杂的HTTP操作，提供了简单的API，可以轻松地进行GET、POST、PUT、DELETE等操作。这使得网络请求的编写变得更加简洁，减少了很多繁琐的配置和代码编写。

安装requests

首先，如果你的环境中还没有安装requests库，你可以通过以下命令进行安装：

pip install requests

安装完成后，就可以开始使用requests了。

基本操作：发送GET请求

GET请求是最常用的一种HTTP请求，通常用于从服务器获取数据。例如，当你访问一个网站时，浏览器就是发起了一个GET请求。

示例：请求网页内容

我们可以使用requests.get()方法来发起GET请求，获取网页的HTML内容：

import requests

# 发送GET请求
response = requests.get('https://www.example.com')

# 打印响应的状态码
print('响应状态码:', response.status_code)

# 打印网页的内容
print('网页内容:', response.text[:100])  # 只打印前100个字符

解释：

response.status_code

返回响应的状态码，200表示请求成功。
response.text

返回服务器响应的内容（通常是HTML、JSON等）。

状态码的含义

200：请求成功
301：永久重定向
404：找不到页面
500：服务器内部错误

使用POST请求提交数据

POST请求通常用于提交数据到服务器。例如，在表单提交时，我们经常使用POST请求。requests库的post()方法让这个过程非常简单。

示例：发送表单数据

import requests

# 发送POST请求，提交表单数据
data = {
    'username': 'user123',
    'password': 'pass123'
}
response = requests.post('https://httpbin.org/post', data=data)

# 打印服务器返回的响应内容
print('响应内容:', response.json())

解释：

requests.post()

发送POST请求，第二个参数data是你要提交的表单数据。
response.json()

会将响应内容解析为JSON格式，方便我们进一步处理。

应用场景：

用户登录
提交数据到数据库
表单提交等

处理JSON数据

当你与REST API进行交互时，常常会收到JSON格式的数据。requests库提供了非常方便的方式来处理这些JSON数据。

示例：获取并解析JSON数据

import requests

# 发送GET请求获取JSON数据
response = requests.get('https://jsonplaceholder.typicode.com/posts/1')

# 解析JSON数据
json_data = response.json()

# 打印JSON数据
print('获取的JSON数据:', json_data)

解释：

response.json()

自动将响应内容解析为JSON格式，并返回一个Python字典。
你可以通过字典的方式访问数据，如json_data['title']。

处理请求头和Cookies

有时你需要在请求中传递自定义的请求头（headers）或者Cookies。requests库也支持这一功能，帮助你处理认证、代理等复杂情况。

示例：设置请求头

import requests

# 自定义请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 发送请求
response = requests.get('https://www.example.com', headers=headers)

# 打印响应状态码和部分内容
print('响应状态码:', response.status_code)
print('网页内容:', response.text[:100])

解释：

headers

用于传递自定义请求头信息，常见的有User-Agent、Content-Type等。
自定义User-Agent可以让你的请求伪装成浏览器请求，从而绕过一些网站的反爬虫机制。

示例：发送Cookies

import requests

# 设置Cookies
cookies = {'sessionid': '1234567890abcdef'}

# 发送请求
response = requests.get('https://www.example.com', cookies=cookies)

# 打印响应内容
print('响应内容:', response.text[:100])

解释：

cookies

是一个字典，用于设置请求中的Cookie信息。常用于模拟登录后的请求。

超时和错误处理

在网络请求中，超时是一个常见问题。requests库允许你设置超时参数，并且可以处理异常情况。

示例：设置超时

import requests

try:
    response = requests.get('https://www.example.com', timeout=5)
    print('请求成功:', response.status_code)
except requests.exceptions.Timeout:
    print('请求超时！')

解释：

timeout=5

表示请求会在5秒后超时。如果在此时间内没有收到响应，就会抛出requests.exceptions.Timeout异常。

示例：捕获请求异常

import requests

try:
    response = requests.get('https://www.nonexistentwebsite.com')
    print('请求成功:', response.status_code)
except requests.exceptions.RequestException as e:
    print('请求出错:', e)