Requests-HTML，一个超实用的python库

李, 若俞 • 2024年3月27日上午10:44 • 技术漫谈 • 阅读 73

大家好，我是木木。今天给大家分享一个超实用的Python库，Requests-HTML。

Requests-HTML是为现代网页设计的，旨在使网页抓取变得简单。它集成了Requests库的所有功能，并且添加了HTML解析功能，让你轻松处理JavaScript渲染的内容。

核心特点

JS渲染支持

无需额外工具即可处理动态生成的内容，使得与复杂的Web应用交互变得简单。

简洁的API

提供一套清晰、易于理解的API，使得即便是初学者也能快速上手进行网页数据的抓取与解析。

集成环境

将请求和HTML解析功能合二为一，无需切换库或使用额外的工具来处理网页数据。

最佳实践

安装方法

要开始使用Requests-HTML，首先需要安装它。可以通过pip轻松安装：

pip install requests-html

功能一：获取和解析网页

标题：快速获取并解析网页

Requests-HTML让获取和解析网页内容变得异常简单。以下是一个示例，展示如何获取网页并提取标题。

>>> from requests_html import HTMLSession

>>> session = HTMLSession()
>>> response = session.get('https://python.org/')
>>> print(response.html.find('title', first=True).text)
Welcome to Python.org

功能二：处理JavaScript渲染的网页

标题：处理JavaScript渲染内容

Requests-HTML能够执行JavaScript，获取动态渲染的网页内容。以下示例展示如何获取并渲染页面。

from requests_html import HTMLSession

session = HTMLSession()
response = session.get('https://example.com/')
response.html.render()
print(response.html.find('#some-id', first=True).text)

高级功能示例

功能：异步支持

Requests-HTML支持异步操作，这意味着你可以在执行其他任务的同时抓取和处理网页。以下是一个使用异步方式获取多个页面的示例。

import asyncio
from requests_html import AsyncHTMLSession


async def get_title(url):
    session = AsyncHTMLSession()
    response = await session.get(url)
    await response.html.render()
    title = response.html.find('title', first=True)
    if title:
        print(title.text)
    else:
        print("Title not found")


async def main(urls):
    await asyncio.gather(*(get_title(url) for url in urls))
    
urls = ['http://python-requests.org/', 'https://example.com/']
asyncio.run(main(urls))