python爬虫爬取豆瓣top排行图片

小半 • 2022年12月31日下午9:20 • Python • 阅读 590

导读：本篇文章讲解 python爬虫爬取豆瓣top排行图片，希望对大家有帮助，欢迎收藏，转发！站点地址：www.bmabk.com

爬虫是什么?

“网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。”(就是获取信息)

xPath的常用路径表达式

nodename（节点名称）：表示选择该节点的所有子节点
“/”：表示选择根节点
“//”：表示选择任意位置的某个节点
“@”：表示选择某个属性

requests库常用方法

图片转至链接link

图片转至链接:link

爬虫的步骤

1.目标url 网站
2.发送请求
3.解析数据
4.保存数据

所以把步骤搞明白那么爬虫就不会那么的复杂了

import requests
from lxml import etree

url='https://movie.douban.com/chart'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
#发送请求
data = requests.get(url,headers=headers).content.decode()
#解析数据
html=etree.HTML(data)
n=1
#获取图片地址
novel_url_list=html.xpath('//div[@id="content"]//a[@class="nbg"]/img/@src')
#保存图片
for novel_url in novel_url_list:

    response = requests.get(novel_url,headers=headers)
    print('第%d个图片打印成功'%n)
    n=n+1
    #保存的名字
    file_name = novel_url.split('/')[-1]
  
    with open(file_name,'wb')as f:
        f.write(response.content)

总结
不忘初心，方得始终.努力一定能成功,多敲多练才是真理.

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

文章由极客之家整理，本文链接：https://www.bmabk.com/index.php/post/66881.html

赞 (0)

0 0

Python

python 打包exe过程中找不到某模块路径解决

000619

飞熊
2023年8月8日
Django自学教程

Django笔记十之取值指定字段及去重

000511

小半
2023年12月7日
Python

Python Web之路：Flask第一篇

000323

小半
2023年12月19日
Python

OpenDaylight开发hello-world项目之开发工具安装

000225

小半
2023年12月29日
Python

【Python数据处理】用pandas将dataframe写入excel中

000606

小半
2022年12月19日
Python

数据库外键基础知识和操作（世界杯版）

000306

小半
2023年12月29日
Python

【Flask实战】sqlalchemy和Flask-SQLAlchemy使用对比

000316

小半
2022年12月19日
Python

通过Jenkins执行脚本，生成自动化测试报告

000218

飞熊
2023年3月5日
Python

【python文件读取】加密数据的读取

000416

小半
2022年12月12日
Python

python之路28 网络编程基础之OSI七层协议模型

000424

小半
2023年2月11日
Python

零基础小白保姆级Pandas数据分析从入门到实战（8）

000353

葫芦侠五楼
2024年3月26日
Python

pytest常用插件使用大全

000482

飞熊
2023年3月5日

极客之家——专业性很强的中文编程技术网站，欢迎收藏到浏览器，订阅我们！