一、爬取目标
二、完整源码
#""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""
#
# Copyright (c) 2024 愤怒的it男, All Rights Reserved.
# FileName : code.py
# Date : 2024.01.13
# Author : 愤怒的it男
# Version : 1.0.0
# Node : 欢迎关注微信公众号【愤怒的it男】
#
#""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""
import csv
import requests
import numpy as np
from lxml import etree
from prettytable import PrettyTable
def getData(baseUrl, headers):
response = requests.get(url=baseUrl, headers=headers)
html = etree.HTML(response.text)
time = html.xpath("//table/tbody/tr/td[1]/text()")
name = html.xpath("//table/tbody/tr/td[2]/a/text()")
classify = html.xpath("//table/tbody/tr/td[3]/text()")
area = html.xpath("//table/tbody/tr/td[4]/text()")
number = html.xpath("//table/tbody/tr/td[5]/text()")
time = [i.strip() for i in time]
name = [i.strip() for i in name]
classify = [i.strip() for i in classify]
area = [i.strip() for i in area]
number = [i.strip() for i in number]
dataList = np.stack((time, name, classify, area, number))
dataList = np.transpose(dataList).tolist()
return dataList
def printData(result):
table = PrettyTable()
table.field_names = ["上映日期", "片名", "类型", "制片国家/地区", "想看"]
table.add_rows(result)
print(table)
def saveData(result):
with open('即将上映电影.csv', 'w', newline='') as file:
writer = csv.writer(file)
writer.writerows(result)
def main():
result = []
baseUrl = 'https://movie.douban.com/coming'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
result = getData(baseUrl, headers)
printData(result)
saveData(result)
if __name__== "__main__" :
main()
三、爬取结果
+----------------+--------------------------+--------------------+---------------------+----------+
| 上映日期 | 片名 | 类型 | 制片国家/地区 | 想看 |
+----------------+--------------------------+--------------------+---------------------+----------+
| 01月19日 | 临时劫案 | 喜剧 / 动作 / 犯罪 | 中国大陆 / 中国香港 | 7874人 |
| 01月19日 | 生命如花爱如蜜 | 喜剧 / 爱情 | 中国大陆 | 728人 |
| 01月20日 | 还是觉得你最好 | 喜剧 / 爱情 | 中国香港 | 66921人 |
| 01月20日 | 花千骨 | 动作 / 爱情 / 奇幻 | 中国大陆 | 2120人 |
| 01月20日 | 江豚·风时舞 | 动画 / 奇幻 | 中国大陆 | 1547人 |
| 01月20日 | 家有儿女之神犬当家 | 喜剧 / 科幻 / 家庭 | 中国大陆 / 美国 | 357人 |
| 01月20日 | 开心超人之时空营救 | 科幻 / 动画 / 冒险 | 中国大陆 | 304人 |
| 01月26日 | 出门在外 | 喜剧 / 犯罪 / 西部 | 中国大陆 | 681人 |
| 01月26日 | 冒牌特工 | 喜剧 / 冒险 | 中国大陆 | 523人 |
| 01月26日 | 世界欠我一个你 | 剧情 / 喜剧 / 爱情 | 泰国 | 240人 |
| 02月10日 | 红毯先生 | 剧情 / 喜剧 | 中国大陆 / 中国香港 | 26777人 |
| 02月10日 | 第二十条 | 剧情 / 喜剧 / 家庭 | 中国大陆 | 17294人 |
| 02月10日 | 热辣滚烫 | 剧情 / 喜剧 | 中国大陆 | 10704人 |
| 02月10日 | 传说 | 剧情 / 动作 / 奇幻 | 中国大陆 / 中国香港 | 10246人 |
| 02月10日 | 飞驰人生2 | 剧情 / 喜剧 / 运动 | 中国大陆 | 8729人 |
| 02月10日 | 我们一起摇太阳 | 剧情 / 爱情 / 家庭 | 中国大陆 / 中国香港 | 5148人 |
| 02月10日 | 熊出没·逆转时空 | 喜剧 / 科幻 / 动画 | 中国大陆 | 3846人 |
| 02月10日 | 喜羊羊与灰太狼之守护 | 动画 | 中国大陆 | 336人 |
| 02月23日 | 阿盖尔:神秘特工 | 动作 / 惊悚 | 英国 / 美国 | 7510人 |
| 02月24日 | 还是觉得你最好2 | 喜剧 / 爱情 | 中国香港 / 中国大陆 | 1507人 |
| 03月08日 | 沙丘2 | 剧情 / 动作 / 科幻 | 美国 / 加拿大 | 115888人 |
| 03月08日 | 被我弄丢的你 | 剧情 / 爱情 | 中国大陆 | 6180人 |
| 03月08日 | 孔秀 | 剧情 | 中国大陆 | 3372人 |
| 03月29日 | 坠落的审判 | 剧情 / 家庭 | 法国 | 204384人 |
| 03月 | 灿烂的她 | 剧情 / 家庭 | 中国大陆 | 1748人 |
| 04月03日 | 扫黑·决不放弃 | 剧情 / 犯罪 | 中国大陆 | 4776人 |
| 04月 | 鸟鸣嘤嘤 | 剧情 | 中国大陆 | 28062人 |
| 05月01日 | 没有一顿火锅解决不了的事 | 喜剧 / 犯罪 / 悬疑 | 中国大陆 | 7834人 |
| 05月01日 | 末路狂花钱 | 剧情 / 喜剧 | 中国大陆 | 348人 |
| 05月01日 | 猪猪侠大电影·星际行动 | 喜剧 / 科幻 / 动画 | 中国大陆 | 268人 |
| 05月01日 | 怒海营救 | 剧情 / 动作 / 战争 | 中国大陆 | 254人 |
| 08月10日 | 白蛇:浮生 | 爱情 / 动画 | 中国大陆 | 3528人 |
| 2027年02月06日 | 流浪地球3 | 科幻 / 冒险 / 灾难 | 中国大陆 | 51155人 |
+----------------+--------------------------+--------------------+---------------------+----------+
四、免责声明
本公众号所有源码均为个人学习所编写,仅可用于计算机技术学习及研究等合法行为,禁止利用本公众号的源码从事任何违反本国(地区)法律法规的业务,如有发现存在违法违规行为我会举报到网监部门。
原文始发于微信公众号(愤怒的it男):Python获取即将上映的所有电影数据
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/234455.html