初识爬虫①

导读:本篇文章讲解 初识爬虫①,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com,来源:原文

也许你感觉自己的努力总是徒劳无功,但不必怀疑,你每天都离顶点更进一步。今天的你离顶点还遥遥无期。但你通过今天的努力,积蓄了明天勇攀高峰的力量。加油!

什么是网络爬虫

网络爬虫,简称爬虫,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。

爬虫做的事情其实和蜘蛛是类似的,所以网络爬虫也被称为网络蜘蛛(spider)。蜘蛛在蜘蛛网上爬来爬去,把触手伸到蜘蛛网获取食物,而网络爬虫则是在互联网上爬来爬去,爬取我们需要的数据。

在这里插入图片描述

虽然你只是刚开始学习爬虫,但在生活中其实你已经在很多地方使用过爬虫了。比如当你想知道“爬虫能干什么”,于是打开搜索引擎搜索“爬虫能干什么”。搜索结果如下图所示:

在这里插入图片描述
搜索引擎本质上就是爬虫。在上面的过程中,搜索引擎将互联网上的网页都爬取并存储起来。当我们搜索的时候,搜索引擎就从自己存储的网页里找到我们需要的结果并展示出来

随着机器学习、人工智能技术的发展,数据越来越重要,需要的数据量也越来越大。而我们可以通过爬虫获取海量的数据,所以爬虫是这一切的源头。

一般情况下,我们都是通过浏览器浏览网页,获得信息。所以,在说爬虫之前,我们先说说浏览器。

浏览器有很多种,主流的浏览器有 Chrome 浏览器、QQ 浏览器、IE 浏览器、搜狗浏览器等。
在这里插入图片描述

浏览器的工作原理

我们以扇贝搭建的爬虫博客平台为例,网址是:https://wpblog.x0y1.com/
在这里插入图片描述

假如我们要博客里文章的数据,首先我们会输入网址,然后浏览器将网站内容展示出来。我们和浏览器的交互过程如下图所示:
在这里插入图片描述

那么浏览器是怎么知道扇贝编程博客网站内容的呢?难道浏览器将所有网站的内容保存下来了?

当然不是这样!其实,浏览器偷偷地和 服务器 进行了交流,服务器将博客网站的内容传输给浏览器,浏览器收到后解析成你最终看到的网页。

浏览器通过 DNS(Domain Name System)将域名转换成对应的 IP 地址,从而找到对应网站的服务器。如果你对这个过程感兴趣,可搜索 DNS 了解更多。

在这里插入图片描述
首先,我们在浏览器输入网址(URL)。然后浏览器去访问该网址对应的服务器,这个过程叫 请求(request)。接着服务器将网站内容发送给浏览器,这个过程叫 响应(response)

浏览器拿到服务器返回的内容后,一般都是网页的源代码。还需要浏览器将内容解析成我们能看懂的样子,也就是我们最终在浏览器里看到的网页。
在这里插入图片描述
说了半天浏览器的工作原理,这和我们的爬虫有什么关系呢?其实,爬虫就是模拟浏览器的行为,从而获取网站的数据。

爬虫的工作原理

爬虫可以像浏览器一样向服务器发起请求,拿到服务器返回的数据后,可以根据我们设定的规则去提取需要的数据,数据处理完成后再将数据存储起来。

在这里插入图片描述
我们将上面的过程简化一下,可以将爬虫的工作总结为 3 步:
在这里插入图片描述
第一步:获取数据,爬虫会根据我们提供的网址,向服务器发起请求获取数据;

第二步:处理数据,对获取的数据进行处理,得到我们需要的部分;

第三步:存储数据,将处理后的数据保存起来,便于后续的使用和分析等。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由半码博客整理,本文链接:https://www.bmabk.com/index.php/post/122157.html

(0)
飞熊的头像飞熊bm

相关推荐

发表回复

登录后才能评论
半码博客——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!