python爬虫入门:什么是爬虫,怎么玩爬虫?

看到这两只爬虫没有?

两只爬虫

两只爬虫

跑得快

跑得快

一只没有..

不好意思

跑题了...

别误会,今天不是要教你怎么玩上面这两只沙雕玩意。

今天,我们正式从0到1

轻松学会 python 爬虫

接下来...

将是学习Python的正确姿势!

小帅b闪亮登场

在你的浏览器里面

输入百度网址

https://www.baidu.com

一回车看到一个网页

大家都很熟悉吧!

然而

你右键,查看网页源代码。

是这个样子的

(源代码的1/100)

“窝里割草”

简简单单一个页面。

这么多密密麻麻的代码

不说了

劝退前端程序员!

还是学习 Python 吧。哈哈哈

那么说这个,和爬虫有什么关系呢?

你有没有想过

这些许许多多的网站

背后都是一些数据

如果我们可以用一个自动化的程序

轻轻松松就能把它们给爬取下来

是不是很爽?

比如,一些小电影的网站

我们只要用 Python

写几行代码

然后一运行

这个程序就帮我们爬取所有的小电影到我们本地

完全不需要我们费一点力气

再比如,你想了解一个行业的趋势

是不是可以把它们往年的数据都爬取下来

然后,对这些数据做一些分析呢?

等等..

这些,以后我们都会讲到!

我们刚刚提到的

一个自动化的程序

就是爬虫

知道了什么是爬虫之后

问题来了

爬虫怎么玩的?

那就偷偷告诉你

在互联网上许许多多的网站

它们都是托管在服务器上的

这些服务器 24 小时运行着

时时刻刻,兢兢业业的等待着别人的请求

所以

我们的爬虫,首先会模拟请求

就好像你在浏览器输入网址,然后回车那样

爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)

大多数的服务器呢,傻不拉的以为是浏览器发送请求

就直接返回数据给爬虫了

当然了,有一些网站比较精明

所以他们会建立一些反爬虫机制

但是,对于我们来说,不在话下

这个是后话了!

反正这个时候呢,服务器把数据返回给我们了

那么我们就可以对这些数据进行猥琐操作了。

不同的情况下,服务器返回给我们的数据格式不一样

HTML

JSON

二进制的数据啦

根据不同的情况,我们可以使用不同的方式对他们进行处理。

处理完之后

我们就可以对他们进行保存啦

保存的方式也有几种

数据库

硬盘

等等..

以上就是我们的爬虫的具体爬取流程,这是我们开启爬虫体系的第一篇,接下来我们将一步一步来操作我们的爬虫。

快加入Pythonner的聚集地

(0)

相关推荐

  • Python爬虫有什么作用?

    在爬虫领域,Python几乎是霸主地位,虽然C++.Java.GO等编程语言也可以写爬虫,但Python更具优势,不仅拥有优秀的第三方库,还可以为我们做很多的事情.那么Python爬虫可以干什么?Py ...

  • 爬虫入门教程 —— 1

    爬虫入门教程 -1 很想做一些爬虫的基础性的教程,来与大家共同分享我的一些小经验, 我将以我认为的方式为大家讲解网络爬虫,如果你没有编程基础,对网络爬虫有兴趣,开始可能稍微有一些小难度,不过我希望能给 ...

  • 前后端分离有什么了不起,手把手教你用Python爬下来!

    大家好,我是早起. 本文一个详细的爬虫进阶教程,里面包含了很详细的思考和试错过程,如果你对学爬虫是认真的,建议认真看. 我们要抓取下面这个网站上的所有图书列表: https://www.epubit. ...

  • 学透这10个Python爬虫框架,轻松获取一切数据

    就像超市里有卖半成品的菜一样,Python爬虫工具也有半成品,就是Python爬虫框架.就是把一些常见的爬虫功能的代码先写好,然后留下一些借口.当我们在做不同的爬虫项目时,根据项目的实际情况,稍微变动 ...

  • Python爬虫框架有哪些?这几种最常见!

    Python之所以被称为"爬虫"的首选语言,主要原因是因为Python拥有很多爬虫框架,不仅功能齐全.优点多,而且可以帮助程序员以更少的代码实现更多的功能,让工作变得更加轻松便利. ...

  • 巨细!Python爬虫详解

    来源:Python 技术「ID: pythonall」 爬虫(又称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者):它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本. ...

  • 7款好用的Python爬虫框架!

    Python是网络爬虫的首选语言,在爬虫领域有着独特的优势和用途,而且Python还拥有很多爬虫框架,那么你知道哪个Python爬虫框架最高效吗?这几个你一定要知道. 1.Scrapy Scrapy是 ...

  • Python爬虫入门教程(十四):爬取有声小说网站数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  • Python爬虫入门教程:豆瓣Top电影爬取

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理.   基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests p ...

  • Python爬虫入门教程02:笔趣阁小说爬取

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 前文 01.python爬虫入门教程01:豆瓣Top电影爬取 基本开发环境 Python 3 ...

  • Python爬虫入门教程01:豆瓣Top电影爬取

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  • 30分钟教会你爬取网站高清小姐姐图片,Python零基础爬虫入门

    30分钟教会你爬取网站高清小姐姐图片,Python零基础爬虫入门

  • Python爬虫入门 – Programming language

    网络爬虫,即通过程序的方式获取互联网或其它内网的内容数据,有结构化的数据也有非结构化数据. Python在该领域非常受欢迎,对于很多科研人员.程序员来说,获取结构化数据是进行数据分析的必要前提. 下面 ...

  • 花了一周时间,终于把python爬虫入门必学知识整理出来了

    Python是近几年最火热的编程语言,大家既然看到了爬虫的知识,想必也了解到python. 很多都说python与爬虫就是一对相恋多年的恋人,二者如胶似漆 ,形影不离,你中有我.我中有你,有pytho ...

  • Python 爬虫入门四之 URLError 异常处理

    大家好,本节在这里主要说的是 URLError 还有 HTTPError,以及对它们的一些处理.1.URLError首先解释下 URLError 可能产生的原因:网络无连接,即本机无法上网连接不到特定 ...

  • Python爬虫入门,快速抓取大规模数据(第二部分)

    通过第一部分的练习,我们已经有了一个可运行的爬虫.这一部分我们详细的看看如何使用BeautifulSoup从网页中提取我们需要的数据,学习的目标是能够使用BeautifulSoup从网页中提取任意的数 ...