一起学爬虫(Python) — 02
今天要学会爬
- requests模块
- 什么是requests模块
- 如何安装requests模块
- 怎么用requests模块
- 实战!
requests模块
什么是requests模块
大家好鸭,今天是写博客的第二天,昨天写的结果只有不几个人看了呢,不过还有两个小伙伴点赞了,真的是万分感谢!!!
希望各位看客能多多提意见还有提问题哦,小泽都会努力解答的~
咳咳,开始今天的正题:requests模块。
如果学过python基础的话就会知道模块是个什么东西,没有学过直接来这里看的呢,也应该大致知道模块是个什么东东,就是类似于数学公式的存在,不需要繁琐的计算,直接套用公式的那种感觉。
那么,什么是requests模块呢?
python自带的一款基于网络请求的模块,功能强大,效率极高!
一个字,牛逼!!
总之你不会写不理解的东东,这个模块统统都给你解决喽,你只需要一句话,一个词就可以直接调用一大堆神奇的指令~
如何安装requests模块
环境安装:
pip install requests
- 1
- 1
我的系统是win7的,不过推荐各位用win10系统,在下是因为贫穷…咳咳,还有如果用的是pycharm的话,安装模块要在……
找到上图所示的目录Project–>Project interpreter,然后点击右上角的加号。
搜索requests,然后点击左下角的install Package进行下载,成功了下面会提示你绿了(有个绿条条)
这里我已经下载过了,所以各位自行下载吧~
怎么用requests模块
如果上面的步骤都准备好了,那么恭喜你,可以开始爬了!
当然可能会有些小伙伴会报错呀报错呀报错呀之类的,没事,把问题留言一下,小泽看到了会及时回复的~
那么,光看不做可不行,知道了理论知识,也要会实践,对吧。
在那之前先了解一下requests模块干事的四个步骤,然后敲代码的时候要想着这四个步骤,一步一步来,稳住,不要浪!
1.指定url(发现敌军位置)
2.发起请求(请求使用意大利炮)
3.获取响应数据(开炮!)
4.持久化存储(收拾战场)
后面的比喻可能不那么精准哈…不过大概意思就是这样,要知道,requests模块是模拟我们去上网,所以要从我们自己的角度去给requests模块施加命令,不能一步登天哈。
实战!
首先啊,不管干什么,要先记住一件事,导入模块!
#导入requests模块import requests
1
2
1
2
1.指定url
那我们随便找一个网站去试一试,随便找啊,比如说百度吧。
www.baidu.com
#1:指定urlurl='https://www.baidu.com/'
- 1
- 2
- 1
- 2
各位会不会觉得百度很厉害,一定爬不下来?
给我爬!
#2:发起请求(get方法会返回一个响应对象)response = requests.get(url=url)
1
2
1
2
这一步大家应该都看得懂吧,requests.get()是一个方法,里面要指定url,爬也得爬对地方对吧。response则是接受了requests.get()方法爬取回来的数据,就是响应对象,很专业的名词啊,但是没关系,知道就好了。
#3:获取响应数据page_text = response.text
- 1
- 2
- 1
- 2
到了第三步喽,这个时候已经爬回东西来了,进去了又出来,那还进不进去都无所谓了,毕竟东西已经爬到了,接下来就是把这个东西转换成我们能看得懂的数据,当然你也可以自己把response打印一下,看一看对吧,要多动手实践才能知道为什么要这么做的,不要光我说什么就是什么了。
.text就是把response转换成了文本格式,然后又把数据给了page_text,这里为什么要用page_text呢,因为高级啊!别人看不懂就会显得很高级~
#4:持久化存储with open('./baidu.html','w',encoding='utf-8') as fp: fp.write(page_text)print('爬完了')
1
2
3
4
1
2
3
4
最后一步,把我们爬取到的东西保存下来,这个大家应该都能理解,突然觉得很简单吧,这就是爬虫!
但是程序员会让你这么简单的爬下来吗那些重要数据吗?答案肯定是No!所以为了爬取美女图片,我们要更加努力学习!
明天,我们就来使自己更强大!
至少得爬取到我们想要的东西,对吧。
那今天就到这里啦,各位看官早点睡吧,晚安~