Python爬虫练习：爬取800多所大学学校排名、星级等

2024-05-10 02:58:17

前言

国内大学最新排名，北大反超，浙大仅第四，中科大跌至第八

时隔五年，“双一流”大学即将迎来首次大考，这也是继改变高校评断标准之后，第一次即将以官方对外发布，自然是引来了许多人的关注。最近，有许多不同机构发布的国内高校排名，但彼此之间的差异很大，网友之间的争议也很大。

私信小编01即可获取大量Python学习资料

项目目标

爬取高三网大学排名，并保存

目标网址

http://m.gaosan.com/gaokao/265440.html

基本环境配置

python 3.6 pycharm

爬虫代码

导入工具

import requestsimport parselimport csv

请求网页数据

url = 'http://m.gaosan.com/gaokao/265440.html'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}response = requests.get(url=url, headers=headers)response.encoding = response.apparent_encoding

爬取数据

selector = parsel.Selector(response.text)trs = selector.css('#page tr')for tr in trs:    dit = {}    ranking = tr.css('td:nth-child(1)::text').get()    dit['名次'] = ranking    school = tr.css('td:nth-child(2)::text').get()    dit['学校名称'] = school    score = tr.css('td:nth-child(3)::text').get()    dit['综合得分'] = score    star = tr.css('td:nth-child(4)::text').get()    dit['星级排名'] = star    level = tr.css('td:nth-child(5)::text').get()    dit['办学层次'] = level    csv_writer.writerow(dit)

保存数据

f = open('排名.csv', mode='a', encoding='utf-8', newline='')csv_writer = csv.DictWriter(f, fieldnames=['名次', '学校名称', '综合得分', '星级排名', '办学层次'])f.close()

运行代码，效果如下图

Python爬取股票信息，并可视化数据的示例

前言截止2019年年底我国股票投资者数量为15975.24万户, 如此多的股民热衷于炒股,首先抛开炒股技术不说, 那么多股票数据是不是非常难找, 找到之后是不是看着密密麻麻的数据是不是头都大了? 今 ...
Python Scrapy中文教程，Scrapy框架快速入门！

谈起爬虫必然要提起 Scrapy 框架,因为它能够帮助提升爬虫的效率,从而更好地实现爬虫. Scrapy 是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含 request ...
Python爬虫新手入门教学（四）：爬取前程无忧招聘信息

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...
爬虫-使用Python3爬取360DOC文档

xlixiaohui关注2018.04.04 11:50:30字数 922阅读 2,798个人博客:http://lixiaohui.livetags:Python3.爬虫.网页.requests.r ...
如何批量采集网页表格数据？

Comming Soon! Python&Stata数据分析课寒假工作坊我们最想要的数据格式就是表数据,但这表格并不是excel文件,而是存在于网页上的表数据.比如本教程实验网站 http: ...
爬虫精进6

---------如有疑问,欢迎交流指正-------- 第6关练习-储存电影信息-参考第一步:分析问题,明确结果问题需求就是把豆瓣TOP250里面的序号/电影名/评分/推荐语/链接都爬取下 ...
一个1000元的爬虫外包项目，三种爬虫模式给你轻松做出来

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于青灯编程 ,作者:清风 Python爬虫.数据分析.网站开发等案例教程视频免费 ...
Python爬虫入门教程：豆瓣Top电影爬取

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests p ...
Pandas也能爬虫？还如此简单！

众所周知,一般的爬虫套路无非是构造请求.解析网页.提取要素.存储数据等步骤.构造请求主要用到requests库,提取要素用的比较多的有xpath.bs4.css和re.一个完整的爬虫,代码量少则几十行 ...
python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下

大家好我是小帅b 是一个练习时长两年半的练习生喜欢唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思我又走错片场了接下来的几篇文章小帅b将告诉你如何将你爬取到的数据保存下来有文本 ...
Python爬虫：爬取需要登录的网站

不少伙伴学爬虫,这就出一期Python爬虫教程,文末总结的有视频教程,自己按需学习哈! 爬虫在采集网站的过程中,部分数据价值较高的网站,会限制访客的访问行为.这种时候建议通过登录的方式,获取目标网站的 ...
python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍

来啦,老弟我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 ... 那么接下来我们就使用 requests 和 re ...
【Python实战】爬取5K分辨率超清唯美壁纸

简介壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物.然而,终究有一天你已经产生审美疲劳了,但你下定决定要换壁纸的时候,又发现网上的壁 ...
python+selenium+requests爬取我的博客粉丝的名称

一.爬取目标 1.本次代码是在python2上运行通过的,python3不保证,其它python模块 - selenium 2.53.6 +firefox 44 - BeautifulSoup - r ...
基于golang的爬虫，爬取QQ邮箱号、链接、手机号、身份证号

爬虫基础方案,基本的接口封装和使用,并为使用并发的处理代码篇 package mainimport ( "fmt" "io/ioutil" "log ...
基于golang的小爬虫，爬取QQ邮箱号和QQ号

这个只是一个简单的版本只是获取QQ邮箱并且没有进行封装操作,另外爬出来的数据也没有进行去重操作 package mainimport ( "fmt" "io/ioutil ...
【刑事实务】利用爬虫技术爬取电子书传播牟利行为如何认定

[刑事法库]创办宗旨传播刑事领域理论热点,分享办案实务经验技巧总结类案裁判规则要旨,权威解读最新法律法规详细解析热点疑难问题,定期发布两高指导案例 [版权声明]版权归原作者所有,仅供学习参考之用 ...
如何使用 Python 和 BeautifulSoup 爬取网站

作者丨Justin Yek 译者丨平川互联网上的信息如此之多,任何人穷其一生也无法全部消化吸收.你需要的不是访问这些信息,而是一种可伸缩的方式,可以用来收集.组织和分析这些信息.你需要的是 Web ...

Python爬虫练习：爬取800多所大学学校排名、星级等

前言

项目目标

基本环境配置

爬虫代码

运行代码，效果如下图

相关推荐