Python爬虫练习:爬取800多所大学学校排名、星级等

前言

国内大学最新排名,北大反超,浙大仅第四,中科大跌至第八

时隔五年,“双一流”大学即将迎来首次大考,这也是继改变高校评断标准之后,第一次即将以官方对外发布,自然是引来了许多人的关注。最近,有许多不同机构发布的国内高校排名,但彼此之间的差异很大,网友之间的争议也很大。

私信小编01即可获取大量Python学习资料

项目目标

爬取高三网大学排名,并保存

目标网址

http://m.gaosan.com/gaokao/265440.html

基本环境配置

  • python 3.6 pycharm

爬虫代码

导入工具

import requestsimport parselimport csv

请求网页数据

url = 'http://m.gaosan.com/gaokao/265440.html'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}response = requests.get(url=url, headers=headers)response.encoding = response.apparent_encoding

爬取数据

selector = parsel.Selector(response.text)trs = selector.css('#page tr')for tr in trs:    dit = {}    ranking = tr.css('td:nth-child(1)::text').get()    dit['名次'] = ranking    school = tr.css('td:nth-child(2)::text').get()    dit['学校名称'] = school    score = tr.css('td:nth-child(3)::text').get()    dit['综合得分'] = score    star = tr.css('td:nth-child(4)::text').get()    dit['星级排名'] = star    level = tr.css('td:nth-child(5)::text').get()    dit['办学层次'] = level    csv_writer.writerow(dit)

保存数据

f = open('排名.csv', mode='a', encoding='utf-8', newline='')csv_writer = csv.DictWriter(f, fieldnames=['名次', '学校名称', '综合得分', '星级排名', '办学层次'])f.close()

运行代码,效果如下图

(0)

相关推荐

  • Python爬取股票信息,并可视化数据的示例

    前言 截止2019年年底我国股票投资者数量为15975.24万户, 如此多的股民热衷于炒股,首先抛开炒股技术不说, 那么多股票数据是不是非常难找, 找到之后是不是看着密密麻麻的数据是不是头都大了? 今 ...

  • Python Scrapy中文教程,Scrapy框架快速入门!

    谈起爬虫必然要提起 Scrapy 框架,因为它能够帮助提升爬虫的效率,从而更好地实现爬虫. Scrapy 是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含 request ...

  • Python爬虫新手入门教学(四):爬取前程无忧招聘信息

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  • 爬虫-使用Python3爬取360DOC文档

    xlixiaohui关注2018.04.04 11:50:30字数 922阅读 2,798个人博客:http://lixiaohui.livetags:Python3.爬虫.网页.requests.r ...

  • 如何批量采集网页表格数据?

    Comming Soon! Python&Stata数据分析课寒假工作坊 我们最想要的数据格式就是表数据,但这表格并不是excel文件,而是存在于网页上的表数据.比如本教程实验网站 http: ...

  • 爬虫精进6

    ---------如有疑问,欢迎交流指正-------- 第6关 练习-储存电影信息-参考 第一步:分析问题,明确结果 问题需求就是把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下 ...

  • 一个1000元的爬虫外包项目,三种爬虫模式给你轻松做出来

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于青灯编程 ,作者:清风 Python爬虫.数据分析.网站开发等案例教程视频免费 ...

  • Python爬虫入门教程:豆瓣Top电影爬取

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理.   基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests p ...

  • Pandas也能爬虫?还如此简单!

    众所周知,一般的爬虫套路无非是构造请求.解析网页.提取要素.存储数据等步骤.构造请求主要用到requests库,提取要素用的比较多的有xpath.bs4.css和re.一个完整的爬虫,代码量少则几十行 ...

  • python爬虫25 | 爬取下来的数据怎么保存? CSV 了解一下

    大家好 我是小帅b 是一个练习时长两年半的练习生 喜欢 唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思 我又走错片场了 接下来的几篇文章 小帅b将告诉你 如何将你爬取到的数据保存下来 有文本 ...

  • Python爬虫:爬取需要登录的网站

    不少伙伴学爬虫,这就出一期Python爬虫教程,文末总结的有视频教程,自己按需学习哈! 爬虫在采集网站的过程中,部分数据价值较高的网站,会限制访客的访问行为.这种时候建议通过登录的方式,获取目标网站的 ...

  • python爬虫06 | 你的第一个爬虫,爬取当当网 Top 500 本五星好评书籍

    来啦,老弟 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 ... 那么接下来 我们就使用 requests 和 re ...

  • 【Python实战】爬取5K分辨率超清唯美壁纸

    简介 壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物.然而,终究有一天你已经产生审美疲劳了,但你下定决定要换壁纸的时候,又发现网上的壁 ...

  • python+selenium+requests爬取我的博客粉丝的名称

    一.爬取目标 1.本次代码是在python2上运行通过的,python3不保证,其它python模块 - selenium 2.53.6 +firefox 44 - BeautifulSoup - r ...

  • 基于golang的爬虫,爬取QQ邮箱号、链接、手机号、身份证号

    爬虫基础方案,基本的接口封装和使用,并为使用并发的处理 代码篇 package mainimport ( "fmt" "io/ioutil" "log ...

  • 基于golang的小爬虫,爬取QQ邮箱号和QQ号

    这个只是一个简单的版本只是获取QQ邮箱并且没有进行封装操作,另外爬出来的数据也没有进行去重操作 package mainimport ( "fmt" "io/ioutil ...

  • 【刑事实务】利用爬虫技术爬取电子书传播牟利行为如何认定

    [刑事法库]创办宗旨 传播刑事领域理论热点,分享办案实务经验技巧 总结类案裁判规则要旨,权威解读最新法律法规 详细解析热点疑难问题,定期发布两高指导案例 [版权声明]版权归原作者所有,仅供学习参考之用 ...

  • 如何使用 Python 和 BeautifulSoup 爬取网站

    作者丨Justin Yek 译者丨平川 互联网上的信息如此之多,任何人穷其一生也无法全部消化吸收.你需要的不是访问这些信息,而是一种可伸缩的方式,可以用来收集.组织和分析这些信息.你需要的是 Web ...