不看后悔！爬取动态网页数据的新方法--selenim案例讲解

2024-05-28 19:41:18

动态网页加载数据，我们之前用的方法是用JSON获取网页的原始数据，过程比较繁琐，这节课我们利用selenim自动化抓取网页的数据，接下来为大家一一阐述爬取的过程。

1.爬取网页数据的解题思路

首先我们先回忆一下我们爬取网页的主要步骤:先获取网页完整的源码数据--然后利用xpath数据解析--获取想要的数据

2.获取网页源码数据

这次我们操作的网页为
http://scxk.nmpa.gov.cn:81/xk/，该网页为动态加载数据，用之前requests模块获取数据时，不能直接通过get请求获取真正的源码数据，我们当时采用的是Ajax请求间接拿到了该页面的数据，这次我们用不一样的selenim模块获取数据

第一步，导入模块自动读取发起数据请求

我们利用苹果电脑自带的Safari浏览器发起请求，得到实例化的对象driver，然后再发起get请求

第二步，获取源码数据

selenim模块获取网页源码的方法为，通过page_source方法，不同于requests方法是通过text，这样我们就拿到了该网页的源码数据

第三步，解析数据

我们主要是通过源码获取该页面的企业名称，如下图，解析数据与requests请求一样采用了xpath解析

第四步，关闭自动化

3.获取网页源码数据

最终效果图

赞 (0)

Python爬虫 requests教学（一）：requests的请求参数

requests模块是一个网络请求模块,可以帮助我们模拟成客户端去请求服务器的数据. 我们今天就是主要针对这个模块进行学习. 我们可以在浏览器中抓取到这些请求与响应的内容,那么我们可以"伪造 ...
一起学爬虫（Python） — 02

一起学爬虫(Python) - 19 年轻人,进来学自动化今天要学会爬 requests模块什么是requests模块如何安装requests模块怎么用requests模块实战! reque ...
Python爬虫入门，快速抓取大规模数据

大到各类搜索引擎,小到日常数据采集,都离不开网络爬虫.爬虫的基本原理很简单,遍历网络中网页,抓取感兴趣的数据内容.这篇文章会从零开始介绍如何编写一个网络爬虫抓取数据,然后会一步步逐渐完善爬虫的抓取功能 ...
Python爬取IP代理，让你构建IP代理池（附源码）

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 import reque ...
Python量化投资详细讲解网页动态数据的获取与保存

Python量化投资详细讲解网页动态数据的获取与保存
用 Python 爬取各类基金数据并动态展示

以下文章来源于Python爬虫数据分析挖掘 ,作者李运辰 Python爬虫数据分析挖掘四年的编程开发爱好者,分享日常编程学习和接私活过程,记录生活,共同进步.关注小白,编程快乐 01 前言去年接触 ...
Python爬虫实战教学：爬取电影视频数据

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 做了一些小项目,用的技术和技巧会比较散比较杂,写一个小品文记录一下,帮助熟悉. 需求:经常在腾讯视 ...
以某乎为实战案例，教你用Python爬取手机App数据

以某乎为实战案例，教你用Python爬取手机App数据
100行代码爬取招聘职位数据

一.背景为了分析一线城市的房价在工资的占比,我用Python分别爬取了自如以及拉勾的数据.(见公众号「Crossin的编程教室」今天第1条推送) 前一篇文章用 scrapy 爬取了自如房源信息,本文 ...
Python3爬虫教程 -课时31：Scrapy Tushare爬取微博股票数据

Python3爬虫教程 -课时31：Scrapy Tushare爬取微博股票数据
python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下

大家好我是小帅b 是一个练习时长两年半的练习生喜欢唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思我又走错片场了接下来的几篇文章小帅b将告诉你如何将你爬取到的数据保存下来有文本 ...
听说你的爬虫一直在整站里循环绕圈圈爬取重复的数据？

今天小帅b要跟你说说增量爬虫是这样的当你去爬取某个网站的数据时你会发现这些网站随着时间的推移会更新更多的网页数据这时候你要爬取的是那些更新的网页数据而不是又一次爬取整站的内容对 ...
Power BI抓取web网页数据方法汇总！

展开
Excel办公技巧---抓取不重复数据的六大方法

方法1:通过[数据]--->[删除重复项]完成方法2:通过[数据]--->[高级筛选]完成. 方法3:通过[插入]--->[数据透视表]完成方法4:通过函数完成我们要添加辅助列 ...