【Python】简单网络爬虫实现

2024-05-10 02:01:13

引言

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 --维基百科

网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。
一般有两个步骤：1.获取网页内容 2.对获得的网页内容进行处理

准备

Linux开发环境

python3.61安装方法:https://www.cnblogs.com/kimyeee/p/7250560.html

安装一些必要的第三方库
其中requiests可以用来爬取网页内容，beautifulsoup4用来将爬取的网页内容分析处理

pip3 install requiests
pip3 install beautifulsoup4

第一步：爬取

使用request库中的get方法，请求url的网页内容
更多了解：http://docs.python-requests.org/en/master/

编写代码

[root@localhost demo]# touch demo.py
[root@localhost demo]# vim demo.py

#web爬虫学习 -- 分析
#获取页面信息
#输入：url
#处理：request库函数获取页面信息，并将网页内容转换成为人能看懂的编码格式
#输出：爬取到的内容
import requests
def getHTMLText(url):
try:
r = requests.get( url, timeout=30 )
r.raise_for_status() #如果状态码不是200，产生异常
r.encoding = 'utf-8' #字符编码格式改成 utf-8
return r.text
except:
#异常处理
return ' error '
url = 'http://www.baidu.com'
print( getHTMLText(url) )

[root@localhost demo]# python3 demo.py

第二步：分析

使用bs4库中BeautifulSoup类，生成一个对象。find()和find_all()方法可以遍历这个html文件，提取指定信息。
更多了解：https://www.crummy.com/software/BeautifulSoup/

编写代码

[root@localhost demo]# touch demo1.py
[root@localhost demo]# vim demo1.py

#web爬虫学习 -- 分析
#获取页面信息
#输入：url
#处理：request库获取页面信息，并从爬取到的内容中提取关键信息
#输出：打印输出提取到的关键信息
import requests
from bs4 import BeautifulSoup
import re
def getHTMLText(url):
try:
r = requests.get( url, timeout=30 )
r.raise_for_status() #如果状态码不是200，产生异常
r.encoding = 'utf-8' #字符编码格式改成 utf-8
return r.text
except:
#异常处理
return ' error '
def findHTMLText(text):
soup = BeautifulSoup( text, 'html.parser' ) #返回BeautifulSoup对象
return soup.find_all(string=re.compile( '百度' )) #结合正则表达式，实现字符串片段匹配
url = 'http://www.baidu.com'
text = getHTMLText(url) #获取html文本内容
res = findHTMLText(text) #匹配结果
print(res) #打印输出

[root@localhost demo]# python3 demo1.py

一个例子：中国大学排名爬虫

参考链接：https://python123.io/index/notebooks/python_programming_basic_v2

#e23.1CrawUnivRanking.py
import requests
from bs4 import BeautifulSoup
allUniv = []
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = 'utf-8'
return r.text
except:
return ''
def fillUnivList(soup):
data = soup.find_all('tr')
for tr in data:
ltd = tr.find_all('td')
if len(ltd)==0:
continue
singleUniv = []
for td in ltd:
singleUniv.append(td.string)
allUniv.append(singleUniv)
def printUnivList(num):
print('{:^4}{:^10}{:^5}{:^8}{:^10}'.format('排名','学校名称','省市','总分','培养规模'))
for i in range(num):
u=allUniv[i]
print('{:^4}{:^10}{:^5}{:^8}{:^10}'.format(u[0],u[1],u[2],u[3],u[6]))
def main():
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
html = getHTMLText(url)
soup = BeautifulSoup(html, 'html.parser')
fillUnivList(soup)
printUnivList(10)
main()

展示

赞 (0)

干货！一文教会你 Scrapy 爬虫框架的基本使用

原创投稿君 Python数据之道收录于话题 #读者投稿 28 #Python干货分享 2 #Python 11 #项目实战 20 出品:Python数据之道 (ID:PyDataLab) 作者:叶 ...
用 50 行代码写个听小说的爬虫

来源:Python 技术「ID: pythonall」在路上发现好多人都喜欢用耳机听小说,同事居然可以一整天的带着一只耳机听小说.小编表示非常的震惊.今天就用 Python 下载听小说 tingch ...
【杂谈】爬虫基础与快速入门指南

【杂谈】爬虫基础与快速入门指南
Python爬取网易云音乐辑的图片、专辑名和专辑出版时间

本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 作者:阿里波特来源:CSDN Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 h ...
【python实现网络爬虫（14）】python爬取酷狗中多类型音乐步骤详解（附全部源代码）

目标网址:酷狗音乐-赤伶,页面如下爬虫逻辑: [找到要获取特定音乐的url]>>>[找到该资源链接的url]>>>[封装获取音乐的函数]>>>[ ...
SmartScraper | 简单、自动、快捷的Python网络爬虫

SmartScraper使页面数据抓取变得容易,不再需要学习诸如pyquery.beautifulsoup等定位包,我们只需要提供的url和数据给ta学习网页定位规律即可. 一.安装 pip inst ...
Python网络爬虫学习基础笔记

python requests库爬虫基础本次学习的python爬虫所使用的是requests库下面就是requests库的7种主要方法方法名说明 requests.request() 构造一个 ...
什么是网络爬虫？Python爬虫工作原理！

随着互联网的发展,大家对于爬虫这个词已经不再陌生了.但是什么是爬虫?爬虫的工作原理是什么呢?对于IT小白还是非常疑惑的,今天小编就为大家详细的介绍一下. 什么是网络爬虫? 网络爬虫就是一种从互联网抓取 ...
什么是爬虫？Python网络爬虫可以做什么？

网络爬虫是Python的应用领域之一,世界上80%的爬虫都是基于Python开发的,那么Python爬虫能干什么呢?我们一起来看看吧. 什么是爬虫? 网络爬虫,是一种按照一定的规则,自动地抓取万维网信 ...
一文弄清Python网络爬虫解析库！内含多个实例讲解

在了解爬虫基础.请求库和正则匹配库以及一个具体豆瓣电影爬虫实例之后,可能大家还对超长的正则表达式记忆犹新,设想如果想要匹配的条目更加多那表达式长度将会更加恐怖,这显然不是我们想要的,因此本文介绍的 ...
Python新手学习网络爬虫主要涉及哪些知识?

爬虫,被称为网络机器人,现在爬虫在我们生活中具有非常重要,可以解决很多繁琐的过程,而python作为爬虫的首选语言,受到很多人的关注和喜欢.那么学习python做爬虫主要学习哪些内容呢?小编为大家介绍 ...
腾讯课堂 | Python网络爬虫与文本分析

课程纲要 ·课程目标: 掌握Python语法.网络爬虫.文本分析.机器学习的核心知识点和分析思路·核心知识点: 爬虫原理及应用. 非结构化文本数据挖掘的思路及方法.机器学习应用等·环境配置: Pyth ...
Python网络爬虫相关基础概念！

网络爬虫是Python应用领域之一,也是很多学生比较关注的问题,今天就为大家介绍一下Python网络爬虫相关基础概念. 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够 ...