Python君，快给朕来一部电影~

2024-08-06 20:20:31

第一时间获取 Python 技术干货！

阅读文本大概需要 6 分钟。

目标

今天的目标很简单，就是想下载一些「微电影」回家过年。

以国内微电影活跃度最高的社区，「新片场」为例，爬取站内所有的高清电影信息保存到 MongoDB 数据库，并使用异步函数下载到本地。

准备工作

首先，需要下载并配置好 MongoDB 数据库，并安装「mongoengine」库。

由于下载文件是一个 IO 密集型操作，这里用到了协程搭配异部请求，需要安装「aiohttp」库。

# 更方便管理 Monogodb
pip3 install mongoengine

# 异步http
pip3 install aiohttp

分析思路

首先我们打开新片场的影视作品首页，发现默认是按热门度排序的。

「http://www.xinpianchang.com/channel/index/sort-like?from=tabArticle」

由于页面元素比较简单，使用「xpath」可以很快的定位到每一条影片的基本数据，包含「影片名称、类型、播放量、点赞量、封面图」等。

# 电影标题
title = film_element.xpath('.//div[@class="video-con-top"]/a/p/text()')[0]

# 电影类型
type = remove_space('/'.join(
film_element.xpath('.//div[@class="new-cate"]/span[@class="fs_12 fw_300 c_b_9"]/text()')))

# 播放量和点赞数
play_num = film_element.xpath('.//span[@class="fw_300 icon-play-volume"]/text()')[0]

like_num = film_element.xpath('.//span[@class="fw_300 c_b_9 icon-like"]/text()')[0]

# 封面图片
img_cover = film_element.xpath('.//a[@class="video-cover"]/img/@_src')[0]

通过分析，可以发现影片的播放地址中的变量就是影片的 id，被放置在 li 标签的「data-articleid」属性下。

最后就是要获取到影片的下载地址。

当我们使用 Chrome 插件「Toggle JavaScript」禁用 JS 后，发现影片没法正常播放，说明影片播放页面关键数据是动态加载的。

打开 Network Tab，刷新当前页面。

通过观察，发现页面的部分关键数据是通过下面的一个地址发送的 GET 请求。

「https://openapi-vtom.vmovier.com/v3/video/5C4A8377173CE?expand=resource,resource_origin?」

另外，请求地址中包含的一个动态字符串「5C4A8377173CE」，隐藏于源码中的JS 模块中。

这里可以通过正则表达式匹配到「vid」后面的字符串，就可以组装成我们需要的地址，通过这个地址就可以获取影片的下载地址。

# 请求地址

download_url_pre = 'https://openapi-vtom.vmovier.com/v3/video/{}?expand=resource,resource_origin?'
req = requests.get(play_address, headers=self.headers)
# 获取vid

vid_pre = re.findall(r'vid: "(.*)",', req.text)

# 获取到真实的请求地址 download_url_pre = "" if len(vid_pre) == 0 else self.download_url_pre.format(vid_pre[0])

获取到数据之后，定义好一个 Model，然后就可以插入到数据库中了。

film_data = {

    'title': title,

    'type': type,

    'play_num': play_num,

    'like_num': like_num,

    'img_cover': img_cover,

    'play_address': play_address,

    'download_address': download_address

}

model = FilmModel(**film_data) try: model.save() print('插入一条电影数据成功') self.films.append(film_data) except Exception as e: print('插入数据异常') print(e)

待爬取到的影片数据之后，就可以使用「asyncio + aiohttp」异步函数下载影片数据到本地。

async def download_a_film(title, download_address):

    """

    下载一部电影

    :param title:

    :param download_address:

    :return:

    """

    print('下载标题：%s,下载地址:%s' % (title, download_address))

    if not download_address:

        return
async with aiohttp.ClientSession() as session:

        async with session.get(download_address) as response:

            # 注意：由于标题中包含空格、/等特殊符号，这里要做一些处理

            file_full_path = file_path + title.replace(" ", "").replace("/", "") + ".mp4"

            video = await response.read()

            with open(file_full_path, 'wb') as file:

                file.write(video)

                print('电影：%s下载成功' % title)
loop = asyncio.get_event_loop()

# 任务列表

tasks = []

for film in filmSpider.films:

     tasks.append(download_a_film(film.get('title'), film.get('download_address')))

loop.run_until_complete(asyncio.gather(*tasks)) loop.close()

喝一杯咖啡回来，Python 君已经将几千部微电影下载到本地了。

Python|判断一个5位数是不是回文数

问题描述题目描述:一个5位数,判断它是不是回文数.让我们一起来解决这个题目吧!首先,回文数的概念:指这个数反向排序与原顺序相同并且该数字都是同一个数字的数值.在了解回文数的概念后,在python语言中 ...
超详细，手把手教你用20行Python代码制作飞花令小程序！

来源:早起Python 作者:刘早起飞花令是古时候人们经常玩一种"行酒令"的游戏,是中国古代酒令之一,属雅令."飞花"一词则出自唐代诗人韩翃<寒食> ...
信号处理之倒频谱原理与python实现

更多技术,第一时间送达倒频谱定义倒频谱可以分析复杂频谱图上的周期结构,分离和提取在密集调频信号中的周期成分,对于具有同族谐频.异族谐频和多成分边频等复杂信号的分析非常有效.倒频谱变换是频域信号的 ...
元旦假期，去哪里旅游好呢？Python爬取元旦旅游最全攻略！

2020还有最后几天就就结束了,您考虑好2021的第一天去哪里旅游了吗,不如来看看使用Python爬取最全攻略!受益的朋友给个三连. 转发请求声明. 一.实现思路首先我们爬取的网站是一个穷游网站: ...
手把手教你使用Python网络爬虫获取B站视频选集内容（附源码）

大家好,我是Python进阶者. 前言前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码,小编觉得非常奈斯,这里整理成一篇小文章,分享给大家学习. 关于雪球兄,大家应该都 ...
Python 抓取知乎几千张小姐姐图片是什么体验？

来源:Python 技术「ID: pythonall」知乎上有许多关于颜值.身材的话题,有些话题的回复数甚至高达几百上千,拥有成千上万的关注者与被浏览数.如果我们在摸鱼的时候欣赏这些话题将花费大量的 ...
舍不得快进的5部电影，每一部都是好评如潮，你错过了哪几部

伴随着全球文化影视不断提升和发展,近几年来影迷们陆续迎来了众多影视作品来袭,一定程度上拯救了影荒困扰.其中,在层出不穷的影片中,难免会有一些值得大家二刷,甚至是让人舍不得快进的电影.今天,笔者就个人看 ...
倪妮又扑了一部电影，网友：已经快从演员变成模特了

本文由明星粉丝团作者芦笙原创,未经允许不得转载提到倪妮的作品,很多人的心中都有一个疑问,除了<金陵十三钗>还有什么?这是一个很可怕的问题,倪妮出道的时间也不短了,当年是被很多人都看好的谋 ...
豆瓣9.3分，电影《熔炉》因何伟大？一部电影改变了世界

最近韩国曝光的"N号房"丑闻,再一次让人们把目光聚焦到女性遭性侵的事件中. 这样的事件远非孤例,早在15年前韩国就曾曝光过一起性侵事件,并由此催生了一部电影<熔炉>. ...
诡异！一部电影高云翔、高以翔均出演，高云翔人物原型吉喆也去世

两年前也就是2017年暑期,一部体育题材电影<我是马布里>上映.篮球迷或体育迷对马布里这个名字不会陌生. 这位绰号"独狼"的前美国职业篮球运动员,司职控球后卫,1996 ...
《星际穿越》：你的鹤发我的童颜，没有一部电影让我如此泪流满面

《星际穿越》：你的鹤发我的童颜，没有一部电影让我如此泪流满面
Python爬虫入门教程：豆瓣Top电影爬取

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 基本开发环境 Python 3.6 Pycharm 相关模块的使用 requests p ...
因姜文的一部电影而火了的地方

<让子弹飞>是2010年上映的一部电影,是姜文导演的第四部电影作品,云集了姜文.周润发.葛优三位华语影坛天王级的人物,以及刘嘉玲.陈坤.廖凡.胡军.姜武等一线演员,可谓阵容豪华,成为当年最 ...
豆瓣9.8，空心人必看的一部电影

亚嘉杜附近散步(La promenade d 'Argenteuil) 克劳德·莫奈1872 开放报名:发圈训练营.写作训练营.意念植入发圈心法训练营.教学模式:VIP 1对1学徒制. 为了保证教 ...
说一部电影，谈一谈风向

现在的形势,估计大家也是心里有数的. 别的不说,现在为什么已经传出了收紧银根的信号?其实还是疫情导致的生产萎缩和拜登印钱叠加引发的原材料暴涨和通胀,已经避无可避了. 不要用常理思考问题,不要觉得中国是 ...

Python君，快给朕来一部电影~

相关推荐