案例|虎扑社区用户行为分析

前阵子,一条微博成功引起了我的注意:
没想到你竟是这样的虎扑!
正好我们也在做网站的数据分析案例,不如就用 Python 来分析下,虎扑你这个直男论坛到底是怎样的?
数据来源
这个案例我们几个月前就有计划了,所以数据是之前采集的。
时间:2019.3.16-2019.6.22
(虎扑论坛只显示近三个月的帖子)
数据:
板块内容:共 101.4w 个帖子的概要数据
帖子内容:回复数大于 200,浏览数大于 5w 的 4.4w 个帖子
用户页面:29.9w(详细帖子数据中发帖回帖用户),其中 10w 有效数据(剩余 17.6w 未填写,1.4w 填地球)
说明一下,我们这里不可能获取到虎扑的全部数据,但作为一个抽样统计已经足够。其中帖子的详细内容由于请求量很大,我们就选取了其中回复和浏览都比较高的那部分帖子作为分析样本。
接下来就让我们来看一看详细的数据情况:
板块
虽然虎扑名义上是个篮球论坛,但步行街(无主题闲聊区)的帖子占据了半壁江山。对比之下很悲凉的是中国足球论坛,基本没啥话题。
虽然主题数不如步行街,但看平均回帖数,篮球论坛还是名副其实。
发帖
看每天日间发帖时间的分布,两个高峰:上午10点(上班摸鱼)和晚上21点(吃过饭躺床上)。上午高峰还有个原因,就是NBA比赛都是这个时间段转播的。
这是3个月来每天发帖总数的变化趋势,看得出在稳步上升。知道曲线上为啥会有定期的波峰吗?通常都是精彩比赛场次的日子。图上3个峰值的日子分别对应:火箭vs勇士、猛龙vs勇士、勇士vs猛龙 三场比赛。
热门帖子的浏览与回帖数分布。可以看出一个现象:浏览量大的贴,回帖数通常也很高;但回帖多的帖就未必都会有高浏览量(高回帖低浏览的基本都是抽奖贴)。
用户
尽管有一半以上的用户没有在资料里选择性别,但从填写的这部分用户来看,直男论坛实锤没跑了。
这是一张声望>8000的用户分布散点图(在交互版本上会看得更直观,文末有地址),比较突出的是 张佳玮·信陵(声望最高)、视频综合站(发帖最多)
而从这张注册/在线时长的用户分布图上可以看到,“视频综合站”的在线时长却是很少的,可见这应该不是一个真人号。
从用户注册时间上来看,每年的新增用户都在上涨,20142017 年是虎扑增长较快的两年。
另外我们统计了用户声望和等级的前50排行,声望最高:张佳玮·信陵,等级最高:登等瞪等凳。图略,可详见动态图表演示页面。
地区
东部和南部沿海省市 JRs 的数量比较多,另外就是北京四川
全球范围来看,美国要远高于其他国外地区。(这里为了国外区域显示效果而降低了颜色范围,实际美国的用户和国内差了2个数量级)
各地区用户的平均在线时长,上海 JRs 最能肝。不过,平均数是可能被一些个别用户把数据拉高的,所以我们还加了中位数的统计,可以看到湖南的233是最高。
等级中位数,又是湖南第一。
声望中位数,还是湖南
发帖中位数,依然是湖南……
回帖中位数,不用我说,你们猜到是哪里了吧?
词云
最后,我们来看下虎扑 JRs 这三个月的帖子中频率最高的词汇是什么(可点击查看大图):
项目介绍
回到技术层面,关于这个项目的实现,简单说下思路:
项目思路
  1. 分析虎扑论坛页面,评价可获取数据,确定分析目标;

  2. 使用了 requests 和 scrapy 抓取相应数据, 并使用 pymongo 保存;

  3. 使用可视化工具 pyecharts,对数据进行可视化处理。

  4. 整理分析。

运行环境
  • python 3.7

  • windows 10

  • jupyter notebook

运行依赖包
  • requests

  • pyecharts

  • pymongo

  • scrapy

  • jieba

  • wordcloud

关于项目的详细说明,我们放在了开发文档里,连同交互演示页面一起提交在了 github 上。需要源码的同学可在公众号(Crossin的编程教室)里回复关键字 虎扑
原始数据因为较大,没有放在项目中,参与“码上行动”的同学如果想要拿来练习数据分析,可以在群里问助教索要。
查看交互演示页面也可把此地址复制到浏览器里访问,这是github在线渲染HTML页面的功能 (数据量大,在线加载会有点慢,手机流量慎入):
https://htmlpreview.github.io/?https://raw.githubusercontent.com/spiderbeg/hupu_data/master/hupu_html/one_piece_plates.html 
对此类分析感兴趣还可看下之前的案例:
B站用户行为分析非官方报告
本文代码由实训生 清风小筑 完成
(0)

相关推荐

  • 老张老李侃门球之178篇

    第一百七十八篇 谈谈在网上研究探讨门球战术(四) 老李:老张啊,咱们还接着上回的话题聊吧? 老张:这样吧,我再给你介绍一个网上探讨门球战术的实际例子,然后咱们再就如何研究探讨的问题切磋一下,你看怎么样 ...

  • JR们的聚集地“虎扑”奔A股IPO:一部社区、电商、网站发展史

    JR们 (虎扑众网友的自称)手撕吴亦凡.diss蔡徐坤之后,虎扑步行街官方微博粉丝一夜间从66万增长到82万有余. 2019年4月23日,据证监会上海监管局网站披露,虎扑(上海)文化传播股份有限公司申 ...

  • 腾讯数据科学家手把手教你做用户行为分析(案例:出行选择)

    导读:生活中的选择行为无处不在,数据分析师面对的商业场景也存在大量的用户选择问题.系统.科学地研究用户选择问题,得到选择行为背后的客观规律并基于这些规律提出业务优化策略,这些能力对于数据分析师非常重要 ...

  • 虎扑刘夷顺:未来机遇来自用户弱需求 | 瞩目未来

    在移动互联网的存量市场,新的机遇来自于用户的弱需求.企业更要静下心来观察用户,深挖需求,顺势而为. 整理 | 张友发 当移动互联网的流量红利逐渐消失,社区正重新被资本和大众认知.沉淀社交关系的社区提供 ...

  • 虎扑新晋女神,170超长大美腿,千万直男在线舔屏

    要说这段时间某音上最火的一个挑战,莫过于#蝎子腿挑战#了,那场面,各路网红纷纷battle高潮中,模仿风一波接着一波,看的人是眼花缭乱的...... 有的动作完成度挺好,嗯...身材也挺好 有的试了一 ...

  • 8个步骤,教你如何开始用户行为分析!

    以客户为中心的团队: ·全面了解用户的挑战 ·了解客户使用什么功能以及不使用什么功能 ·了解客户如何从产品中获得最大价值 真正了解客户及其问题是产品经理承担的最重要角色. 当发布新功能后,最紧迫的问题 ...

  • 用户流失分析的三个误区,你踩雷了吗?

    一个平台的用户流失是不可避免的,新老用户的不断交替是产品更迭升级的正常现象,但企业可以从流失用户的比例和变化的趋势中寻求突破,创造出保留新用户的产品,从而提高保留用户的能力,找出产品的发展趋势和空间. ...

  • LAC 2019 USC 优秀案例 | 模块化居住社区 Modular Residential Community

    T E T R I S  " L "  I N  TH E  C I T Y Mudi NIU USC M.arch 2    模块化居住社区    Modular Residen ...

  • 少林拳 | 正宗少林虎扑拳(全套)

    虎扑拳 虎扑拳是登封老拳师赵江所传.赵江现年72岁,生于一九一二年,系东金店公社游览大队圈门村人.自八岁跟祖父赵德忠习武.少林拳传到他时已历经五代.此拳是根据他献出来的套路整理而成. 00 全段 虎扑 ...

  • 今天无意间刷到猫扑取消用户发帖功能,一瞬间有点恍惚

    @中二怪:今天无意间刷到猫扑取消用户发帖功能,一瞬间有点恍惚,啊时代的眼泪,老网民的记性太好,也是徒生伤感. 随手写一些古早网络印象: Tumblr 最早除了黄图和 memes,还是复古风 emo 的 ...