我用 Python 算了下：编程教室的用户数哪天能到100万

2024-07-31 09:55:09

这是一篇正经的数据分析案例。

去年12月初，在经过四年多的积累后，编程教室微信公众号的关注人数突破10万人。（可回顾最开始我也没有想过会有这么一天…）

10万人只是另一个开始，让我感到责任更大了。如果不写出更多更好质量的文章和教程，也对不起大家的关注啊。人数不是目的，内容才是王道。

但是嘛，偶尔也会 yy 一下，什么时候我们的关注数能到达更高的量级，比如，100万？

既然 Python 可以用来做数据分析，何不根据我们公众号现有的用户增长数据来分析一下，什么时候可以迎来第100万个关注者？

说干就干！（不想看过程的直接拉到最后看结论）

微信后台可以导出用户增长数据的 excel 表格。数据从2013年7月开始，每次导出时间间隔最多一年。我们编程教室的账号是2013年6月份创建的，虽然差了一点点，但也足够了。

把几年的数据合并一下，我们这次只关注其中的“累积关注人数”和“时间”。通过 matplotlib 把增长曲线绘制出来

显然这不是一个简单的匀速增长曲线，而是加速增长！这让我甚感欣慰。

核心代码

# x_data 时间列表
# y_data 用户数列表
plt.plot(x_data, y_data,'g') plt.show()

那么从数学上来看，有没有能够较好拟合这个增长曲线的模型呢？我们来尝试几个最常用的拟合曲线，看看效果。

多项式拟合

多项式拟合即用形如

的函数曲线来拟合现有的数据。比如三次多项式拟合就是对公式

中的4个系数求解，使得函数曲线与数据“最接近”。

至于怎样才算是“最接近”？直观来考虑，就是拟合曲线和实际曲线上对应点的距离最短，即绝对值最小。以我们的例子来说，就是拟合函数算出的每天总关注人数和当天实际总关注人数的差，我们要让这个差值的总和最小。

但因为绝对值之和不容易处理，所以通常我们选择差值的平分和来替代。这就是“最小二乘法”。

更数学化的表述就是，我们要找出拟合曲线中的一组参数 c，使得模型与实际值上每一点的残差 ek 的平方和最小。

我们绘制了从1次多项式（线性函数）到9次多项式的拟合曲线：

因为我们的目的是要预测之后的趋势，所以选择的拟合天数要大于实际数据的天数。

从图上就能比较直观地就看出，1次、2次等低阶曲线不能很好地贴合原数据，3~8次效果都还不错，而9次曲线在不久之后就会因为过拟合而产生不合理的波动。

对于多项式拟合，numpy 提供了现成的 polyfit 和 poly1d 函数供调用。

核心代码

# x_np 实际数据，时间
# y_np 实际数据，用户数
# x_fit 拟合数据，时间
coeff = np.polyfit(x_np, y_np, k) poly = np.poly1d(coeff) y_fit = poly(x_fit) plt.plot(x_fit, y_fit)

指数拟合

指数函数是重要的基本初等函数之一，这里我们通过确定以 e 为底的函数

中3个参数 a、b、c 来进行拟合。

看起来拟合效果还不错。

numpy 没有提供直接的指数拟合函数，但我们可以通过 scipy 库里的 scipy.optimize.leastsq 实现最小二乘法。

核心代码

def func(x, p): a,b,c = p
return a * np.exp(b * x) + c

# 残差函数
def residuals(p, y, x): return y - func(x, p) pe = [1, 0.0001, 1] # 初始预测值
plsq = leastsq(residuals, pe, args=(y_np, x_np)) y_fit = func(x_fit, plsq[0]) plt.plot(x_fit, y_fit)

幂函数拟合

幂函数和指数函数有点类似，只不过我们使用的函数是

同样也是3个参数。

拟合的效果与前面的指数函数有点相似。代码中，我们也只要在刚才的基础上，修改一下 func 函数即可。

核心代码

def func(x, p): a,b,c = p
return a * x ** b + c

拟合效果评价

以上几种方法虽然看起来都不错，但结果毕竟有不小的差异，究竟哪一个更“科学”一点呢？

我们通过几个评价指标来衡量一下：

均方根误差（RMSE）：真实值和预测值之差的平方和。这其实就是我们拟合时的判断基础啊。只不过加上了根号，使得结果的量纲更加合理（否则就是均方误差MSE）。

平均绝对误差（MAE）：和 MSE 的区别就在于直接使用真实值和预测值之差的绝对值作为衡量标准。

R平方（R2） ：因为 MSE 结果的大小取决于不同数据的本身数值大小，并不统一。R2 则是在此基础上，将其转换至 0~1 之间，以便于评价。

以上指标，sklearn 库均在 metrics 中提供了方法。

核心代码

# ploy 拟合函数
rmse = sqrt(metrics.mean_squared_error(y_np, poly(x_np))) mae = metrics.mean_absolute_error(y_np, poly(x_np)) r2 = metrics.r2_score(y_np, poly(x_np))

当然，这些指标都是基于拟合函数与已有数据的判断，对于未来的预测，谁也说不准，只能是“仅供参考”。毕竟如果可以预知未来，那我大概早就 all in 比特币了。

最终结果

函数	100万用户	RMSE	MAE	R2
1次	2063/4/15	12132	9388	0.846
2次	2026/5/18	4802	3377	0.974
3次	2022/6/25	2939	1765	0.990
4次	2021/3/12	2637	1957	0.992
5次	2019/12/12	1901	1519	0.996
6次	2019/5/16	1143	748	0.999
7次	2019/3/6	994	507	0.999
8次	2019/3/11	994	510	0.999
9次	—	975	531	0.999
指数	2020/12/16	2682	1722	0.992
幂函数	2022/12/28	3462	2440	0.987

综合结果来看，编程教室的百万用户很可能在2019~2022年之间到来。对3~8次多项式、指数函数、幂函数的预测结果做个简单的平均，那么这一天就是：

2020年5月27日

只需要 811 天，想想还有点小激动呢。

忽然，我想到了那个诡异的9次函数，说来也不是不可能哦：当人数过了40万，因为某个不小心被封了号，一切归零。这也不是什么新鲜事儿。

所以，我还是老老实实写教程吧。猥琐发育，别浪！

381 优化设计方法-模型

381 优化设计方法-模型背景优化模型就是建立目标与变量之间的数学关系,数学关系可以是函数,也可以是其他形式. 建立了优化模型,就可以计算实现目标最佳的各变量值.各变量对目标的影响灵敏度和影响规 ...
【所长林超】学科04：函数重要模型

ps:笔记虽好,所长林超的视频质量更棒,更有助于自己的理解,有能力就支持一波笔记整理人:贲志泉.群友@金海 @刘峥嵘 @田野 @neilz @懒志 @侯博晟 @何杰函数 "函数" ...
数与图（9）——幂函数曲线

在<数与图(3)>中我们分别绘制了一次函数.二次函数及三次函数的曲线,本篇文章中,我们将绘制6次函数的曲线,函数的表达式为 y = (x+3.6)*(x+2.5)*(x+1)*(x-0.5 ...
【OO学习】OO第一单元作业总结

OO第一单元作业总结在第一单元作业中,我们只做了一件事情:求导,对多项式求导,对带三角函数的表达式求导,对有括号嵌套的表达式求导.作业难度依次递增,让我们熟悉面向对象编程方法,开始从面向过程向面向对 ...
数与图(4)——多项式表达式

在数与图(3)中,我们绘制了一次函数.二次函数及三次函数的图形,接下来我们希望绘制更为复杂的函数图形,如下式: 通过改变系数的值,来观察系数对曲线形状的影响.这项任务涉及到大量的运算,对于人类来说,即 ...
一款好用且免费的曲线拟合工具CurveFitter

点组所表示的坐标与函数值之间的关系.曲线拟合可以帮助我们了解数据之间的内在联系,并能预测此类问题在其他离散点下的变化趋势.在实际的数据分析工作中,大多数需要拟合的曲线或曲面都是非线性的,所以常需要借助 ...
樱花树下的柴犬兄妹照暖哭100万网友：下辈子，我还做你的哥哥

如果你问我什么是理想的生活, 那大概就是一屋三人, 还有猫猫狗狗陪伴左右. 在日本,铲屎官Nerishiro 就过上了这样的理想生活. 她养了两只柴犬, 分别是哥哥Kenshiro和妹妹Yuria, ...
梦幻西游：老王下血本更新3件装备，斥资100万，有望问鼎服战冠军

武神坛服战是梦幻西游目前比较具有代表性的比赛,那些能够在服战中脱颖而出成为冠军的队伍,不仅给全服玩家证明了自己的实力,同时也为自己的服务器增添了不少光彩.近来这几届的武神坛服战都被珍宝阁称霸天下了,拿 ...
太壕了！17岁中国留学生1200万澳元买下澳洲一“楼王”，如今亏本100万出售！

▼全文共1742字,阅读大约需要4分钟新年第一天,祝大家新年快乐!今天要跟大家分享的这个新闻,让大年初一的我就再次为自己的贫穷而流泪(开玩笑的~). 现在,华人在澳洲出售豪宅的事不少见,但17岁留学 ...
我们帮你算了下时间，高血压疫苗可能真的快上市了……

人类发明和使用疫苗已经超过200年,高血压疫苗你听说过吗? 其实,高血压疫苗这个词并不是最近才出现,早在上个世纪50年代就有研究者提出了这个概念.当初,权威医学杂志<柳叶刀>报道的一篇关于 ...
Python教程：面向对象编程的一些知识点总结

类与实例类是对象的定义,而实例是"真正的实物",它存放了类中所定义的对象的具体信息. 类.属性和方法命名规范类名通常由大写字母打头.这是标准惯例,可以帮助你识别类,特别是在实例 ...
又到飞絮季！把杨柳树换掉不好吗？算了下，确实换不起啊

春天是万物复苏的季节,鸟语花香,充满生机.可这样一个美好的季节,春暖花开.树木发芽也会给不少人带来烦恼,就像漂亮的柳絮和杨絮,让人不堪其扰. 央视名嘴朱广权编了个段子,表达自己的烦恼:"打喷 ...
学习Python基础教程-在线编程入门-Python教学

小白也能学会的Python入门课程:就在AI大学堂官网. https://www.aidaxue.com/activity/mutual 课程介绍: 无需安装任何环境,即刻开始学习在线编程环境,帮你 ...
简单算了下，腾讯人均年薪超81万元

文 | 紫晴出品 | 网易科技<态℃>栏目组 3月24日,腾讯公布了其2020年第四季度及全年财报.腾讯组织架构升级后,这是第二份年度成绩单. 财报显示,腾讯第四季度营收为1336.7亿 ...
疯狂！丈母娘让我用 Python 算领证吉日！

来源:Python 技术「ID: pythonall」决定和女朋友去领证了,心里那个激动啊,无以言表!我们俩都是比较随性的,准备拿到户口本就去领. 可谁知女朋友回家拿户口本的时候,跟我说:最近可能领 ...

我用 Python 算了下：编程教室的用户数哪天能到100万

多项式拟合

指数拟合

幂函数拟合

拟合效果评价

最终结果

相关推荐