数据分析

SQL数据库的基本操作,会基本的数据管理

会用Excel/SQL做基本的数据分析和展示

会用脚本语言进行数据分析,Python or R

有获取外部数据的能力,如爬虫

会基本的数据可视化技能,能撰写数据报告

熟悉常用的数据挖掘算法:回归分析、决策树、随机森林、支持向量机等。

·寻找最合适的学习路径

·最高效的学习路径是什么样的?

一定要清楚的是,你想要达到的目标是什么?如果你想利用数据分析的方法来支撑工作决策,那么你可能需要知道数据分析的流程是什么,通过数据分析的方法能获得哪些信息,这些信息可以用来支撑什么工作。

然后你需要知道要达到这样的目的,需要哪些必备的技能,哪些是不需要学习的。其实在这个过程中你对知识的框架就有了大概的了解,并知道如何去避免无效的信息。

更重要的是,你需要了解,完成一个数据分析项目,基本的流程是什么。这样你才知道学习的知识,在具体的工作中是如何应用,并能够在学习之后进行针对性的训练,做到有的放矢。

·数据分析的工作流程

1. 定义问题

在做具体的分析前,你需要确定要分析的问题是什么?你想得出哪些结论?

比如某地区空气质量变化的趋势是什么?

影响公司销售额增长的关键因素是什么?

生产环节中影响产能和质量的核心指标是什么?

如何对分析用户画像并进行精准营销?

如何基于历史数据预测未来某个阶段用户行为?

问题的定义需要你去了解业务的核心知识,并从中获得一些可以帮助你进行分析的经验。

2. 数据获取

有了具体的问题,你就需要获取相关的数据了。比如你要探究北京空气质量变化的趋势,你可能就需要收集北京最近几年的空气质量数据、天气数据,甚至工厂数据、气体排放数据、重要日程数据等等。

如果你要分析影响公司销售的关键因素,你就需要调用公司的历史销售数据、用户画像数据、广告投放数据等。

数据的获取方式有多种。

一是公司的销售、用户数据。可以直接从企业数据库调取,所以你需要SQL技能去完成数据提取等的数据库管理工作。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。

第二种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些公开数据

第三种是编写网页爬虫。比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,获取知乎点赞排行等。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析,这算是非常靠谱的市场调研、竞品分析的方式了。

3. 数据预处理

原始的数据可能会有很多问题,比如残缺的数据、重复的数据、无效的数据等等。把这些影响分析的数据处理好,才能获得更加精确地分析结果。

比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。

那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。

当然在这里我们还可能会有数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,能够帮助我们掌握数据的分布特征,是进一步深入分析和建模的基础。

4. 数据分析与建模

在这个部分需要了解基本的数据分析方法、数据挖掘算法,了解不同方法适用的场景和适合的问题。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。

比如你发现在一定条件下,销量和价格是正比关系,那么你可以据此建立一个线性回归模型,你发现价格和广告是非线性关系,你可以先建立一个逻辑回归模型来进行分析。

当然你也可以了解一些数据挖掘的算法、特征提取的方法来优化自己的模型,获得更好的结果。

5. 数据可视化及数据报告撰写

分析结果最直接的是统计量的描述和统计量的展示。

比如我们通过数据的分布发现数据分析师工资最高的5个城市,目前各种编程语言的流行度排行榜,近几年北京空气质量的变化趋势商品消费者的地区分布……这些都是我们通过简单数据分析与可视化就可以展现出的结果。

另外一些则需要深入探究内部的关系,比如影响产品质量最关键的几个指标,你需要对不同指标与产品质量进行相关性分析之后才能得出正确结论。又比如你需要预测未来某个时间段的产品销量,则需要你对历史数据进行建模和分析,才能对未来的情况有更精准的预测。

数据分析报告不仅是分析结果的直接呈现,还是对相关情况的一个全面的认识。所以你需要一个讲故事的逻辑,如何从一个宏观的问题,深入、细化到问题内部的方方面面,得出令人信服的结果。

作者:宁冬青
链接:https://www.jianshu.com/p/9d3ee4b4b791
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

(0)

相关推荐

  • Python爬虫与数据分析,采集股票数据进行分析!

    Python爬虫与数据分析,采集股票数据进行分析!

  • 算法工程师研发技能表.pdf

    算法工程师 Author:louwill Machine Learning Lab 由于算法工程师这个岗位根据不同的业务场景和应用方向,各自的工作差异相对较大.所以很难有一个一概而论的算法工程师技术栈 ...

  • 我所理解的互联网BI数据分析师

    数据分析师虽然是很多互联网公司都设立的一个职位,但不同公司对这一职位的定位不同.即使是统一公司,在不同的团队,数据分析师的职责,作用和地位也可能不一样. 本文从笔者自己的实际经历出发,总结一下数据分析 ...

  • 人员数据分析的CRISP-DM模型

    如何证明人力资源实践的有效性是重要且有价值,传统上,研究人员通过使用调查,访谈或观察收集数据来产生此类证据.借助这些数据,他们获得了对劳动力的洞察力,并制定了切实可行的干预措施以改善结果. 技术进步导 ...

  • HR数据分析--员工绩效指标

    员工绩效指标是跟踪员工绩效的关键,正确地实施它们是棘手的.但是,如果做得正确,员工绩效指标将使组织和员工都受益.我们在下面列出了最重要的指标,并提供了每个指标的一些实际示例. 员工绩效指标多种多样.我 ...

  • 为HR数据分析建立业务假设?

    为业务人员分析制定业务问题和发展假设,以确保你在分析主题中增加业务价值,研究如何构建业务问题,业务问题是否与实际定义假设相关. 什么是假设?假设是:基于有限证据做出的假设或建议的解释作为进一步调查的起 ...

  • HR数据分析中常用的21个数据源

    我们通常听到的一个问题是"什么可以用于分析的数据源?" 在本文中,我们将列出HR和更广泛业务中的许多常见数据源,这些数据源将有助于您进行人员分析. HR数据源可以分为3类: 一.H ...

  • 人力资源数据分析

    最近几天,支付宝.抖音.酷狗.喜马拉雅等公司相继发布2019年个人使用报告,发现自己的所作所为都在上面展现的一览无余没有死角,一方面感到数据分析的可怕,另外一方面在想是否可以利用数据在促进工作的提升, ...

  • 人力资源数据分析10条黄金法则

    根据德勤关于全球人力资本趋势的报告,人力资源数据分析革命正在加速.完全有能力应用人力资源分析的组织从4%增至8%.感觉有些能力应用人力资源分析的组织从24%增加到32%.我很高兴看到我的国家(荷兰)在 ...

  • Python数据分析库有哪些?常见分类!

    众所周知,Python前景好.需求量大.薪资高.就业岗位多,除了基本的开发工作之外,还可以从事人工智能.数据分析.网络爬虫等岗位.那么说起数据分析,你知道Python常用数据分析库有哪些吗?我们一起来 ...

  • 来自kaggle最佳数据分析实践

    翻译: 大邓 作者: Bex T 标题: Weekly Awesome Tricks And Best Practices From Kaggle 链接: https://towardsdev.com ...

  • 0代码就能做Python数据分析,这个Jupyter插件,用起来就像Excel一样简单

    加载一个Jupyter插件后,无需写代码就能做数据分析,还帮你生成相应代码? 没错,只需要加载这个名为Mito的小工具包,用Python做数据分析,变得和用Excel一样简单: 运行速度比Excel更 ...

  • 全国星级酒店经营数据分析 成都篇

    合纵酒店顾问 · 2021-05-07 07:01:22                 五星级酒店2011-2020年的平均房价为709元,其中最高为2013年的923元,最低为2020年的536元 ...