初识计算社会科学——数据挖掘、管理与分析
主讲人
KEYNOTE SPEAKER
#BIG DATA#
陈沧,数据分析师。
香港浸会大学传理学院新闻系人工智能与数码媒体专业理学硕士,具有丰富的数字媒体传播和大数据分析经验,主要做数据新闻分析与计算社会科学研究。
曾做过的项目包括中国大型企业和权威医疗机构在社交媒体中的公关实践、世界主要国家COVID-19疫苗接种率与社交媒体相关讨论情感分析的相关性、NBA社交媒体营销策略等。曾在京东集团营销运营部负责华为、宝洁等品牌的微信小程序店铺渠道拓展,创新地将销售数据按照“一周一报”进行可视化以制定营销活动计划。期间所负责产品用户数量突破20万,周GMV突破10万。
网络的发展,改变了时间生活序列,大众的生活从24小时白天黑夜,变成了白天黑夜黑夜,数据分析进入生活的各个方面。
什么是计算社会科学?如何进行数据分析?陈沧学长在讲座开始,向我们介绍了此次讲座所要呈现的五个方面:一、计算社会科学;二、主要主题;三、传播者、消息、渠道、受众和效果;四、数据、计算方法;五、研究案例。
/
PART 1
/
进入第一部分,陈沧学长先让同学们扫描二维码,填写一份“'计算社会科学’初印象”的问卷。
大家觉得自己会怎样填写这份问卷呢?
计算社会科学是一个使用数字的跨学科领域数据和研究结构的计算方法,各个层次的话语、态度和行为人类社会的行动者。
数字数据是指人类产生的数字痕迹和数字数据在数字设备上的行为,由数字测量或记录的“离线”动作设备。
计算社会科学的计算方法包括以下几种:
1. 文本挖掘/自动内容分析(自动语言处理和机器学习)
2. 社交网络分析
3. 大规模在线现场试验
4. 众包+机器学习
/
PART 2
/
讲座持续进行,进入第二部分。谈及研究的主题,要从Lasswell(1948)提出的“5Ws模型”开始。
“5Ws模型”指:Who, Says What, in Which Channel, to Whom, with What Effects。
陈沧学长以美国大选为例,每一届的总统选举都是很好的传播案例,通过分析民调的准确度、候选人的发言习惯等数据进行合理推测,这就是实际运用。之后,学长又从媒体文化产品、世界体系论、文化帝国主义、单项流程的挑战四个方面介绍了如何明确主题。
这一部分以两个理论问题作为结尾,大家对这两个问题又有什么样的反思呢?
/
PART 3
/
电视的屏幕从黑白变成彩色,人们进行传播、获得消息的工具从电视、电脑,逐步缩小到我们可以随身携带的手机,消息渠道拓展,再加上自媒体时代——人人都是新闻传播者,研究受众、媒体有助于更好地了解现代社会。
一、受众,信息与影响
受众研究调查人们使用数字媒体地原因和方式——他们是主动还是被动
二、知识鸿沟与数字鸿沟(Phillip J.Tichenor , George A.Donohue , Clarice N.Olien)
知识鸿沟:由于社会经济地位高者通常能比社会经济地位低者更快的获得信息,因此,大众媒介传播的信息越多,两者之间的知识鸿沟也就越有扩大的趋势。
数字鸿沟:一个在那些拥有信息时代的工具的人以及那些未曾拥有者之间存在的鸿沟。数字鸿沟体现了当代信息技术领域中存在的差距现象,已经渗透到人们的经济、政治和社会生活当中,成为在信息时代突现出来的社会问题。
三、媒体效应研究(关键维度)
1. 效果大小(效果的强度)
2. 时间维度
3. 意向性
4. 过程
5. 因果方向
/
PART 4
/
初识新的领域,除了要明白它的概念、研究内容以及研究对象,更要探寻它的研究方法。要了解研究方法,首先需要明晰两个概念:
一、数据源
什么是数据?数据是定性或定量变量地值,属于一组项目。
二、数字数据
网络技术:国际标准化在组织(ISO)维护开放系统互连(OSI)模型,以标准化网络上地通信过程。
除此之外还有一些相关概念:
1.HTTP:指超文本传输协议,是一套允许浏览器在互联网上从服务器检索网络文档的规则,是互联网上主导的应用层协议。
2.HTML:指超文本标记语言,是创建网页和web应用程序的标准标记语言,用于“构建”和“结构”网页。
3.CSS:指层叠样式表,样式定义如何显示HTML元素,通常存储在样式表中。
随着人们对HTTP请求/响应的理解和支持,使用这些协议的程序之间的数据交换就自然而然地发生了变化,web已从web 1.0发展到web 2.0,有一种约定的方式来表示数据在应用程序之间通信,通常表现为两种格式:XML(可扩展标记语言)和JSON(JavaScript 对象表示法)。
研究方法包括以下几种:
一、社交网络分析
它成为数据驱动讲故事、模式识别、数字人文、计算社会科学、信息图形学等领域最重要地研究方法之一。
二、文本挖掘
文本挖掘是一个研究领域:对大规模文本数据进行自动化(或半自动化)分析(处理、分析、可视化),是基于文本数据地数据挖掘。
与自然语言处理(NLP)相关:理解和分析人类语言、机器翻译、语音识别、文本生成(机器人记者)
三、机器学习
机器学习是一个庞大地数据分析家族,需要与其他方法一起使用,例如:文本分析的机器学习(文本分类)、机器学习用于图像识别(图像分类)
在介绍了这些之后,学长又通过一个视频和他的部分研究,向同学们介绍了神经网络及其应用。
/
PART 5
/
最后一部分,学长介绍了他的研究内容,为同学们讲述了如何利用这些数据相关知识进行社会研究。
案例一是社交媒体文本分析。利用社交媒体收集数据,使用计算机输入情绪分析的量化结果,计算一个国家对于疫苗的了解程度。
案例二是网络分析。收集网络资料进行分析,探寻哪个研究领域更加重要,确定社交网络分析中的中心性,了解子网络及其加权值。
案例三是社交媒体情感分析。为了研究NBA的社交媒体策略,以球星James作为对象,在社交媒体上搜索相关tag以及其官方账号,分析受众的情绪和其他相关因素,从数据中可以看出,对于这位球星的数据在全明星赛时,随着讨论度的飙升达到过一个峰值。
案例四是神经网络与医疗。分析相关数据有助于探究影响病症的因素,并加以研究,帮助医疗事业更好地发展。
在讲座的最后,陈沧学长向我们分享了他在一年里学习数据分析的经历。可以询问计算机相关专业的同学,也可以通过CSDN等网络应用获得资源,以丰富自己的技术。
以上就是本次讲座的全部内容啦
讲座虽然已经结束
但是对于广阔领域的探索才刚刚开始
加油吧同学们!
出品 | 闻道PR
供稿 | 郑子涵
排版 | 郑子涵
责编 | 苗雨玮 苏祺 邹玲
审核 | 刘晶