数据格式规范，这些方法的格式你都get了吗？

2024-07-30 13:46:34

正确的数据格式是分析的基础，一直以来大家问得最多的就是数据格式的问题。什么样的格式才能分析？为什么我的数据显示格式不对？怎么批量添加标签？针对这样那样的问题，今天我们就来总结一下。

一、格式规范

1、基础格式

数据格式是基础，其中我们最常见的数据格式是原始数据格式。下图即是一份原始数据，它的特点是：一行代表一个样本，一列代表一个属性。

这样的数据有多少样本，就需要录入多少行，100个样本录入一百行，每一行即代表一个样本的回答数据；每列代表一个属性即一个变量。而不能是已经进行过统计的数据。

2、文字标签

上传时数据须为数字格式，如果想让结果显示成具体的文字标签，而不是数字。可以在Excel中添加一个工作表批量为数据设置标签。

标签设置步骤如下：

第1个sheet里放收集到的数据；新建一个sheet“tags”放置标签。

“tags”工作表中共包括3列内容：“标题”、“数字”和“标签”

“标题”列，放置标题，且不能有完全相同一模一样的标题。

“数字”列，放置每项的数值，比如5个选项“1,2,3,4,5”就分5行放置。

“标签”列，放置对应数字的标签信息。

3、无法识别数据如何处理

有时上传数据会提示“无有效数据”或只识别出部分数据，大概率还是由于数据格式不规范导致的。

遇到上面的问题，可以按这样的步骤检查数据：

第一：如果EXCEL上传，数据应该放在第一个工作表里面，如果不是请调整后再上传。

第二：EXCEL数据中不能合并单元格，如果有合并单元格，请取消合并。

第三：数据第1行一定是标题，如果本该有标题但是为空，请处理后再上传。

二、常见方法格式

在日常分析中，有些分析方法使用的格式与常规的格式不太一样。因此我们除了用到原始数据，有时也需要根据所用的分析方法，将数据整理成可以分析的格式。

1、T检验、方差分析

T检验、方差分析都是研究不同组别的差异，比如不同学历时满意度的差异。因此数据格式中一定需要有组别X（比如学历）和分析项Y（比如满意度）。

有时候只有分析项（比如3个分析项），但是现在希望此3个分析项的差异，那么就需要对数据进行改造，自己加入一列'组别’，然后把数据重叠起来得到分析项Y，类似如下图：

如果是用t检验对比两组数据，比如实验组和对照组，也需要加入一列'组别’项，类似如下图：

2、配对T检验

配对数据的格式相对较为特殊，包括配对t 检验、配对卡方、配对样本Wilcoxon等。比如实验组和对照组数据的差异。如下图：

配对数据一般是在实验时使用，而且配对数据的特点为：行数一定完全相等并且只有两列。如果研究数据的行数不相等，那可能不是配对数据，如果还想对比差异，可能需要使用独立t 检验。

3、多选题

在问卷研究时会使用到多选题，多选题的数据格式比较特殊。比如一个多选题有4个选项，那么其数据中就会有4列，分别代表4个选项。而且使用数字1表示选中，数字0表示没有选中。如下图：

分析时将同一多选题下的选项一起放入进行分析才可以。

4、卡方检验

SPSSAU系统中的卡方检验，支持两种数据格式：一是常规格式，另一种是加权数据格式。

对于只有汇总结果的数据，无法整理成原始数据。此时就可以整理为加权数据格式。格式要求如下：

比如下图中X有2种情况，Y有3个情况，一种有2*3=6种组合，数据信息只有6种组别的汇总项（即加权项），分别是40，10，20，30，20，50；相当于总共有170个样本。整理为加权格式即只需要录入6行即可。

除卡方检验，涉及使用加权格式数据的分析方法还有很多，比如

5、重复测量方差

重复测量数据是指同一批样本（病例）在不同的时间点测量了多次数据，因此重复测量数据的特殊之处在于一定会有ID号（即样本或者病例号），以及时间点数据。

同一个ID会有多个时间点的数据，比如下面有12个样本（12个ID号），并且测量5个时间点。那么就一定会有12*5=60行数据。同一个ID号会重复5次，同一个时间点会重复12次。

6、时间序列

时间序列的格式包括时间和实际分析项共两列。ARIMA预测、ADF检验、偏(自)相关图等方法均是使用此类格式的数据进行分析。

比如下图中年份就是时间项，“阿里双十一销售额(亿元)”就是实际分析项。分析时并不需要设置时间项，但研究人员整理的数据一定是类似如下图，从上至下的日期递增，因为算法在分析时也是默认按照从上至下递增进行计算。

7、面板数据

面板模型是针对面板数据进行分析，面板数据是一种特殊的数据格式。比如当前研究100家公司5年的财务数据。100家公司，每家5年，最终会有100*5=500行数据。

如果说100家公司全部都有完整的5年数据，即100*5=500行数据，这种叫平衡面板数据。如果说某家公司只有3年的数据，意味着有2年的缺失数据，这种叫非平衡面板数据。

使用SPSSAU进行分析时，'个体ID’就是下图中的'公司编号’，'时间’就是下图中的'年份’。'公司编号’一般是指上市公司的股票代码，也或者只是个编号均可；'年份’一般是指年或者时间点。'公司编号’和'年份’两项共同用于告诉系统当前为面板数据，通常无其它意义。

三、综合评价中的数据格式

综合评价中各个方法所需要的数据格式都比较特殊，这里列出单独进行说明。

1、模糊综合评价

模糊综合评价是对具有多种属性的事物，综合各因素作出一个总体评价。

上传的数据一般包括三个部分：指标项、权重项、评语项。

其中指标项为参与评价的考核指标，1行放1个。

评语项，是指类似于{优秀，良好，一般，差} 或{非常满意，满意，一般，不满意，非常不满意}这样的评价标准。1列放1个评价项。

如果说各个指标项有着自己的权重，那么就需要单独用一列表示'指标项权重值’，'如果没有此数据，则默认各个指标的权重完全一致。

特别提示：一个表格对应的是一个评价对象的数据。如果有多个评价对象就需要构建多个表格矩阵，分别上传进行分析。

2、灰色关联法

灰色关联法研究数据之间的关联程度，即特征序列与母序列的关联性情况。母序列单独使用一列标识，每个特征序列都使用1列标识。下图中样本编号只是个编号无实际意义，用于标识下样本的ID号，一般是比如年份一类的数据信息，分析时并不需要使用。

3、AHP层次分析法

AHP层次分析法需要分别对各级指标两两比较得到判断矩阵，然后将指标数值填入白色单元格。

研究人员可修改指标项名称，以及白色单元格内的数字，'蓝色’背景的信息会自动变化。

4、熵值法

熵值法用于指标的权重情况。1个指标占用1列数据。下图中样本编号只是个编号无实际意义，用于标识下样本的ID号，一般是比如年份一类的数据信息，分析时并不需要使用。

熵值法的原理是针对数据不确定性进行度量，从而计算权重。无论是什么数据（包括面板数据），均可正常的进行熵值法，一般不需要进行处理。

当然面板数据进行熵值法分析时，也可以先筛选出不同的年份，重复进行多次熵值法均可。

5、TOPSIS法

TOPSIS法用于研究指标与理想解的接近度情况。1个指标占用1列数据。1个研究对象为1行，但研究对象在分析时并不需要使用，SPSSAU默认会从上到下依次编号。

6、RSR秩和比

RSR秩和比可分析研究对象在'研究指标’上的综合表现水平情况。数据格式上需要1列表示1上研究指标，1行表示1个研究对象，如下图所示：

7、耦合协调度

耦合协调度研究不同系统之间的耦合协调情况，因此1列表示1个系统的数据，1行表示1个研究对象，其数据格式如下图所示：

8、熵权TOPSIS

熵权TOPSIS法用于研究指标与理想解的接近度情况。1个指标占用1列数据。1个研究对象为1行，但研究对象在分析时并不需要使用，SPSSAU默认会从上到下依次编号。

9、灰色预测模型

灰色预测模型可针对数量非常少、数据完整性和可靠性较低的数据序列进行有效预测。

灰色预测模型适用于数量少(比如20个以内)时使用，大量数据时不适合；整理数据时1列年份1列实际分析项，但年份在分析时并不需要使用，SPSSAU默认会从上到下依次编号。

实际上还有更多数据格式，更多内容请查看帮助手册说明，这里就不再一一介绍。

SPSS如何合并数据？

我们在处理数据的时候,并不是所有的数据都在一个文件中,如果要将一份或者多份数据通过复制黏贴的方式显得过于麻烦,SPSS就有合并数据的功能,一起来看看吧! 首先打开一个数据表,我们想将另一个数据表添加到 ...
互助问答第458期：关于probit模型问题

关于probit模型问题本人使用probit模型研究反倾销案件,在学习了相关文献后发现probit模型无法用固定效应模型数据库的格式如下:国家.产品代码.进口年份.是否遭遇反倾销调查.其他控制变量 ...
spss如何进行单样本的T检验？

单样本T检验是SPSS数据处理软件中比较常用的功能,是用来检验数据是否存在统计学意义的一种方法,是数据处理分析的前提条件,下面小编就来教大家如何进行单样本T检验吧! 打开一份SPSS的数据,格式为s ...
互助问答第403期：关于面板数据的问题

关于面板数据的问题请问面板数据能进行因子分析吗?现有十年,三十一样本量,十二个指标的面板数据,想提取出公因子进行回归分析.若是每年份做因子分析,每年份的公因子都不一样.网上论坛有的说可以,有的说不行 ...
问卷调查常用的SPSS数据分析方法(上篇）

在介绍了问卷设计应注意的问题.量表类问卷及非量表类问卷题项设计后,接下来面临的将是问卷数据分析问题,有很多非统计专业的同学也都在问这个问题,爱马君将结合实例详细讲解问卷数据常用的SPSS统计分析方法, ...
英国毕业论文｜Methodology怎么写？

英国院校的毕业论文中都被要求写Methodology,很多同学都对Methodology表示一脸懵,这究竟是个什么东西? Methodology就是你写这篇毕业论文所运用的方法是什么,以及为什么用这样 ...
SPSS软件属于（ D ） A. 数据处理软件 B. 数据管理软件 C. 财务软件 D. 数据分析软件

SPSS软件属于 ( D ) A. 数据处理软件 B. 数据管理软件 C. 财务软件 D. 数据分析软件
最新的电视家安装方法大全，人人都可以是电视专家

不同品牌的电视设备安装方法是不同的,你的机器是什么品牌就按照以下对应的方法来安装 ,如果电视品牌都不是以下这些 ,那就下拉本文到最后,用万能方法来安装 .
掌握这个方法，你随时都能够锻炼到自己的口才，提升表达能力

这个方法就是复述. 运用复述这个方法锻炼口才,我以前已经写过相关的文章,但那些文章讲述复述的好处和规则,至于复述的实操做法,则着墨很少. 今天这篇文章,就来说说,如何通过复述的方式来提升我们的口才. ...
后背疼肩胛骨缝疼，试试这两个实用方法，自己在家都能做

后背疼肩胛骨缝疼，试试这两个实用方法，自己在家都能做
分享一个去湿热快速见效的方法，不收藏都可惜了

今天是三伏的第4天,还有一周出伏,这个又湿又热的夏天,你还好吗?对于身体有湿热有热的人来说,这段时间还是会比较难过. 你的身体,是否已经被湿气占领? 如果你总是不想吃东西,感觉嗓子里有痰,尤其是吃肉. ...
抓涨停？顶级操盘手方法，任何技术指标都没...

抓涨停?顶级操盘手方法,任何技术指标都没太大用.为什么?因为涨停的股票都是由情绪推动的就像小孩子哭和笑一样. 涨停,需要题材,热点,概念叠加,技术面配合等综合方面形成合力推动的. 千万别进入误区我有一 ...
和珅研究出一种受贿方法，连乾隆都没看懂，至今仍被后人模仿

五十年来梦境真,目前放手远尘世:他年应泛龙门合,认取卷烟是后身. 清朝,是距当代非常为靠近的一个朝代,因此对这个国度人们的打听要比较多少许,同时,非常多电视剧,网剧也都从清宫剧取材,而清朝非常为迷惑人 ...
2021年催财最快风水方法，有钱人都这么做！

在现代社会中,金钱是人们赖以生存和获取幸福的物质基础,每一个人都渴望自己能够财运旺盛,富贵加身.而我们能够做的,就是努力工作赚取生活所需,但其实通过调整家居风水,也能有效的改善财运,让你获得滚滚财源. ...
怎么看一个发动机的好坏，教你2个方法，修车师傅都是这么看的

怎么看一个发动机的好坏，教你2个方法，修车师傅都是这么看的
PLC编程很难嘛？其实，只要有方法，这就都是浮云！

工控PLC技术公众号去学工控技术根据下图的三相交流电动机正反转控制的主电路,设计一个PLC控制电动机正停反的控制系统.控制要求如下: (1)正常情况下,按启动按钮SB1,电机正转,按下反转启动按 ...

数据格式规范，这些方法的格式你都get了吗？

一、格式规范

二、常见方法格式

三、综合评价中的数据格式

相关推荐