美国国家健康与营养调查(NHANES,National Health and Nutrition Examination Survey)是 一项旨在评估美国成人和儿童健康和营养状况的研究计划,该调查的独特之处在于它结合了访谈和体 检。
NHANES是国家卫生统计中心(NCHS,National center for Health Statistics)的主要计划,是国家营养 监测的基石,为营养和健康政策的制定提供了大量数据。NHANES项目信息及调查数据会在网站上及时 更新且向公众免费开放。本文通过介绍NHANES项目相关内容及数据提取方法,方便需要的研究者快速 高效地获取自己需要地数据。
打开网站首页:https://www.cdc. gov/nchs/nhanes/index.htm,该网站是属于CDC (Centers For Disease Control and Prevention),也就是美国疾病控制与预防中心在左侧的导航栏中,选择我们感兴趣的Questionnaires,Datasets,and Related Documentation,也就是调查问卷,数据集和相关文档一项。 选择数据年份
在这里我们看到虽然2017~2018 年份已经存在,但在本文撰写时该数据还未整理完成,因此这里我们选择最近的日期,点击 NHANES 2015-2016。在“Data,Documentation, Codebooks,SAS Code”一项中,有6项不同的数 据,分别是“Demographics Data”(人口数据)、 “Dietary Data”(饮食数据)、“Examination Data”(检查数据)、“Laboratory Data”(化验 数据)、“Questionnaire Data”(问卷数据)、 “Limited Access Data”(限制访问数据)。这里 我们以“Demographics Data”为例,明确如何应用。2.5 理解数据变量 在上表中有几个重要内容, “NHANES 2015-2016 Demographics Variable List”:人口数据的所有变量列表;“DEMO_I Doc”:关于所有变量如何采集和数据类型的详 细说明;“DEMO_I Data [XPT - 3.6 MB]”:真 实数据的下载链接。点击NHANES 2015-2016 Demographics Variable List 进入下一页,可以看 到变量类型比如患者访谈时使用的语言,出生国 家,是否为美国公民,学历,家庭人数等信息 。返回上一页,点击“DEMO_I Data [XPT - 3.6 MB]”,下载数据,该数据为XPT格 式,也就是SAS软件的数据格式,可以使用SAS Universal Viewer来查看,可以导入到R语言中, 使用R Studio查看。 安装R语言 R Studio必须在安装R语言的 条件下才能使用,打开R语言网址,https://cran. r-project.org/,选择适合自己电脑操作系统的版本安装。安装R Studio 进入R Studio网站,找到以下链接,点击进入:https://www.rstudio.com/products/ rstudio/download/#download,选择适合的版本。这 里我们选择最基本的免费版,选择适用自己电脑 操作系统的版本,点击下载。下载完成后点击按照,此处无需特别设置。启动R Studio 安装完R语言之后启动,成功进入R Studio。 编写R语言脚本 点击左上角的绿色+,选择”R Script”,来创建一个新的R脚本。编写代码导入数据 输入以下代码来导入我们刚才下载的人口数据。导入数据 数据导入成功后,会以表格形式展 示,可以看到,人口数据中总共有9971个样本, 47个变量。SEQN是样本编号,以83 736为例,可 以看到RIDSTATR=2,表示进行了面试和检查, RIAGENDER=2,表示女性,RIDAGEYR=42,表示42岁。 合并数据 人口数据里面只有关于样本的特征 信息,如我们需要研究特定人群的发病情况,需 要合并多个表格数据进行分析。如我们想知道血 压情况,同样的方法,先去下载到血压数据。然后导入到R Studio,导入之后发现有9544个 样本,21个变量,说明不是所有人都采集了血压信息。将 两 个 数 据 集 合 并 成 一 个 , 取 名 为 merge_data,下面是完整的加载两个数据集并合 并的代码。综合分析 在合并后的数据中,我们可根据自 己的研究领域进行查询,如在140~190的人群分 布。在合并后的数据中,点击Filter,在弹出的下 拉菜单中可根据变量做各种条件过滤,比如选择 BPXCHR中140-190的人群,可看到共有166个样 本符合该条件。中心国家卫生统计中心连续开展的横断面调查收集了全国有关健康和营养状况的代表性数据,可以为流行病学家和营养学家提供全面的生物学、社会心理学、行为学及人口学等的信息。与过去的健康调查一样,NHANES收集了有关人口中慢性病患病率的数据,通过调查,可估算出以前未确诊的情况,以及受访者已知和报告的情况。这些信息是NHANES计划的特殊优势。同时调查了风险因素,一个人的生活方式、体质、遗传或环境可能会增加患某种疾病或病症的机会。研究吸烟、饮酒、性行为、吸毒、身体健康和活动、体重和饮食摄入量。还收集了关于生殖健康某些方面的数据,如使用口服避孕药和母乳喂养做法。研究的疾病和健康指标包括:贫血、心血管疾病、糖尿病、环境暴露眼疾、听力损失、传染性疾病、肾脏疾病、营养、肥胖、口腔健康、骨质疏松、生育史和性行为、呼吸系统疾病(哮喘,慢性支气管炎,肺气肿)、性病、视力等,研究结果可用于确定慢性疾病的患病率和危险因素,便于研究者开展流行病学研究,并为政府公共卫生政策和卫生服务计划的制定提供依据。
参考来源:中国循证心血管医学杂志2019年6月第11卷第6期 Chin J Evid Based Cardiovasc Med,June,2019,Vol.11,No.6