作者:宋森安(西南财经大学) 邮箱:songsean@88.com; 李青塬(广东工业大学)
邮箱:qingyuanli95@gmail.com

1. 引言

此前,连享会已介绍过中国家庭金融调查( CHFS )以及中国家庭追踪调查 ( CFPS ) 的清洗过程。事实上,中国健康与养老调查数据库( China Health and Retirement Longitudinal Study,以下简称为“ CHARLS ”)也是国内外学者使用频次极高的数据库,尤其在劳动经济学和健康经济学领域。全球进入 21 世纪以来,有两大转型,一是在健康方面,慢性疾病越来越多。二是人口结构方面,老年人口规模扩张。所以,随着老年人口越来越多,自然而然研究这个群体及其健康问题就变得越来越重要。同时,在十四五规划和 2035 远景目标纲要中,“优先发展农业农村,全面推进乡村振兴” 成为重要组成部分,研究乡村振兴问题也越来越重要。CHARLS 独有丰富的中国农村家庭厚数据,历久弥香,是研究乡土中国与乡村振兴的宝贵素材。笔者以 CHARLS 数据为例 ,尝试分享 CHARLS 的清洗工作。

根据官网介绍,CHALRS 旨在收集一套代表中国 45 岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究。CHARLS 全国基线调查于 2011 年开展,覆盖 150 个县级单位,450 个村级单位,约1万户家庭中的 1.7 万人。这些样本以后每两到三年追踪一次,调查结束一年后,数据将对学术界展开。

CHARLS 问卷内容包括:个人基本信息,家庭结构和经济支持,健康状况,体格测量,医疗服务利用和医疗保险,工作、退休和养老金、收入、消费、资产,以及社区基本情况等。

CHARLS 曾于 2008 年在分别代表我国东西部典型国情的浙江、甘肃两省开展预调查;全国基线调查于 2011 年开展,于 2011、2013、2015 和 2018 年分别在全国 28 个省(自治区、直辖市)的 150 个县、450 个社区(村)开展调查访问,至 2018 年全国追访完成时,其样本已覆盖总计 1.24 万户家庭中的 1.9 万名受访者。

此外, CHARLS 还曾在 2014 年组织并实施了“中国居民生命历程调查”、2016 年开展“共和国初期基层经济历史调查”两项全国性专项访问,亦完全覆盖上述样本地区。2017 年在北京和天津两地开展省级代表性抽样,调查访问对象扩大到家户中的全年龄样本。

但 2016 年、2017 年、2020 年的调查数据在官网是无法获取的。 根据 CHARLS 官方公众号介绍,第五轮全国调查工作在 2021 年开展,但受疫情影响,中途不得不暂停(预计 2022 年暑期继续开展)。因此,第五轮调查的数据情况到底如何,以及何时发布暂不清楚。

此外,国际上存在与 CHARLS 类似的调查(例如美国的 HRS ),调查指标具有一定的相似性。2015 年,NIA (National Institute on Aging,美国国家老龄化研究所)为了方便公众使用数据、促进老年人口的健康和社会经济活动状况的跨国横截面比较,整合了多国的老年健康和养老追踪调查数据资源,推出了网站-The Gateway to Global Aging Data (网站链接: http://gateway.usc.edu/ )。

2. 注册与下载

如果您还未注册,可通过 http://charls.pku.edu.cn/index.htm 进入官网,点击主页右上方的“注册”连接进行注册,注册时需要在网站上签署用户数据使用协议并提供你的个人信息供核查使用。

注:CHARLS 有时候会打不开,实属正常情况。

确认 Email 信息后,注册完成,即可进入 CHARLS 下载界面。

需要某年的数据,点击右侧的申请数据即可,申请一般在3个工作日内得到是否批准的回复。

3. 常见问题

以下几个问题,主要基于笔者清理过程中遇到的问题以及网络论坛上的常见问题。

城市信息

CHARLS 在 2011 年、2013 年、以及 2014 年(生命历程调查)公开过个体的城市信息(具体的数据集名称为 PSU.dta ),包括省份和地级市名称(注:原始数据可能乱码,请自行参考连享会既往推文)。尤其在 2014 年的生命历程调查数据中,详细公开了个体曾经去过的地级市以及相应的流动时间、原因(具体数据集名称为 Residence.dta )。

PSU 给出的是具体城市名称,生命历程调查中给出的是区划代码,需要与统计局的区划代码匹配(前四位数字)。区划代码的访问链接如下:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2011/index.html

2015 年后不再公布 PSU 数据集。尽管 CHARLS 在扩大调查人群,但 PSU 信息依旧可以继续沿用。或者说,调查的地区不变。目前,大多数微观调查数据库基本不公开个体的城市信息,使用起来较为麻烦, CHARLS 无疑为研究者提供了便利。

调查时间

CHARLS 只公开调查年份和月份,但没有具体日期(数据集为 Sample_Infor.dta )。同时,要注意的是,CHARLS 部分调查时间不仅限于当年。例如,2011 年 CHARLS 调查之中,部分人群的调查时间在 2012 年。因此,在利用年份计算时,不可笼统使用统一的年份。

Harmonized CHARLS

如前所述,CHARLS 是一个国际性的数据库,是全球老龄化人口调查数据平台的一部分。每年公开数据后,专门有研究人员对 CHALRS 既往数据进行清洗,将整合成一个数据集—— Harmonized CHARLS ( https://g2aging.org/?section=downloads )。

Harmonized CHARLS 数据集可直接在 CHARLS 官网下载,包括 Documentation related to data using 、Codes 以及 Data Files,可以看到具体的清理过程,可信度很高!Harmonized CHARLS 几乎给出了问卷中的所有变量,很大程度上减轻我们的清洗工作。如果觉得某个变量清洗存在错误或不合适,大家可直接在其基础上再清洗。
目前,Harmonized CHARLS 已更新到 Version D,整合了 2011 年、2013 年、2015 年、2018 年以及生命历程调查数据。

同时注意,如果实证研究过程中使用了 Harmonized CHARLS 数据集,请注明其来源,以视对他人知识成果的尊重与保护。

保险

清理过程中发现 2015 CHARLS 数据中医保类型无法准确识别,同时看到不少同学也反映过该情况。


具体解决办法,可参考 Harmonized CHARLS 问卷( 191 页):即 EA001_W3_2_i_ 或 EA001_W3_3_i_ 取 1 ,即可视为参加该医保类型。

收入

事实上,很多老年人是没有固定收入的,波动较大且城乡收入差距大,但家庭收入水平是一个衡量社会经济特征的重要变量。刘畅等(2017)在《管理世界》的文章中说明了各个变量在问卷中的编码(但仍不够透明)。

已有文献在如何计算家庭收入方面是比较模糊的;另一方面,CHARLS 中的收入项目较复杂,且每年也在调整,需要综合整个问卷计算。Harmonized CHARLS 计算家庭收入时,纳入了众多收入选项,最后的收入还包含“负值”。而相比于家庭收入,家庭消费的计算较为简单,也是一个很好的衡量社会经济地位的变量。尤其在研究农村地区时,可以将家庭人均消费作为家庭人均收入的替代变量,这也在一些论文中得以验证( Zhang et al., 2017 )。

体检数据

2011 年、2013 年、2015 年包含有体检数据,但 2018 年没有体检数据。

4. 结束语

CHARLS 数据清洗分为上、下两篇推文。上篇介绍 CHARLS 的一些概况、下载以及可能碰到的问题,下篇详细讲解 CHARLS 中常用变量的清洗。CHARLS 数据好比一座巨大的金矿,初次接触 CHARLS 数据的朋友可能存在畏难情绪,感到无从下手。要想从 CHARLS 数据中挖到金矿,一方面,我们需要最重要的是一颗不畏惧 CHARLS 的心,抓住我们所研究问题的主要矛盾及主要的矛盾方面,去粗取精,去伪存真。另一方面,实践出真知,深处看中国。如果有机会参与 CHARLS 数据收集调研,理解每个数据背后都有一个故事,我们就会有一颗爱上 CHARLS 的心,可能更容易挖到金矿。笔者的数据功底尚浅,如有错误,还请谅解,本文仅为抛砖引玉。欢迎通过邮件与我们沟通、探讨。

5. 参考文献

  • 中国健康与养老追踪调查 (pku.edu.cn)
  • CHARLS数据获取常见问题
  • https://mp.weixin.qq.com/s/zHllt2U-r4YUiibSvM2IJQ
  • https://mp.weixin.qq.com/s/D6C0o4842kj7OnOemDYHLg
  • Gateway to Global Aging Data (g2aging.org)
  • 刘畅,易福金,徐志刚.父母健康:金钱和时间孰轻孰重?——农村子女外出务工影响的再审视[J].管理世界,2017,No.286(07):74-87.DOI:10.19744/j.cnki.11-1235/f.2017.07.007.
  • Zhang, Chuanchuan, et al. “Health insurance and health care among the mid‐aged and older Chinese: Evidence from the national baseline survey of CHARLS.” Health economics 26.4 (2017): 431-449.

6. 相关推文

Note:产生如下推文列表的命令为:lianxh 数据处理 CHFS CHARLS CFPS, m

安装最新版 lianxh 命令:ssc install lianxh, replace

  • 专题:数据分享

    • Stata:CHFS中国家庭金融调查数据库清洗和处理-D121
    • 清洗CFPS:两步搞定中国家庭追踪调查数据清洗
    • Stata数据处理:清洗CFPS数据库
  • 专题:Stata教程
    • 普林斯顿Stata教程(一) - Stata数据处理
  • 专题:数据处理
    • CFPS数据处理:少儿代答库与成人库匹配
    • Stata数据处理:批量处理被保护的年鉴数据-dxls-txls
    • Stata数据处理:快速合并与编码-encodefrom
    • Stata 数据处理:iefieldkit 命令介绍
    • Stata数据处理:缺失值与多重补漏分析(一)
    • Stata数据处理:缺失值与多重补漏分析(二)
    • Stata数据处理:缺失值与多重补漏分析(三)
    • Stata数据处理:一文读懂微观数据库清理(上)
    • Stata数据处理:一文读懂微观数据库清理(下)
    • Stata数据处理:iebaltab和ieddtab命令介绍-T208
    • Stata数据处理:ietoolkit命令组介绍-T207
    • Stata数据处理:通过API获取经济数据
    • Stata数据处理:超大Excel文档如何读入
    • 滚动吧统计量!Stata数据处理
    • Stata数据处理:各种求和方式一览
    • Stata数据处理:字符型日期变量的转换
    • Stata数据处理:统计组内非重复值个数
    • Stata数据处理:赫芬达尔指数-(hhi5)-命令介绍
    • Stata数据处理:用-astile-快速创建分组
    • Stata数据处理:物价指数-(CPI)-的导入和转换
    • Stata数据处理:分年度-行业计算销售额前四名的行业占比
    • Stata数据处理:用-efolder-快速生成文件夹和子文件夹
    • Stata数据处理:FRED数据导入问题的解决方案
    • Stata数据处理:ascol-mtoq-日收益转周-月-季-年度数据
    • Stata数据处理:ftree命令-用txt文档记录文件夹结构
    • Stata数据处理:import-fred-命令导入联邦储备经济数据库-FRED
    • Stata 数据处理:nrow + labone 的巧妙使用
    • Stata数据处理:面板数据的填充和补漏
    • Stata: 约翰霍普金斯大学 COVID-19 疫情数据处理及可视化
  • 专题:面板数据
    • Stata数据处理:xtbalance-非平衡面板之转换
    • Stata数据处理:如何提取某个变量有记录的第一年的年份

宋森安——CHARLS中国健康与养老调查数据清洗(一)相关推荐

  1. 中国健康与养老追踪调查数据(CHARLS)

    数据名称:中国健康与养老追踪调查数据(CHARLS)数据时间跨度:2008-2018年中国健康与养老追踪调查(ChinaHealthandRetirementLongitudinalStudy,CHA ...

  2. 数据名称:中国健康与养老追踪调查数据(CHARLS)数据时间跨度:2008-2018年中国健康与养老追踪调查(China Health and Retirement Longitudinal St

    数据名称:中国健康与养老追踪调查数据(CHARLS) 数据时间跨度:2008-2018年 中国健康与养老追踪调查(China Health and Retirement Longitudinal St ...

  3. “中国健康与营养调查”CHNS数据

    数据名称:"中国健康与营养调查"CHNS数据数据时间跨度:89-15年20世纪90年代,原中国预防医学科学院营养与食品卫生研究所与美国北卡罗来纳大学合作开展了大型开放式队列研究项目 ...

  4. 中国健康与营养调查数据库(CHNS)89-15年

    CHNS全称为China healthand nutrition survey中国居民健康与营养调查项目是北卡罗来纳大学与中国疾病预防控制中心营养与健康中心联合开展的国际合作项目.该研究旨在探索中国社 ...

  5. 中国健康与营养调查数据(chns)

    中国健康与营养调查数据库(CHNS)89-15年 CHNS全称为China healthand nutrition survey中国居民健康与营养调查项目是北卡罗来纳大学与中国疾病预防控制中心营养与健 ...

  6. 数据名称:“中国健康与营养调查”CHNS数据数据时间跨度:89-15年20世纪90年代,原中国预防医学科学院营养与食品卫生研究所与美国北卡罗来纳大学合作开展了大型开放式队列研究项目“中国健康与营养

    数据名称:"中国健康与营养调查"CHNS数据 数据时间跨度:89-15年 20世纪90年代,原中国预防医学科学院营养与食品卫生研究所与美国北卡罗来纳大学合作开展了大型开放式队列研究 ...

  7. 真相为何竟如此难得 -- 《中国健康调查报告》

    老实说,"以动物性食物为主的膳食会导致慢性疾病的发生,以植物性食物为主的膳食最有利于健康,也最能有效地预防和控制慢性疾病",对我来说这并非什么"石破天惊"的新观 ...

  8. 开放数据库:2016年中国流动人口健康素养专题调查数据

    1.概况介绍 数据来源于国家卫生计生委2016年中国流动人口动态监测调查,数据来源于流动人口个人问卷(B卷)健康素养专题,内容包括家庭成员与收支情况.就业与流动.居留和落户意愿.婚育和卫生服务.健康素 ...

  9. 养老展,2023中国北京国际养老产业博览会

    CISSE中国国际养老服务业博览会,2023年将在成功举办多届的基础上,继续突出中国养老展会的代表性,一如既往地专注于 买家的组织和企业的市场推广服务,展会期间举办各种丰富的活动,多种渠道多层次宣传, ...

  10. 全球及中国健康保险市场运作模式与需求潜力预测报告2022版

    全球及中国健康保险市场运作模式与需求潜力预测报告2022版 HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS-- [修订日期]:2021年11月 [搜索鸿晟 ...

最新文章

  1. DoubleSlider
  2. Python中的元类是什么?
  3. [译文]ASCII art with C#
  4. Android动态加载进阶 代理Activity模式
  5. linux-mysql忘记密码解决办法-适用5.76
  6. jemeter python接口自动化测试平台_python接口自动化测试之request
  7. nginx代理https后,spring mvc web应用redirect https变成http
  8. li ul vue 滚动显示_vue ul循环滚动的问题
  9. JAVA Eclipse 启动 Eclipse 弹出“Failed to load the JNI shared library jvm_dll”怎么办
  10. 深入浅出 MFC -WIN32基本概念
  11. Java Dump文件分析 - Eclipse MemoryAnalyzer
  12. vivado修改下载器下载速率
  13. 谷歌生物医学专用翻译_干货| 三款精选文献翻译神器,助力文献阅读!
  14. 5分钟TypeScript入门
  15. MySQL当前读和快照读
  16. 吴恩达:如何学习机器学习
  17. 【sv】for循环+fork-join_none结构的坑
  18. 在今日头条有粉丝17万月入万把块,究竟今日头条要怎么挣钱?
  19. java备忘--20190828
  20. MySQL安装当中遇到的问题

热门文章

  1. 使用Iocomp工控图表工具绘制实时曲线
  2. Spring源码的学习方法和知识地图
  3. java删除图片杂色_PS中级教程!手把手教你绘制霸气酷炫的暗黑3壁纸
  4. 干货分享 |全面总结XSS
  5. 12个超好用的IntelliJ IDEA 插件!你用过几个?
  6. java开发简历专业技能怎么写,附赠复习资料
  7. SPD软件(医用耗材管理系统)应用效果分析
  8. Ajax批量上传文件Demo
  9. 【转】MP3文件原理及结构解析
  10. HEX2BIN在WIN7下不能用之后