健康是人类社会发展的核心议题之一,了解人群的健康行为与风险因素对于制定有效的公共卫生政策、预防疾病和提高整体健康水平具有重要意义。美国疾病控制与预防中心(CDC)的行为风险因素监测系统(Behavioral Risk Factor Surveillance System, BRFSS)是全球最大的持续进行的电话健康调查系统,旨在收集美国成年人的健康相关行为、慢性病状况和预防保健实践等信息。2020年BRFSS数据集包含超过40万份调查样本,涵盖了广泛的健康行为和风险因素,为科研人员、公共卫生工作者和政策制定者提供了宝贵的资源。
该数据集不仅记录了受访者的基本人口统计信息,还包括吸烟、饮酒、身体活动、饮食习惯等健康相关行为,以及高血压、糖尿病、心脏病等慢性病的患病情况,同时还涉及心理健康、医疗保健获取和使用等方面的数据。这些丰富的信息使得该数据集在公共卫生研究、流行病学分析、健康政策制定以及机器学习模型训练等领域具有极高的应用价值。
数据基本信息
数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| _STATE | 数值型 | 州代码 | 1.0 | 100% |
| FMONTH | 数值型 | 调查月份 | 5.0 | 100% |
| IDATE | 数值型 | 调查日期 | 51520 | 100% |
| _SEX | 数值型 | 性别(1=男性, 2=女性) | 2.0 | 100% |
| _AGE_G | 数值型 | 年龄组 | 5.0 | 100% |
| _BMI5CAT | 数值型 | BMI分类(1=体重过轻, 2=正常, 3=超重, 4=肥胖) | 3.0 | 90.3% |
| SMOKE100 | 数值型 | 是否吸过至少100支烟(1=是, 2=否) | 2.0 | 94.9% |
| DRNKANY5 | 数值型 | 过去30天是否饮酒 | 1.0 | 91.2% |
| PHYSHLTH | 数值型 | 过去30天内身体不适天数(88=不适用, 77=不知道) | 3.0 | 90.1% |
| MENTHLTH | 数值型 | 过去30天内心理不适天数(88=不适用, 77=不知道) | 30.0 | 90.0% |
| HLTHPLN1 | 数值型 | 是否有健康保险(1=是, 2=否) | 2.0 | 99.2% |
| MEDCOST | 数值型 | 是否因费用问题而未就医(1=是, 2=否) | 1.0 | 99.3% |
| GENHLTH | 数值型 | 总体健康状况(1=优秀, 2=良好, 3=一般, 4=较差, 5=很差) | 2.0 | 99.6% |
| _RACE | 数值型 | 种族(1=白人, 2=黑人, 3=美洲印第安人/阿拉斯加原住民, 4=亚洲人, 5=夏威夷原住民/太平洋岛民, 6=其他种族, 7=多种族, 8=西班牙裔, 9=未知) | 1.0 | 99.5% |
| _EDUCAG | 数值型 | 教育程度(1=未完成高中, 2=高中毕业/GED, 3=大专/职业学校, 4=大学及以上, 9=未知) | 4.0 | 99.5% |
| _INCOMG | 数值型 | 家庭收入(1=低于1万美元, 2=1-1.5万美元, 3=1.5-2.5万美元, 4=2.5-3.5万美元, 5=3.5-5万美元, 6=5-7.5万美元, 7=7.5-10万美元, 8=10万美元及以上, 9=未知) | 5.0 | 80.1% |
数据分布情况
性别分布
| 性别 | 记录数量 | 占比 |
|---|---|---|
| 女性(2.0) | 218,027 | 54.2% |
| 男性(1.0) | 183,931 | 45.8% |
| 总计 | 401,958 | 100% |
年龄组分布
| 年龄组 | 记录数量 | 占比 |
|---|---|---|
| 6.0 | 139,831 | 34.8% |
| 5.0 | 78,089 | 19.4% |
| 4.0 | 62,033 | 15.4% |
| 3.0 | 51,971 | 12.9% |
| 2.0 | 44,382 | 11.0% |
| 1.0 | 25,652 | 6.4% |
| 总计 | 401,958 | 100% |
BMI分类分布
| BMI分类 | 记录数量 | 占比 |
|---|---|---|
| 超重(3.0) | 128,946 | 32.1% |
| 肥胖(4.0) | 115,541 | 28.7% |
| 正常(2.0) | 110,121 | 27.4% |
| 体重过轻(1.0) | 5,993 | 1.5% |
| 缺失值 | 41,357 | 10.3% |
| 总计 | 401,958 | 100% |
吸烟状况分布
| 吸烟状况 | 记录数量 | 占比 |
|---|---|---|
| 未吸过至少100支烟(2.0) | 224,535 | 55.9% |
| 吸过至少100支烟(1.0) | 156,750 | 39.0% |
| 不知道(7.0) | 2,178 | 0.5% |
| 拒绝回答(9.0) | 635 | 0.2% |
| 缺失值 | 17,860 | 4.4% |
| 总计 | 401,958 | 100% |
健康保险分布
| 健康保险 | 记录数量 | 占比 |
|---|---|---|
| 有保险(1.0) | 365,862 | 91.0% |
| 无保险(2.0) | 34,034 | 8.5% |
| 不知道(7.0) | 1,174 | 0.3% |
| 拒绝回答(9.0) | 888 | 0.2% |
| 总计 | 401,958 | 100% |
健康状况分布
| 健康状况 | 记录数量 | 占比 |
|---|---|---|
| 良好(2.0) | 138,139 | 34.4% |
| 一般(3.0) | 119,502 | 29.7% |
| 优秀(1.0) | 81,660 | 20.3% |
| 较差(4.0) | 46,239 | 11.5% |
| 很差(5.0) | 15,457 | 3.8% |
| 不知道(7.0) | 650 | 0.2% |
| 拒绝回答(9.0) | 301 | 0.1% |
| 总计 | 401,958 | 100% |
数据规模与类型
-
数据规模:401,958条记录,279个字段
-
数据类型:主要为数值型(包括分类编码和连续数值)
-
数据格式:CSV格式
-
覆盖领域:健康行为、慢性病状况、预防保健实践、人口统计信息
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 样本量庞大 | 超过40万份调查样本,涵盖美国50个州及地区 | 提供足够的统计效力,支持细粒度分析和复杂模型训练 |
| 数据质量高 | 由专业机构(CDC)收集和管理,采用标准化调查方法 | 确保研究结果的可靠性和可重复性 |
| 信息全面 | 包含人口统计、健康行为、慢性病、心理健康等多维度信息 | 支持多视角的健康研究和综合分析 |
| 连续性强 | BRFSS自1984年开始持续运行,2020年数据是最新的完整数据集 | 可用于趋势分析和长期健康监测 |
| 代表性好 | 采用分层抽样设计,确保样本代表性 | 研究结果可推广到美国成年人群体 |
| 开放获取 | 数据免费开放,便于科研和公共卫生应用 | 降低研究成本,促进健康领域的创新和合作 |
数据样例
以下是数据集的部分样例(显示前10条记录的主要字段):
| _STATE | _SEX | _AGE_G | _BMI5CAT | SMOKE100 | DRNKANY5 | PHYSHLTH | MENTHLTH | HLTHPLN1 | MEDCOST | GENHLTH |
|---|---|---|---|---|---|---|---|---|---|---|
| 1.0 | 2.0 | 5.0 | 1.0 | 1.0 | 1.0 | 3.0 | 30.0 | 2.0 | 1.0 | 2.0 |
| 1.0 | 2.0 | 6.0 | 3.0 | 1.0 | 2.0 | 88.0 | 88.0 | 1.0 | 1.0 | 3.0 |
| 1.0 | 2.0 | 6.0 | NaN | 2.0 | 2.0 | 88.0 | 88.0 | 1.0 | 2.0 | 2.0 |
| 1.0 | 2.0 | 6.0 | NaN | 2.0 | 1.0 | 88.0 | 88.0 | 1.0 | 2.0 | 2.0 |
| 1.0 | 2.0 | 6.0 | 2.0 | 1.0 | 1.0 | 88.0 | 88.0 | 1.0 | 2.0 | 2.0 |
| 1.0 | 2.0 | 6.0 | 3.0 | 2.0 | 1.0 | 88.0 | 88.0 | 1.0 | 2.0 | 2.0 |
| 1.0 | 2.0 | 6.0 | 4.0 | 2.0 | 1.0 | 88.0 | 88.0 | 1.0 | 2.0 | 3.0 |
| 1.0 | 2.0 | 6.0 | 4.0 | 2.0 | 2.0 | 88.0 | 88.0 | 1.0 | 2.0 | 3.0 |
| 1.0 | 2.0 | 6.0 | 4.0 | 2.0 | 2.0 | 88.0 | 88.0 | 1.0 | 2.0 | 3.0 |
| 1.0 | 2.0 | 6.0 | 3.0 | 2.0 | 2.0 | 88.0 | 88.0 | 1.0 | 2.0 | 3.0 |
样例说明:
-
样例包含了来自不同州、性别、年龄组的受访者数据
-
展示了BMI分类、吸烟状况、饮酒情况、健康保险覆盖等关键健康指标
-
部分字段使用了特殊编码(如88表示不适用),这是BRFSS数据集的标准编码方式
应用场景
公共卫生研究与政策制定
BRFSS数据集是公共卫生研究的重要资源,可用于分析美国成年人的健康行为、风险因素和慢性病流行情况。研究人员可以利用该数据集探讨吸烟、饮酒、身体活动等健康行为与慢性病(如高血压、糖尿病、心脏病)之间的关系,为制定针对性的公共卫生干预措施提供科学依据。例如,通过分析不同州和人群的吸烟率差异,可以确定需要加强烟草控制政策的地区和群体;通过研究肥胖的流行趋势和相关因素,可以制定更有效的肥胖预防策略。
此外,公共卫生政策制定者可以利用该数据集评估现有政策的效果,如健康保险覆盖扩展对医疗服务利用的影响,或烟草税增加对吸烟率的影响。这些分析结果可以帮助政策制定者优化资源分配,提高公共卫生政策的效果和效率。
流行病学分析与疾病监测
BRFSS数据集可用于流行病学研究,包括疾病的患病率、发病率、危险因素分析和趋势预测。研究人员可以利用该数据集计算不同人群(如不同年龄、性别、种族、收入群体)的慢性病患病率,分析疾病的分布特征和变化趋势。例如,通过分析糖尿病的患病率和相关危险因素(如BMI、吸烟、饮食),可以识别高风险人群,为疾病预防和早期干预提供指导。
此外,该数据集还可用于监测公共卫生事件的影响,如COVID-19疫情对心理健康的影响。研究人员可以比较疫情前后的心理健康数据,评估疫情对美国成年人心理健康的长期影响,并制定相应的心理健康支持策略。
机器学习模型训练与健康预测
BRFSS数据集包含丰富的健康相关变量,是训练机器学习模型的理想资源。研究人员和数据科学家可以利用该数据集开发预测模型,用于预测慢性病风险、健康行为改变、医疗服务利用等。例如,可以基于人口统计信息、健康行为和家族病史等变量,开发预测糖尿病或心脏病风险的模型,帮助医生识别高风险患者并提供个性化的预防建议。
此外,该数据集还可用于开发健康相关的推荐系统,如基于用户的健康状况和行为习惯,推荐适合的健康干预措施或生活方式改变建议。这些模型和系统可以应用于移动健康应用、电子健康记录系统和公共卫生干预项目中,提高健康管理的效率和效果。
健康不平等研究与公平性分析
BRFSS数据集包含详细的人口统计信息(如种族、收入、教育程度)和健康指标,可以用于研究健康不平等现象。研究人员可以分析不同社会经济地位、种族和地区人群之间的健康差异,识别导致健康不平等的因素,并提出减少健康不平等的策略。例如,通过分析不同收入群体的健康保险覆盖率、医疗服务利用和健康状况差异,可以评估健康保险政策对减少健康不平等的效果,为制定更公平的健康政策提供依据。
学术研究与教学应用
BRFSS数据集广泛应用于学术研究和教学领域。高校教师可以将该数据集用于统计学、流行病学、公共卫生和数据分析等课程的教学,帮助学生学习数据处理、统计分析和研究方法。学生可以利用该数据集进行课程项目和毕业论文研究,培养数据分析和研究能力。
此外,该数据集还可用于跨学科研究,如社会学、经济学和心理学等领域的健康相关研究。例如,社会学家可以研究社会支持网络对心理健康的影响,经济学家可以分析健康与劳动力市场结果之间的关系,心理学家可以研究压力和应对方式对健康的影响。
结尾
2020年美国行为风险因素监测系统(BRFSS)数据集是一份极具价值的公共卫生资源,包含超过40万份调查样本和279个健康相关变量,涵盖了人口统计、健康行为、慢性病状况和心理健康等多维度信息。该数据集具有样本量大、数据质量高、信息全面、代表性好等优势,为公共卫生研究、流行病学分析、机器学习模型训练和健康政策制定提供了强大的支持。
通过对该数据集的深入分析,可以更好地了解美国成年人的健康状况和风险因素,为制定有效的健康干预措施和政策提供科学依据。同时,该数据集的开放获取特性也促进了健康领域的创新和合作,有助于推动公共卫生事业的发展和人类健康水平的提高。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






