# 牛津镇中心行人检测数据集:高清视频与精准标注的完美结合
## 引言与背景
行人检测与多目标跟踪是计算机视觉领域的核心研究方向,在智能监控、自动驾驶、智慧城市等场景中具有广泛的应用价值。高质量的标注数据集是推动相关算法发展的关键基础。牛津镇中心行人检测数据集(Oxford Town Centre Dataset)作为该领域的经典基准数据集,以其真实的城市场景、丰富的行人目标和精细的标注信息,为科研人员和算法工程师提供了宝贵的研究资源。
本数据集完整包含三个核心组成部分:原始监控视频文件、精准的行人标注信息文件以及相机校准参数文件。原始视频记录了英国牛津镇中心的真实街景,涵盖多种行人行为模式和复杂的遮挡场景。标注文件提供了每一帧中所有行人的头部和身体边界框信息,支持目标检测和多目标跟踪等多种研究任务。相机校准文件则包含完整的相机内参和外参,为三维重建和场景理解研究提供了必要的技术支撑。该数据集对于行人检测算法的性能评估、多目标跟踪系统的基准测试以及智慧城市应用的算法研发具有重要的参考价值。
## 数据基本信息
### 数据规模与格式
本数据集包含一个时长约300秒的高清监控视频,分辨率为1920×1080像素,帧率约为10帧/秒,共计3090帧图像。视频文件采用MP4格式封装,文件大小约82MB。标注文件采用TOP格式存储,包含47746条行人标注记录,文件大小约3.5MB。相机校准文件采用CI格式,包含16个相机参数,文件大小约610字节。
### 数据字段说明
标注文件采用逗号分隔的文本格式,每条记录包含12个字段,详细记录了行人的位置和边界框信息。以下表格展示了各字段的详细说明:
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| 行号 | 整数 | 记录序号,从0开始递增 | 0, 1, 2, 3 | 100% |
| 帧号 | 整数 | 视频帧编号,范围0-3089 | 0, 500, 1000, 1500 | 100% |
| 目标编号 | 整数 | 当前帧内的目标序号 | 1 | 100% |
| 目标类型 | 整数 | 目标类别标识,1表示行人 | 1 | 100% |
| 头部中心X | 浮点数 | 头部边界框中心点X坐标 | 270.83, 308.30 | 95.89% |
| 头部中心Y | 浮点数 | 头部边界框中心点Y坐标 | 794.10, 303.00 | 95.89% |
| 头部宽度 | 浮点数 | 头部边界框宽度 | 309.04, 330.84 | 95.89% |
| 头部高度 | 浮点数 | 头部边界框高度 | 834.07, 326.82 | 95.89% |
| 身体中心X | 浮点数 | 身体边界框中心点X坐标 | 235.93, 285.75 | 95.89% |
| 身体中心Y | 浮点数 | 身体边界框中心点Y坐标 | 770.14, 291.42 | 95.89% |
| 身体宽度 | 浮点数 | 身体边界框宽度 | 371.55, 370.56 | 95.89% |
| 身体高度 | 浮点数 | 身体边界框高度 | 1101.03, 493.41 | 95.89% |
### 每帧目标数量分布
数据集中每帧包含的行人数量存在较大差异,从最少6个到最多28个不等,反映了真实场景中行人密度的动态变化。以下表格展示了每帧目标数量的详细分布情况:
| 目标数量 | 帧数 | 占比 | 累计占比 |
|---------|------|------|---------|
| 6个 | 63 | 2.0% | 2.0% |
| 7个 | 86 | 2.8% | 4.8% |
| 8个 | 132 | 4.3% | 9.1% |
| 9个 | 222 | 7.2% | 16.3% |
| 10个 | 132 | 4.3% | 20.6% |
| 11个 | 52 | 1.7% | 22.2% |
| 12个 | 61 | 2.0% | 24.2% |
| 13个 | 236 | 7.6% | 31.8% |
| 14个 | 400 | 12.9% | 44.8% |
| 15个 | 313 | 10.1% | 54.9% |
| 16个 | 201 | 6.5% | 61.4% |
| 17个 | 95 | 3.1% | 64.5% |
| 18个 | 264 | 8.5% | 73.0% |
| 19个 | 180 | 5.8% | 78.9% |
| 20个 | 231 | 7.5% | 86.3% |
| 21个 | 76 | 2.5% | 88.8% |
| 22个 | 82 | 2.7% | 91.5% |
| 23个 | 36 | 1.2% | 92.6% |
| 24个 | 47 | 1.5% | 94.1% |
| 25个 | 65 | 2.1% | 96.2% |
| 26个 | 34 | 1.1% | 97.3% |
| 27个 | 59 | 1.9% | 99.3% |
| 28个 | 23 | 0.7% | 100.0% |
从分布数据可以看出,每帧目标数量主要集中在13-20个之间,占总帧数的55.9%,其中14个目标的帧数最多,占比12.9%。这种分布特征反映了城镇中心区域典型的行人密度水平,为算法在中等密度场景下的性能评估提供了良好的测试基准。
### 时间段帧分布
数据集的视频时长约300秒,帧率约10帧/秒,帧分布均匀覆盖整个视频时长。以下表格展示了不同时间段的帧分布情况:
| 时间段 | 帧范围 | 帧数 | 占比 |
|-------|--------|------|------|
| 0-48秒 | 0-499 | 500 | 16.2% |
| 49-97秒 | 500-999 | 500 | 16.2% |
| 97-146秒 | 1000-1499 | 500 | 16.2% |
| 146-194秒 | 1500-1999 | 500 | 16.2% |
| 194-243秒 | 2000-2499 | 500 | 16.2% |
| 243-291秒 | 2500-2999 | 500 | 16.2% |
| 291-300秒 | 3000-3089 | 90 | 2.9% |
帧分布数据表明,除最后约9秒外,其余时间段帧数分布均匀,各占16.2%,确保了数据集在时间维度上的均衡性,有利于算法在不同时间段的稳定性评估。
### 目标类型分布
数据集中所有标注记录的目标类型均为行人(类型标识为1),共计47746条记录,占比100%。这种单一类别的标注方式使得数据集专注于行人检测任务,便于算法在该垂直领域的深度优化和性能提升。
## 数据优势
本数据集具有多项显著优势,使其成为行人检测与多目标跟踪研究的理想选择:
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 完整原始视频 | 包含82MB高清MP4视频文件,分辨率1920×1080,时长300秒 | 支持基于完整视频内容的深度分析,可用于视频理解、行为识别等研究 |
| 双边界框标注 | 同时提供头部和身体两个边界框,共计47746条标注记录 | 支持多粒度目标检测,头部检测可用于人脸识别,身体检测适用于行人重识别 |
| 高数据完整率 | 有效记录45784条,数据完整率达95.89% | 确保算法训练和测试的数据质量,减少异常数据对模型性能的影响 |
| 真实城市场景 | 采集自牛津镇中心真实街景,包含多种行人行为模式 | 提供真实场景下的算法验证环境,研究成果具有实际应用价值 |
| 相机校准参数 | 包含16个完整的相机内参和外参参数 | 支持三维重建、场景理解、相机姿态估计等高级视觉任务 |
| 均衡帧分布 | 3090帧均匀分布在整个视频时长内 | 确保算法在不同时间段的稳定性评估,避免时间偏差对实验结果的影响 |
| 动态目标密度 | 每帧目标数从6到28个不等,平均15.45个 | 覆盖不同密度场景,测试算法在复杂环境下的鲁棒性 |
特别值得强调的是,本数据集包含完整的原始视频文件,这是许多公开数据集所不具备的重要优势。完整的原始视频不仅支持基于帧的目标检测任务,更为视频级别的多目标跟踪、行为分析、场景理解等研究提供了必要的数据基础。研究者可以直接访问原始视频内容,进行帧间关联分析、运动轨迹提取、行为模式识别等深度研究,无需额外收集或处理视频数据。
## 数据样例
本数据集包含完整的原始视频文件,但由于视频文件较大且格式限制,无法在文章中直接展示视频内容。实际数据集中包含完整的高清视频文件可供使用。以下展示了标注数据的多样化样例,涵盖不同时间段、不同位置的行人标注记录:
### 标注数据样例
样例1(帧0,时间0秒): - 行号:0,帧号:0,目标编号:1,目标类型:行人 - 头部边界框:中心(270.83, 794.10),宽高(309.04, 834.07) - 身体边界框:中心(235.93, 770.14),宽高(371.55, 1101.03)样例2(帧0,时间0秒): - 行号:1,帧号:0,目标编号:1,目标类型:行人 - 头部边界框:中心(308.30, 303.00),宽高(330.84, 326.82) - 身体边界框:中心(285.75, 291.42),宽高(370.56, 493.41)样例3(帧0,时间0秒): - 行号:2,帧号:0,目标编号:1,目标类型:行人 - 头部边界框:中心(307.92, 241.00),宽高(328.64, 262.84) - 身体边界框:中心(286.85, 230.50),宽高(365.79, 416.41)样例4(帧500,时间48.5秒): - 行号:6,帧号:500,目标编号:1,目标类型:行人 - 头部边界框:中心(1636.45, 26.93),宽高(1651.93, 43.52) - 身体边界框:中心(1609.76, 19.48),宽高(1668.54, 159.93)样例5(帧500,时间48.5秒): - 行号:18,帧号:500,目标编号:1,目标类型:行人 - 头部边界框:中心(1060.03, 17.17),宽高(1073.92, 32.29) - 身体边界框:中心(1044.89, 9.66),宽高(1090.71, 139.15)样例6(帧500,时间48.5秒): - 行号:20,帧号:500,目标编号:1,目标类型:行人 - 头部边界框:中心(1188.81, 134.63),宽高(1206.32, 153.50) - 身体边界框:中心(1171.06, 125.35),宽高(1224.52, 287.71)样例7(帧1000,时间97.1秒): - 行号:43,帧号:1000,目标编号:1,目标类型:行人 - 头部边界框:中心(1781.23, 144.56),宽高(1801.66, 165.04) - 身体边界框:中心(1743.60, 135.57),宽高(1822.24, 309.30)样例8(帧1000,时间97.1秒): - 行号:45,帧号:1000,目标编号:1,目标类型:行人 - 头部边界框:中心(286.03, 661.92),宽高(319.64, 697.48) - 身体边界框:中心(254.53, 642.65),宽高(376.89, 936.87)样例9(帧1000,时间97.1秒): - 行号:46,帧号:1000,目标编号:1,目标类型:行人 - 头部边界框:中心(385.66, 543.74),宽高(414.97, 575.56) - 身体边界框:中心(357.63, 527.54),宽高(463.60, 792.07)样例10(帧1500,时间145.6秒): - 行号:55,帧号:1500,目标编号:1,目标类型:行人 - 头部边界框:中心(1695.97, 161.50),宽高(1715.77, 182.04) - 身体边界框:中心(1663.11, 152.18),宽高(1735.81, 326.84)样例11(帧1500,时间145.6秒): - 行号:57,帧号:1500,目标编号:1,目标类型:行人 - 头部边界框:中心(1147.41, 6.08),宽高(1161.02, 20.95) - 身体边界框:中心(1132.59, -1.26),宽高(1176.56, 125.72)样例12(帧1500,时间145.6秒): - 行号:58,帧号:1500,目标编号:1,目标类型:行人 - 头部边界框:中心(1789.83, 198.62),宽高(1811.96, 220.63) - 身体边界框:中心(1750.28, 188.81),宽高(1833.91, 375.58)样例13(帧2000,时间194.2秒): - 行号:100,帧号:2000,目标编号:1,目标类型:行人 - 头部边界框:中心(1009.53, 94.53),宽高(1025.75, 112.01) - 身体边界框:中心(992.52, 85.85),宽高(1045.24, 236.47)样例14(帧2000,时间194.2秒): - 行号:101,帧号:2000,目标编号:1,目标类型:行人 - 头部边界框:中心(1356.83, 280.37),宽高(1378.67, 304.18) - 身体边界框:中心(1332.31, 268.80),宽高(1399.96, 471.17)样例15(帧2000,时间194.2秒): - 行号:102,帧号:2000,目标编号:1,目标类型:行人 - 头部边界框:中心(838.26, 87.19),宽高(854.06, 104.31) - 身体边界框:中心(821.44, 78.64),宽高(875.04, 226.28)样例16(帧2500,时间242.7秒): - 行号:124,帧号:2500,目标编号:1,目标类型:行人 - 头部边界框:中心(1306.63, 680.41),宽高(1340.41, 717.41) - 身体边界框:中心(1268.38, 661.20),宽高(1370.77, 964.09)样例17(帧2500,时间242.7秒): - 行号:126,帧号:2500,目标编号:1,目标类型:行人 - 头部边界框:中心(1324.25, 6.02),宽高(1338.00, 21.14) - 身体边界框:中心(1307.67, -1.25),宽高(1352.85, 127.19)样例18(帧2500,时间242.7秒): - 行号:131,帧号:2500,目标编号:1,目标类型:行人 - 头部边界框:中心(916.93, 80.39),宽高(932.63, 97.36) - 身体边界框:中心(900.25, 71.93),宽高(952.64, 218.14)样例19(帧3089,时间299.9秒): - 行号:139,帧号:3089,目标编号:1,目标类型:行人 - 头部边界框:中心(1515.95, 182.83),宽高(1535.18, 203.56) - 身体边界框:中心(1490.27, 173.02),宽高(1554.49, 349.69)样例20(帧3089,时间299.9秒): - 行号:150,帧号:3089,目标编号:1,目标类型:行人 - 头部边界框:中心(1028.16, 201.84),宽高(1047.70, 222.83) - 身体边界框:中心(1008.63, 191.39),宽高(1069.83, 372.31)### 相机校准参数样例
相机校准文件包含完整的相机内参和外参,具体参数如下:
| 参数名称 | 参数值 | 参数含义 |
|---------|--------|---------|
| FocalLengthX | 2696.36 | X方向焦距(像素) |
| FocalLengthY | 2696.36 | Y方向焦距(像素) |
| PrincipalPointX | 959.50 | 主点X坐标(像素) |
| PrincipalPointY | 539.50 | 主点Y坐标(像素) |
| Skew | 0.00 | 倾斜参数 |
| TranslationX | -0.06 | X方向平移向量 |
| TranslationY | 3.83 | Y方向平移向量 |
| TranslationZ | 12.39 | Z方向平移向量 |
| RotationX | 0.70 | 旋转四元数X分量 |
| RotationY | -0.43 | 旋转四元数Y分量 |
| RotationZ | 0.29 | 旋转四元数Z分量 |
| RotationW | 0.50 | 旋转四元数W分量 |
| DistortionK1 | -0.60 | 径向畸变系数K1 |
| DistortionK2 | 4.70 | 径向畸变系数K2 |
| DistortionP1 | -0.0005 | 切向畸变系数P1 |
| DistortionP2 | -0.008 | 切向畸变系数P2 |
## 应用场景
### 行人目标检测算法训练与评估
本数据集是行人目标检测算法研发的理想数据源。数据集包含47746条精准标注的行人记录,覆盖3090帧高清图像,为深度学习模型的训练提供了充足的样本支持。研究者可以利用头部和身体双边界框标注,分别训练针对不同粒度的检测模型。头部检测模型可用于远距离行人检测和人脸识别预处理,身体检测模型则适用于近距离行人检测和行人重识别任务。数据集中每帧目标数量从6到28个不等的变化,为评估检测算法在不同密度场景下的性能提供了全面的测试基准。基于完整原始视频的检测任务还可以验证算法在连续帧间的稳定性,检测是否存在漏检或误检的情况,从而全面评估算法的实用价值。
### 多目标跟踪系统研发与测试
多目标跟踪是计算机视觉领域的核心挑战之一,本数据集为该方向的研究提供了优质的实验平台。数据集的视频时长约300秒,帧率约10帧/秒,为跟踪算法提供了足够长的测试序列。标注数据中包含了每帧所有行人的精确位置信息,可用于评估跟踪算法的准确性和稳定性。研究者可以基于完整的原始视频进行帧间关联分析,测试算法在遮挡、交叉、消失重现等复杂场景下的跟踪能力。数据集中平均每帧15.45个目标的密度水平,接近真实监控场景的典型情况,使得算法测试结果具有较高的实际参考价值。此外,相机校准参数的提供使得研究者可以将二维跟踪结果映射到三维空间,进行更深入的场景理解研究。
### 智能监控系统开发
智能监控系统是智慧城市建设的重要组成部分,本数据集为相关系统的开发提供了真实场景下的测试数据。数据集采集自牛津镇中心的真实街景,包含了多种行人行为模式,如行走、停留、聚集、分散等,为行为分析算法的训练和测试提供了丰富的样本。研究者可以基于完整原始视频开发异常行为检测、人群密度估计、人流统计等功能模块。数据集的1920×1080高清分辨率确保了远距离行人的可识别性,支持大范围监控场景下的应用需求。相机校准参数的提供还使得系统能够进行实际距离测量和速度估计,为智能交通管理和公共安全监控提供数据支撑。
### 自动驾驶感知系统验证
自动驾驶汽车需要在复杂的城市环境中准确感知行人,本数据集为相关感知系统的验证提供了有价值的参考。虽然数据集采集自固定位置的监控摄像头,但其包含的城市场景、行人行为和遮挡情况与自动驾驶面临的挑战高度相关。研究者可以利用数据集测试行人检测算法在不同光照条件、不同距离、不同遮挡程度下的性能表现。头部和身体双边界框标注可以帮助系统建立更鲁棒的行人模型,提高检测的准确率和召回率。数据集中行人在画面边缘部分可见的情况(坐标值接近0或超出画面边界),模拟了自动驾驶中行人部分遮挡的场景,为算法在极端情况下的鲁棒性测试提供了数据支持。
### 计算机视觉教学与科研
本数据集结构清晰、标注规范,是计算机视觉课程教学和科研项目的优质资源。数据集规模适中,便于学生和研究人员快速上手进行实验。标注文件采用简单的文本格式,易于解析和处理,降低了数据预处理的门槛。相机校准参数的提供使得数据集可以用于相机模型、三维重建等理论教学。研究者可以基于数据集开展目标检测、目标跟踪、行为分析等多个方向的创新研究,发表高质量的学术论文。数据集作为经典基准数据集,已被众多学术论文引用,具有较高的学术认可度,便于研究成果的对比和交流。
## 结尾
牛津镇中心行人检测数据集以其完整的原始视频、精准的双边界框标注和全面的相机校准参数,成为行人检测与多目标跟踪研究领域的经典基准数据集。数据集包含82MB高清视频、47746条标注记录和完整的相机参数,数据完整率达95.89%,为算法研发和性能评估提供了可靠的数据支撑。特别值得强调的是,本数据集包含完整的原始视频文件,这是许多公开数据集所不具备的核心优势,使得研究者能够进行视频级别的深度分析,包括多目标跟踪、行为识别、场景理解等高级视觉任务。数据集在智能监控、自动驾驶、智慧城市等领域具有广泛的应用前景,是推动相关技术发展的重要研究资源。有需要可私信获取更多信息。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






