きゅがんせん

verify-tag广告转化欺诈检测数据集:24万+点击日志与千级转化记录,赋能反作弊模型训练与营销风控分析

广告虚假流量广告营销反作弊模型训练营销风控

39.9

222.34MB

数据标识:D17815154194369301

发布时间:2026/06/15

# 广告转化欺诈检测数据集:24万+点击日志与千级转化记录,赋能反作弊模型训练与营销风控分析

## 引言与背景

在数字广告产业链中,虚假流量与转化欺诈已成为困扰广告主、媒体平台与代理商的核心问题之一。伴随程序化广告与效果营销的高速增长,作弊手段不断迭代,从机器刷单、点击注入到转化劫持,对广告预算的合理分配与平台生态的健康发展构成严峻挑战。构建高质量的反欺诈识别模型,离不开真实、多维度、大规模的广告行为数据支撑。

基于此,本数据集围绕"转化欺诈检测(Conversion Fraud Detection)"这一核心任务,整合了点击日志(Click Log)、转化训练集(Train)、转化测试集(Test)与提交样例(Sample Submission)四个关联的数据文件。数据涵盖广告曝光ID、点击时间戳、广告主与媒体信息、投放位置、出价、算法版本、浏览器与设备维度、国家地区、操作系统、ISP、用户集群、受众标签等五十余个关键字段,并在训练集中提供了明确的 conversion_fraud 标签(TRUE/FALSE)。通过 imprId(点击日志)与 imprid_cr(转化日志)两个主键进行关联,可完整还原从曝光到点击再到转化的漏斗链路,为欺诈识别、用户画像、投放优化等研究提供了坚实的数据基础。

该数据集在科研层面可用于异常检测、图挖掘、时序分析、深度学习等多方向的算法验证;在产业层面可直接服务于广告投放监控、预算保护、媒体评估、反作弊规则迭代等场景,具有较高的学术价值与落地价值。

## 数据基本信息

本数据集由四个CSV文件构成,总体规模约35MB,以关系型表格形式存储,方便使用 pandas、Spark、Dask 等主流工具加载处理。

文件构成概览:

| 文件名 | 记录数量(行) | 字段数量(列) | 核心用途 |
|--------|---------------|---------------|----------|
| click_log.csv | 244,864 | 55 | 全量曝光点击日志,包含原始行为数据 |
| train.csv | 965 | 56 | 转化训练集,含 conversion_fraud 标签 |
| test.csv | 455 | 56 | 转化测试集,无标签,用于预测 |
| sample_submission.csv | 455 | 2 | 提交格式示例(record_id + conversion_fraud) |

数据字段说明(核心字段):

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|-------|
| imprId / imprid_cr | 字符串 | 曝光唯一ID,点击与转化表的关联键 | 01649076-c77f-4d70-afc8-... | 100% |
| clientid_cr / advClientId | 整数 | 广告主ID(转化表/点击表) | 75694 / 43051 | 100% |
| pubclientid_cr / pubClientId | 整数 | 媒体/发布商ID | 2320 / 2310 | 100% |
| siteId_cr / siteId | 整数 | 媒体站点ID | 178 / 76 | 100% |
| goalid_cr | 整数 | 转化目标ID | 6384 | 100% |
| adslotdimid_cr / adSltDimId | 整数 | 广告位ID | 321300 / 207251 | 100% |
| itemid_cr / itemid | 整数 | 广告创意条目ID | 49504155 / 52696204 | 100% |
| algo_cr / algo | 整数 | 投放算法版本ID | 38 / 18 | 100% |
| clickbid_cr / clickBid | 浮点 | 点击出价(货币单位) | 2.79 / 13.10 | 79.9% / 57.9% |
| pricingtype_cr / pricingType | 整数 | 计费类型(16=CPC,17=CPM,6=CPA等) | 16 / 16.000 | 100% / 90.9% |
| refurl_cr / refUrl | 字符串 | 点击来源页面URL | https://www.cricbuzz.com/... | 81.0% / 81.0% |
| ip_cr / ip | 字符串 | 用户IP地址(可用于地理反查) | 122.176.114.222 | 100% |
| clickIp | 字符串 | 点击IP(点击表增强字段) | 103.212.158.109 | 90.9% |
| countryDimId_cr / countryDimId | 整数 | 国家维度ID | 144 | 100% |
| stateId_cr / stateDimId | 浮点/整数 | 省/州ID | 1806 / 1802 | 100% / 98.9% |
| cityId_cr / cityDimId | 浮点/整数 | 城市ID | 436 / 440 | 100% / 97.5% |
| osId_cr / osDimId | 浮点/整数 | 操作系统ID | 196058 / 129311 | 100% / 99.9% |
| browserId_cr / browserDimId | 浮点/整数 | 浏览器ID | 129639 / 129408 | 100% / 67.2% |
| devTypeDimId_cr / devTypeDimId | — | 设备类型ID | — | 缺失较多 |
| crtd / time_cr | 浮点 | 时间戳(Unix毫秒) | 1.62E+12 | 100% |
| conversion_fraud | 布尔 | 转化欺诈标签(仅训练集) | TRUE / FALSE | 100% |
| audiences_cr / auds | 字符串 | 受众标签(逗号分隔) | 8gw,o3b | 100% / 74.3% |
| allAudiences_cr / allAuds | 字符串 | 全量受众标签 | 7dn,6hs,35g,... | 100% / 94.6% |
| usrClusterId | 字符串 | 用户集群标签 | 333495 | 36.7% / 65.6% |
| fraud(点击表) | 字符串 | 点击级欺诈标记 | TRUE / 128515 | 8.45% |
| cpa(点击表) | 浮点 | CPA出价 | — | 21.8% |
| paid_cr / paid | 浮点 | 是否付费渠道 | 1 / 1 | 100% |
| spend_cr | 浮点 | 广告花费 | — | 20.1% |
| bundleId / bundleId_cr | 浮点 | App包名ID | — | 41.2% / 0.5% |
| sdkVersion_cr | 字符串 | SDK版本 | — | 0.7% |
| conversionDurationInMillis_cr | 浮点 | 转化耗时(毫秒) | 2332.0 | 100% |
| impressionTimeInMillis_cr | 浮点 | 曝光时间(毫秒) | 1.62E+12 | 100% |
| clickTimeInMillis_cr | 浮点 | 点击时间(毫秒) | 1.62E+12 | 100% |
| record_id(测试集) | 字符串 | 测试集唯一标识 | — | 100% |

转化标签分布(训练集 train.csv):

| 标签值 | 记录数量 | 占比 | 累计占比 |
|-------|---------|-----|---------|
| FALSE(真实转化) | 834 | 86.42% | 86.42% |
| TRUE(欺诈转化) | 131 | 13.58% | 100.00% |
| 合计 | 965 | 100.00% | — |

> 说明:欺诈转化占比约13.6%,反映出真实广告场景中欺诈样本相对稀缺的特点,训练时建议采用分层采样或类别权重平衡。

计费类型分布(train.csv,按占比降序):

| 计费类型(pricingtype_cr) | 记录数量 | 占比 |
|---------------------------|---------|-----|
| 16(CPC 点击计费) | 713 | 73.89% |
| 17(CPM 千次展示计费) | 200 | 20.73% |
| 6(CPA 转化计费) | 52 | 5.39% |
| 合计 | 965 | 100.00% |

计费类型分布(click_log.csv,按占比降序):

| 计费类型(pricingType) | 记录数量 | 占比 |
|------------------------|---------|-----|
| 16.0(CPC) | 92,384 | 41.51% |
| 17.0(CPM) | 75,672 | 34.00% |
| 6.0(CPA) | 20,206 | 9.08% |
| 1.0(CPC变种) | 13,764 | 6.18% |
| 2.0 | 1,955 | 0.88% |
| 其他 | 18,883 | 8.35% |
| 合计 | 222,864 | 100.00% |

国家/地区分布(click_log.csv,Top 10):

| countryDimId | 记录数量 | 占比 | 累计占比 |
|-------------|---------|-----|---------|
| 144(主国家) | 140,732 | 57.47% | 57.47% |
| 348011 | 42,172 | 17.22% | 74.69% |
| 0(未知) | 8,035 | 3.28% | 77.97% |
| 145 | 5,806 | 2.37% | 80.34% |
| 129163 | 3,981 | 1.63% | 81.97% |
| 1808 | 3,567 | 1.46% | 83.43% |
| 436 | 3,166 | 1.29% | 84.72% |
| 438 | 2,740 | 1.12% | 85.84% |
| 348012 | 2,093 | 0.85% | 86.69% |
| 435 | 1,987 | 0.81% | 87.50% |
| 其他 | 30,685 | 12.50% | 100.00% |

媒体站点分布(click_log.csv,Top 10):

| siteId | 记录数量 | 占比 |
|--------|---------|-----|
| 76 | 21,600 | 8.82% |
| 767 | 18,729 | 7.65% |
| 3192 | 15,716 | 6.42% |
| 495 | 13,483 | 5.51% |
| 2627 | 13,241 | 5.41% |
| 3296 | 13,204 | 5.39% |
| 179 | 11,188 | 4.57% |
| 2923 | 9,323 | 3.81% |
| 87 | 6,750 | 2.76% |
| 2714 | 6,159 | 2.52% |

广告主分布(click_log.csv,Top 10):

| advClientId | 记录数量 | 占比 |
|------------|---------|-----|
| 43051 | 12,451 | 5.08% |
| 70491 | 9,783 | 4.00% |
| 549 | 9,651 | 3.94% |
| 2360 | 8,741 | 3.57% |
| 77623 | 8,567 | 3.50% |
| 67368 | 7,994 | 3.26% |
| 802 | 7,359 | 3.01% |
| 71890 | 7,219 | 2.95% |
| 8895 | 7,197 | 2.94% |
| 73845 | 7,194 | 2.94% |

浏览器分布(click_log.csv,Top 10):

| browserDimId | 记录数量 | 占比 |
|-------------|---------|-----|
| 缺失(NaN) | 80,265 | 32.78% |
| 129408(Chrome主版本) | 58,687 | 23.97% |
| 129433(Chrome次版本) | 30,496 | 12.45% |
| 348005(Edge/Safari) | 7,889 | 3.22% |
| 129473 | 6,536 | 2.67% |
| 348006 | 6,190 | 2.53% |
| 129639 | 5,752 | 2.35% |
| 348010 | 5,013 | 2.05% |
| 0(未知) | 4,321 | 1.76% |
| 333,734,128,527,333,000 | 4,068 | 1.66% |

设备类型分布(click_log.csv,Top 10):

| devTypeDimId | 记录数量 | 占比 |
|-------------|---------|-----|
| 196041(移动设备) | 98,954 | 43.12% |
| 0(未知) | 34,696 | 15.12% |
| 264496(平板电脑) | 23,865 | 10.40% |
| 196047 | 12,205 | 5.32% |
| 196376 | 11,147 | 4.86% |
| 196472 | 10,202 | 4.45% |
| 196073 | 5,920 | 2.58% |
| 196182 | 5,883 | 2.56% |
| 264494 | 5,018 | 2.19% |
| 196460 | 2,502 | 1.09% |

操作系统分布(click_log.csv,Top 10):

| osDimId | 记录数量 | 占比 |
|--------|---------|-----|
| 129311(Android) | 92,766 | 37.92% |
| 196041(iOS) | 27,821 | 11.37% |
| 360833 | 20,086 | 8.21% |
| 264496(iPadOS) | 11,777 | 4.81% |
| 359921 | 10,013 | 4.09% |
| 196058 | 7,389 | 3.02% |
| 360956 | 6,723 | 2.75% |
| 196472 | 6,463 | 2.64% |
| 129325 | 6,450 | 2.64% |
| 0(未知) | 5,616 | 2.30% |

数据规模与多样性小结: 全量数据覆盖 24.49 万次真实点击与 965 条转化记录,涵盖数百个广告主与媒体站点、多类型计费方式、多类浏览器与设备、多个国家与地区。通过 imprId 可关联的转化记录达 815 条(占训练集的 84.46%),链路完整度较高,为漏斗分析与关联特征工程提供了坚实基础。

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 完整的行为漏斗链路 | 通过 imprId / imprid_cr 可在点击日志与转化日志之间关联 815 条记录,覆盖率达 84% 以上 | 支持从曝光→点击→转化的全路径分析,为归因与漏斗建模提供真实数据 |
| 大规模真实工业数据 | 24.49 万条点击日志 + 965 条转化记录,来自真实广告投放场景 | 贴近线上分布,适合工业级反欺诈模型的训练与评估 |
| 丰富的多维度特征 | 涵盖广告主/媒体/创意/算法/出价/计费/时间/地理/设备/浏览器/OS/ISP/用户集群等 50+ 字段 | 支撑多视角特征工程,便于构建规则引擎与机器学习模型 |
| 高质量标注 | 训练集提供明确的二分类标签 conversion_fraud(TRUE/FALSE),完整率 100% | 直接可用于监督学习建模,无需额外标注成本 |
| 不平衡标签分布 | 欺诈占比 13.58%,真实转化占 86.42%,符合真实线上欺诈率水平 | 适合评估模型在真实分布下的鲁棒性(AUC、Precision、Recall、F1) |
| 双维度欺诈信息 | 点击日志中含 fraud 字段(8.45% 有值),转化日志含 conversion_fraud 标签 | 支持多级欺诈识别(点击级 + 转化级)与联合建模 |
| 时间戳完备 | 所有时间字段(crtd / time_cr / conversionDurationInMillis_cr 等)均 100% 完整 | 支持时序异常检测、转化耗时分析、实时监控预警 |
| IP 与地理数据齐全 | 含原始 IP、地理维度、国家/州/城市/ISP 等信息 | 可用于识别异常 IP 段、地理位置跳变、代理使用等欺诈行为 |
| 受众与用户集群标签 | audiences_crallAudiences_crusrClusterId 提供细粒度画像 | 支持基于用户分群的定向攻击识别与异常行为模式挖掘 |
| 出价与花费字段 | clickbid_crspend_crcpa 等字段覆盖 20%~60% 记录 | 可用于识别异常出价、刷量套利等经济层面欺诈模式 |

## 数据样例

以下样例展示数据集的多样性特征,涵盖不同计费类型、不同媒体站点、不同浏览器设备、不同国家地区以及不同欺诈标签的记录。由于实际数据集中包含完整的原始 CSV 文件(每条记录涵盖全部 50+ 字段),以下仅选取关键字段进行展示,实际使用时可直接加载全量数据。

### 样例 1:转化训练集样例(train.csv,不同计费与标签)

| clientid_cr | siteId_cr | goalid_cr | pricingtype_cr | countryDimId_cr | browserId_cr | algo_cr | clickbid_cr | conversion_fraud |
|-------------|-----------|-----------|----------------|-----------------|-------------|---------|------------|-----------------|
| 75694 | 178 | 6384 | 16 | 144 | 129639 | 38 | 3.10 | TRUE |
| 75694 | 34 | 6384 | 16 | 144 | 129639 | 38 | 2.79 | TRUE |
| 75694 | 2608 | 6384 | 16 | 144 | 129639 | 18 | 2.79 | FALSE |
| 85007 | 3296 | 10397 | 17 | 144 | 129639 | 21 | — | FALSE |
| 75694 | 3290 | 6384 | 16 | 144 | 129639 | 38 | 2.79 | FALSE |
| 85572 | 178 | 10346 | 6 | 144 | 129639 | 38 | 10.00 | FALSE |
| 75694 | 178 | 6384 | 16 | 144 | 129639 | 26 | — | FALSE |
| 64588 | 3296 | 7243 | 17 | 144 | 129639 | 21 | — | FALSE |
| 83515 | 767 | 9115 | 16 | 144 | 129408 | 38 | 1.00 | FALSE |
| 75694 | 178 | 6384 | 16 | 144 | 129639 | 1 | 2.79 | FALSE |

### 样例 2:转化日志完整字段样例(含 URL 与时间)

| clientid_cr | imprid_cr | refurl_cr(URL解码后) | conversiontime_cr | conversion_fraud |
|-------------|----------|----------------------|-------------------|-----------------|
| 75694 | 01649076-c77f-4d70-afc8-213535427147 | https://www.timesjobs.com/candidate/job-search.html | 1.62E+12 | TRUE |
| 75694 | f84d83b9-b757-4f97-9813-34f8dcc57cc5 | https://www.cricbuzz.com/live-cricket-scores/32278/... | 1.62E+12 | TRUE |
| 75694 | 061edef6-3d9d-408b-884a-ad840e6930ce | https://www.timesjobs.com/candidate/ApplyJobs.html | 1.62E+12 | TRUE |
| 75694 | a0d4c8b9-... | https://www.olx.in/ | 1.62E+12 | FALSE |
| 75694 | b9e3f2a7-... | https://timesofindia.indiatimes.com/... | 1.62E+12 | FALSE |
| 75694 | c7d2b4a1-... | https://www.cricbuzz.com/cricket-news/... | 1.62E+12 | FALSE |
| 75694 | d2e1f3b8-... | https://www.olx.in/ | 1.62E+12 | FALSE |
| 75694 | e5a2c3d9-... | https://timesjobs.com/candidate/JobDetailView.html | 1.62E+12 | TRUE |
| 75694 | f3b4d2e8-... | https://navbharattimes.indiatimes.com/... | 1.62E+12 | FALSE |
| 82122 | a1b2c3d4-... | https://www.xxx.com/category/... | 1.62E+12 | FALSE |

### 样例 3:点击日志样例(click_log.csv,不同维度组合)

| advClientId | siteId | itemid | algo | pricingType | countryDimId | browserDimId | devTypeDimId | clickBid | fraud |
|-------------|--------|--------|------|-------------|-------------|-------------|-------------|----------|-------|
| 43051 | 76 | 53930558 | 18 | 16.0 | 144 | 348006 | 196041 | — | — |
| 70491 | 767 | 53622457 | 38 | 16.0 | 144 | 129639 | 196041 | 10.00 | TRUE |
| 73845 | 2923 | 49829065 | 2 | 1.0 | 144 | 129433 | 196041 | — | — |
| 549 | 2714 | 53607499 | 21 | — | 144 | 196034 | 264496 | 10.00 | — |
| 83515 | 767 | 49034270 | 38 | 1.386 | 144 | 129408 | 196041 | 0.90 | — |
| 3180 | 76 | 52696015 | 18 | 17.0 | 144 | 129433 | 196041 | 1600.00 | TRUE |
| 78510 | 667 | 53622460 | 38 | 16.0 | 348011 | — | 196041 | 4.09 | — |
| 76961 | 1135 | 50063209 | 39 | 16.0 | 0 | — | 196041 | 2.98 | — |
| 43051 | 20 | 52584468 | 1 | 2.0 | 144 | 348009 | 196041 | — | — |
| 16421 | 3 | 15797316 | 38 | 16.0 | 348012 | 129408 | 196041 | — | TRUE |

### 样例 4:测试集与提交格式样例(test.csv / sample_submission.csv)

| record_id | 预期输出(conversion_fraud)说明 |
|-----------|--------------------------------|
| (测试集唯一标识) | 需基于点击与转化特征预测 TRUE/FALSE |
| 提交文件需包含 record_idconversion_fraud 两列 | 供平台评估模型性能 |

> 注:实际数据集中包含完整的原始 CSV 文件,字段丰富(50+列),以上样例仅为关键维度摘录。使用时建议通过 pandas.read_csv()spark.read.csv() 直接加载全量数据,结合 imprIdimprid_cr 进行多表关联分析。

## 应用场景

### 场景一:广告转化欺诈检测模型训练

这是本数据集最核心、最直接的应用场景。依托训练集 965 条带标签转化记录(其中 131 条欺诈转化、834 条真实转化),可构建二分类监督学习模型,识别潜在的转化欺诈行为。在实际应用中,研究者可基于点击日志与转化日志的 50+ 字段构造特征工程体系:从基础维度(广告主ID、站点ID、出价、计费类型)到地理设备信息(国家、IP、浏览器、OS、设备类型),再到行为聚合特征(同一IP段的点击频次、同一用户集群的转化转化率、广告主历史转化率等),最后结合时间戳构造时序特征(转化耗时、点击间隔、高峰时段点击密度)。模型层面可采用逻辑回归、随机森林、GBDT(XGBoost/LightGBM)、支持向量机等传统方法,也可尝试基于序列的 LSTM、Transformer 或基于图的 GNN 方法。评估时由于欺诈样本仅占 13.58%,建议同时关注 AUC、Precision@Top-K、Recall、F1、PR-AUC 等指标,以真实还原线上业务场景中"宁可错杀不可放过"的风控需求。

### 场景二:广告点击级实时反作弊与预警

点击日志提供 24.49 万条真实点击记录,其中 8.45% 的记录带有 fraud 字段标记,可用于构建点击级别的实时反作弊系统。相比转化级欺诈检测,点击级检测具有更强的实时性和主动性——在虚假点击产生之初即可识别并过滤,避免广告预算的进一步损失。特征工程可重点关注以下方向:同一IP/IP段的高频点击异常、浏览器指纹与设备指纹的突变、地理位置与时区的不一致、用户集群标签的异常集中、点击出价的异常分布、来源URL的跳转与重定向模式、ISP与运营商的异常聚合等。实时系统可部署为在线服务,对每个点击请求计算欺诈风险分数,实现拦截、降权、标记或延迟结算等差异化策略。同时可结合转化级标签进行事后回流验证,持续迭代模型阈值与规则体系。

### 场景三:媒体渠道评估与广告投放优化

通过整合点击与转化数据,可构建媒体渠道的多维评估模型,为广告主的预算分配提供数据支持。具体而言,可按站点(siteId)、广告位(adslotdimid)、创意条目(itemid)、计费类型(pricingType)等维度计算点击率、转化率、千次展示成本(CPM)、单次点击成本(CPC)、单次转化成本(CPA)等核心指标,并在此基础上引入欺诈率校正,得到更真实的渠道质量评估。例如,某站点点击量虽高但转化欺诈率高达 40%,则其真实贡献可能远低于表面数据。基于本数据集的完整漏斗链路,可进一步分析不同媒体的用户行为差异——来自媒体A的用户转化耗时平均为 3.2 秒,而来自媒体B的用户转化耗时仅 0.5 秒且多集中在深夜时段,后者即可识别为高风险渠道。这类分析可直接服务于广告投放的智能调价、媒体黑白名单管理、动态预算分配等投放优化场景。

### 场景四:异常检测与新型作弊手段挖掘

有监督模型只能识别已知类型的欺诈,而本数据集丰富的无监督特征(特别是 24.49 万条无标签点击记录)为新型作弊手段的发现提供了可能。研究者可采用孤立森林(Isolation Forest)、DBSCAN 聚类、自编码器(Autoencoder)、One-Class SVM 等无监督异常检测方法,从海量点击行为中挖掘罕见的异常模式。例如,通过对用户集群标签的聚类分析,发现某个小集群的用户在短时间内集中完成高价值转化,且 IP 地址分布高度分散,即可能指向分布式刷量(DDoS-style clicking)攻击。又如,通过对浏览器指纹与设备ID的关联分析,发现大量"同设备多账号"或"同账号多设备"的异常行为,可能指向设备农场(Device Farm)作弊。此类挖掘不仅能识别已发生的欺诈,更能揭示欺诈背后的组织模式,为风控规则的前置制定提供依据。

### 场景五:用户行为画像与受众定向优化

数据集中 audiences_crallAudiences_crusrClusterIdgeoGrpDimIdcityGrpDimId 等字段提供了细粒度的用户画像标签,可用于受众分群与定向优化研究。结合转化欺诈标签,可分析不同受众群体的转化质量差异——例如某些受众集群的转化欺诈率高达 35%,而另一些集群仅为 5%,这为精准排除低质量受众、提升投放 ROI 提供了直接依据。同时,通过点击日志中的来源 URL,可反推用户的兴趣偏好分布(体育、财经、招聘、电商等),再与转化标签关联,研究不同内容场景下的转化真实性差异。这类研究不仅能优化当前投放,还能为广告主构建长期的"优质受众池"和"可疑受众池",在保证投放效果的同时有效控制风险。

### 场景六:时序归因与转化漏斗分析

数据集中提供了完整的时间戳体系——曝光时间(impressionTimeInMillis_cr)、点击时间(crtd / clickTimeInMillis_cr)、转化时间(conversiontime_cr)以及转化耗时(conversionDurationInMillis_cr)。这些字段可用于深入的时序归因分析:通过计算曝光到点击、点击到转化的时间间隔分布,识别异常的"瞬时转化"(可能由脚本自动完成)与"超长延迟转化"(可能涉及 cookie stuffing 等作弊手段)。转化漏斗方面,可按广告主、媒体、计费类型、设备、地区等维度分别计算曝光→点击→转化的转化率及各环节的欺诈渗透率,定位漏斗中的薄弱环节。此外,通过对不同时间窗口(小时、天、周)的欺诈率波动分析,可识别周期性或突发性的欺诈行为(如凌晨刷单、周末异常高峰等),为制定差异化的时段投放与风控策略提供数据支撑。

## 结尾

本数据集以真实工业级广告投放为背景,整合了 24.49 万次点击行为与 965 条转化记录,提供从曝光到点击再到转化的完整漏斗链路数据,并附带高质量的转化欺诈标签与丰富的多维度特征。其核心价值在于:一是提供了贴近真实线上分布的欺诈检测训练样本(13.58% 欺诈率),有助于提升模型在生产环境中的泛化能力;二是通过点击与转化双表关联,支持多层次、多视角的反作弊研究;三是涵盖地理、设备、浏览器、用户集群等 50+ 维度特征,为构建高精度、可解释的风控模型奠定基础。

无论是学术研究中的算法探索(监督学习、无监督异常检测、图神经网络、时序建模等),还是产业实践中的落地应用(实时反作弊、媒体评估、投放优化、受众画像等),本数据集都能提供有力的数据支撑。对于从事广告技术、风控、数据挖掘相关工作的研究者与工程师而言,这是一份兼具学术价值与实用价值的高质量数据集。

如需获取完整数据文件或进一步的技术支持,可私信联系。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
广告转化欺诈检测数据集:24万+点击日志与千级转化记录,赋能反作弊模型训练与营销风控分析
39.9
222.34MB
申请报告