数据洋

零售市场篮子交易数据集：解码消费关联与商业决策的核心工具

零售市场篮子交易数据集交易数据集

￥35.99

46.87KB

数据标识：D17582532003448276

发布时间：2025/09/19

零售市场篮子交易数据集：解码消费关联与商业决策的核心工具

一、引言与背景

在零售行业中，“顾客购买 A 商品时是否更可能购买 B 商品” 是贯穿商品管理、营销策划与运营优化的核心问题。这种 “商品共现” 的规律隐藏在海量交易数据中，直接关系到交叉销售效率、商店布局设计与库存周转水平。然而，传统零售分析多依赖经验判断（如 “面包与黄油搭配销售”），缺乏对全量交易数据的系统化挖掘，难以精准捕捉潜在的商品关联模式，导致营销资源浪费或库存配置失衡。

本次介绍的 “零售市场篮子交易数据集”（Market_Basket_Optimisation）作为关联规则挖掘的经典基准数据，以 7501 笔真实购物篮交易为样本，完整记录了顾客单次购物的商品组合，为量化分析商品亲和力、挖掘消费模式提供了标准化工具。它填补了 “经验直觉 - 数据证据 - 商业行动” 之间的缺口，无论是零售从业者优化运营策略，还是数据分析师实践关联挖掘算法，都具有不可替代的价值。

二、数据基本信息

1. 数据规模与格式

数据集以单一 CSV 文件Market_Basket_Optimisation.csv呈现，包含7501 笔交易记录（每笔交易对应一个购物篮），涵盖约 120 种不同的零售商品（如面包、矿泉水、巧克力等）。文件采用逗号分隔格式，结构简洁直观，无需复杂预处理即可适配 Python（mlxtend、pandas 库）、R 等主流数据分析工具，尤其适合用于关联规则挖掘的代码笔记本（Notebook）创作与教学演示。

2. 核心结构与数据维度

数据集采用 “交易 - 商品” 的二维事务性结构，与传统的 “样本 - 特征” 结构化数据有显著差异，具体特征如下：

行维度（交易）：每行代表一位顾客的单次购物行为，即一个 “购物篮”，共 7501 个独立交易样本；
列维度（商品）：每列对应购物篮中的一个商品位置，最多包含 20 列（即单个购物篮最多购买 20 件商品），列中值为商品名称，空单元格表示该位置无商品；
核心属性：纯分类数据，无数值或连续型特征，数据本质呈现 “高稀疏性”—— 由于 120 种商品中仅少数出现在单个购物篮中，若进行独热编码转换，矩阵中 90% 以上的元素为 0。

3. 内容特征与分布

数据集的交易特征高度贴合线下零售场景的真实规律：

购物篮规模：商品数量差异显著，篮子大小从 1 件（仅购买单一商品）到 20 件（全套杂货采购）不等，其中中小规模购物篮（2-5 件商品）占比超 60%，符合 “日常零星采购为主、大额囤货为辅” 的消费习惯；
商品分布：部分高频商品（如矿泉水、面包、巧克力）出现在超 10% 的交易中，而多数长尾商品（如特定调味品、小众零食）仅在不足 1% 的交易中出现，呈现典型的 “幂律分布” 特征；
缺失值与重复项：缺失值以空单元格形式存在（因购物篮商品数量不足 20 列），属于 “合理缺失” 而非数据质量问题；部分商品组合存在重复交易（同一组商品被不同顾客购买），符合零售交易的自然属性，无需剔除。

三、数据优势

1. 场景真实性强，适配核心零售问题

数据源自真实零售交易场景，准确还原了顾客的商品组合购买行为，避免了合成数据的 “脱离业务” 缺陷。其记录的商品类型（食品、日用品等）与购物篮规模直接对应线下超市、便利店的核心业务场景，挖掘出的关联规则可直接映射到 “交叉销售、布局优化” 等实际问题，分析结论落地性强。

2. 结构适配性高，专为关联挖掘设计

作为事务性数据的典型代表，其 “购物篮 - 商品” 结构无需复杂转换即可直接用于 Apriori、FP-Growth 等经典关联规则算法。相较于普通结构化数据，它省去了 “交易聚合、商品编码” 等预处理步骤，降低了关联挖掘的入门门槛，尤其适合算法教学与初学者实践。

3. 稀疏性与变异性均衡，分析价值突出

数据的高稀疏性真实反映了 “多数商品不共现” 的零售现实，而购物篮规模的变异性（1-20 件商品）则涵盖了从 “即时性购买” 到 “囤货式购买” 的全场景消费行为。这种均衡性使得挖掘出的关联规则既包含 “高频小商品组合”（如面包 + 黄油），也包含 “低频大额组合”（如意大利面 + 番茄酱 + 帕玛森干酪），兼顾普遍性与特殊性分析需求。

4. 规模适中，兼顾效率与代表性

7501 笔交易、120 种商品的规模既保证了样本的统计代表性（避免小众样本导致的规则偏差），又不会带来过高的计算成本 —— 即使采用复杂度较高的 Apriori 算法，也能在普通计算机上快速运行，实现 “算法调试 - 结果验证 - 规律解读” 的高效闭环。

四、应用场景

1. 关联规则挖掘：解锁商品共现规律

数据集的核心价值在于支撑关联规则挖掘，通过 “支持度、置信度、提升度” 三大指标量化商品关联强度，典型应用包括：

核心规则发现：使用 Apriori 算法挖掘高频关联规则，例如发现 “{矿泉水，巧克力} ⇒ {鸡蛋}” 的支持度为 2.3%、置信度为 45%—— 即该组合在所有交易中占比 2.3%，且购买矿泉水和巧克力的顾客中有 45% 会同时购买鸡蛋；而 “{意大利面，番茄酱} ⇒ {帕玛森干酪}” 的提升度达 3.8，意味着购买前两者的顾客购买干酪的概率是普通顾客的 3.8 倍，属于强关联规则；
规则分层分析：按支持度分为 “大众关联”（如面包 + 黄油，支持度 5.1%）和 “小众关联”（如茶 + 蜂蜜，支持度 0.8%），前者适合全店促销，后者可针对特定客群精准推送；
无效规则剔除：通过提升度筛选 “伪关联”—— 例如 “{牛奶} ⇒ {面包}” 的提升度仅 1.02，虽有置信度，但实际是两者均为高频商品导致的共现，无实际营销价值。

2. 零售运营优化：从数据到决策落地

挖掘出的商品关联规律可直接转化为零售运营策略，覆盖全链路业务场景：

商品布局优化：将强关联商品就近陈列，例如根据 “{意大利面，番茄酱} ⇒ {帕玛森干酪}” 的规则，在 pasta 货架旁增设奶酪专区，可提升关联商品的连带购买率，据零售实践数据，此类调整可使相关商品销售额提升 15%-20%；
交叉销售与营销：设计 “商品捆绑促销”，如针对 “{巧克力，矿泉水}” 的高频组合推出 “买一送一” 优惠，或在顾客购买面包时推送黄油的优惠券；对 “{咖啡，糖}” 的关联规则，可在咖啡促销页面附加糖的 “推荐购买” 模块；
库存管理与需求预测：基于关联规则预判商品组合需求，例如在节假日前期，根据 “{薯片，啤酒} ⇒ {坚果}” 的规则，同步增加三类商品的库存，避免因单一商品缺货影响整体销售；
推荐系统构建：搭建简易的 “购物篮推荐引擎”，当顾客将番茄酱加入购物车时，系统自动推荐意大利面和帕玛森干酪，模拟电商平台 “您可能还喜欢” 的功能逻辑。

3. 算法教学与实践：关联挖掘的入门标杆

该数据集是数据科学教育中 “关联规则挖掘” 的首选案例，其优势在于：

低门槛上手：无需复杂的数据清洗，可快速演示 Apriori 算法的 “最小支持度设定 - 频繁项集生成 - 关联规则筛选” 全流程；
直观性强：挖掘结果（如 “面包→黄油”）与生活经验相符，便于初学者理解 “支持度、置信度” 等抽象指标的实际含义；
扩展性高：可延伸至算法优化实践，例如对比 Apriori 与 FP-Growth 在处理稀疏数据时的效率差异，或调整支持度 / 置信度阈值观察规则数量变化，深化对算法参数的理解。

五、结尾

零售市场篮子交易数据集以 “真实场景、适配算法、落地性强” 为核心优势，成为连接零售业务需求与数据挖掘技术的经典桥梁。其价值不仅在于提供了关联规则挖掘的 “练手数据”，更在于通过量化商品关联规律，将抽象的交易数据转化为可执行的商业决策 —— 从货架上的商品摆放，到手机端的推荐弹窗，再到仓库里的库存备货，都能通过它找到数据驱动的优化方向。

无论是零售企业的运营管理者、数据分析师，还是机器学习领域的初学者，都能从该数据集中获得实践价值：管理者看到营销与库存的优化空间，分析师掌握关联挖掘的核心方法，初学者理解算法与业务的结合逻辑。作为零售数据分析的 “入门钥匙” 与 “实践标杆”，它至今仍是关联规则挖掘领域不可替代的经典数据集。

看了又看

验证报告

以下为卖家选择提供的数据验证报告：

零售市场篮子交易数据集：解码消费关联与商业决策的核心工具

￥35.99

46.87KB

申请报告

零售市场篮子交易数据集：解码消费关联与商业决策的核心工具

零售市场篮子交易数据集：解码消费关联与商业决策的核心工具

一、引言与背景

二、数据基本信息

1. 数据规模与格式

2. 核心结构与数据维度

3. 内容特征与分布

三、数据优势

1. 场景真实性强，适配核心零售问题

2. 结构适配性高，专为关联挖掘设计

3. 稀疏性与变异性均衡，分析价值突出

4. 规模适中，兼顾效率与代表性

四、应用场景

1. 关联规则挖掘：解锁商品共现规律

2. 零售运营优化：从数据到决策落地

3. 算法教学与实践：关联挖掘的入门标杆

五、结尾

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群