# 大型电商销售数据集:675万条销售记录、98759客户、452产品多维度分析数据集
## 引言与背景
随着电子商务的快速发展,销售数据分析已成为企业决策的核心驱动力。本数据集提供了一个完整的电商业务运营全景视图,包含从商品管理、客户信息到销售交易的全链路数据。该数据集由7个关联数据表组成,涵盖11个商品分类、206个国家、96个城市、98759位客户、23名员工、452件产品以及超过675万条销售记录。这些数据为深入分析电商运营模式、客户行为特征、产品销售趋势提供了丰富的研究素材,对于机器学习模型训练、推荐系统优化、销售预测算法研发具有重要的应用价值。
## 数据基本信息
### 数据字段说明
| 数据表名 | 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|---------|--------|
| categories | CategoryID | Integer | 分类ID | 1 | 100% |
| categories | CategoryName | String | 分类名称 | Confections | 100% |
| countries | CountryID | Integer | 国家ID | 1 | 100% |
| countries | CountryName | String | 国家名称 | Armenia | 100% |
| countries | CountryCode | String | 国家代码 | AN | 100% |
| cities | CityID | Integer | 城市ID | 1 | 100% |
| cities | CityName | String | 城市名称 | Dayton | 100% |
| cities | Zipcode | String | 邮政编码 | 80563 | 100% |
| cities | CountryID | Integer | 所属国家ID | 32 | 100% |
| customers | CustomerID | Integer | 客户ID | 1 | 100% |
| customers | FirstName | String | 客户名 | Stefanie | 100% |
| customers | MiddleInitial | String | 中间名缩写 | Y | 100% |
| customers | LastName | String | 客户姓 | Frye | 100% |
| customers | CityID | Integer | 所在城市ID | 79 | 100% |
| customers | Address | String | 详细地址 | 97 Oak Avenue | 100% |
| employees | EmployeeID | Integer | 员工ID | 1 | 100% |
| employees | FirstName | String | 员工名 | Nicole | 100% |
| employees | MiddleInitial | String | 中间名缩写 | T | 100% |
| employees | LastName | String | 员工姓 | Fuller | 100% |
| employees | BirthDate | DateTime | 出生日期 | 1981-03-07 | 100% |
| employees | Gender | String | 性别 | F/M | 100% |
| employees | CityID | Integer | 所在城市ID | 80 | 100% |
| employees | HireDate | DateTime | 入职日期 | 2011-06-20 | 100% |
| products | ProductID | Integer | 产品ID | 1 | 100% |
| products | ProductName | String | 产品名称 | Flour - Whole Wheat | 100% |
| products | Price | Decimal | 价格 | 74.2988 | 100% |
| products | CategoryID | Integer | 分类ID | 3 | 100% |
| products | Class | String | 产品等级 | Medium | 100% |
| products | ModifyDate | DateTime | 修改日期 | 2018-02-16 | 100% |
| products | Resistant | String | 耐用性 | Durable | 100% |
| products | IsAllergic | String | 是否过敏 | Unknown | 100% |
| products | VitalityDays | Integer | 保质期天数 | 0 | 100% |
| sales | SalesID | Integer | 销售ID | 1 | 100% |
| sales | SalesPersonID | Integer | 销售人员ID | 6 | 100% |
| sales | CustomerID | Integer | 客户ID | 27039 | 100% |
| sales | ProductID | Integer | 产品ID | 381 | 100% |
| sales | Quantity | Integer | 销售数量 | 7 | 100% |
| sales | Discount | Decimal | 折扣率 | 0.0 | 100% |
| sales | TotalPrice | Decimal | 总价 | 0.0 | 100% |
| sales | SalesDate | DateTime | 销售日期 | 2018-02-05 | 100% |
| sales | TransactionNumber | String | 交易编号 | FQL4S94E4ME1EZFTG42G | 100% |
### 数据规模统计
| 数据表 | 记录数 | 数据规模 |
|-------|-------|---------|
| categories | 11 | 约1KB |
| countries | 206 | 约8KB |
| cities | 96 | 约4KB |
| customers | 98,759 | 约5MB |
| employees | 23 | 约2KB |
| products | 452 | 约45KB |
| sales | 6,758,125 | 约400MB |
| 总计 | 6,857,662 | 约410MB |
### 数据分布情况
#### 销售时间分布(按月份)
| 月份 | 记录数量 | 占比 | 累计占比 |
|-----|---------|-----|---------|
| 2018-01 | 1,607,050 | 23.78% | 23.78% |
| 2018-02 | 1,451,366 | 21.48% | 45.26% |
| 2018-03 | 1,609,190 | 23.81% | 69.07% |
| 2018-04 | 1,556,091 | 23.03% | 92.10% |
| 2018-05 | 466,902 | 6.91% | 99.01% |
| 其他 | 67,526 | 0.99% | 100.00% |
#### 产品等级分布
| 等级 | 记录数量 | 占比 |
|-----|---------|-----|
| Low | 128 | 28.32% |
| Medium | 123 | 27.21% |
| High | 118 | 26.11% |
| 其他 | 83 | 18.36% |
#### 员工性别分布
| 性别 | 人数 | 占比 |
|-----|-----|-----|
| 男(M) | 15 | 65.22% |
| 女(F) | 8 | 34.78% |
#### 折扣分布
| 折扣率 | 记录数量 | 占比 |
|-------|---------|-----|
| 0.0 | 5,406,931 | 80.01% |
| 0.1 | 677,122 | 10.02% |
| 0.2 | 674,072 | 9.97% |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据规模庞大 | 超过675万条销售记录,近10万客户数据 | 支持大规模机器学习模型训练,提高模型泛化能力 |
| 数据维度丰富 | 涵盖商品、客户、员工、地理等多维度数据 | 支持多维度关联分析,挖掘复杂业务关系 |
| 时间跨度完整 | 包含2018年1-5月完整销售周期 | 支持时间序列分析、销售趋势预测 |
| 字段完整性高 | 所有核心字段完整率100% | 减少数据清洗工作量,提高分析效率 |
| 数据关联性强 | 各表通过ID字段相互关联 | 支持多表联合查询,构建完整业务视图 |
| 真实业务场景 | 包含折扣、数量、价格等真实业务指标 | 可直接用于业务决策分析和算法验证 |
## 数据样例
### 客户数据样例
| CustomerID | FirstName | MiddleInitial | LastName | CityID | Address |
|-----------|-----------|---------------|----------|--------|---------|
| 1 | Stefanie | Y | Frye | 79 | 97 Oak Avenue |
| 2 | Sandy | T | Kirby | 96 | 52 White First Freeway |
| 3 | Lee | T | Zhang | 55 | 921 White Fabien Avenue |
| 4 | Regina | S | Avery | 40 | 75 Old Avenue |
| 5 | Daniel | S | Mccann | 2 | 283 South Green Hague Avenue |
| 6 | Dennis | H | Zuniga | 6 | 20 West Old Road |
| 7 | Myra | K | Jefferson | 68 | 26 Green First Parkway |
| 8 | Teddy | L | Parsons | 44 | 38 West Nobel St. |
| 9 | Annie | F | Stein | 46 | 17 White Nobel Way |
| 10 | Herman | Y | Pope | 72 | 695 Old Street |
### 产品数据样例
| ProductID | ProductName | Price | CategoryID | Class | ModifyDate | Resistant | IsAllergic | VitalityDays |
|----------|-------------|-------|------------|-------|------------|-----------|-----------|--------------|
| 1 | Flour - Whole Wheat | 74.2988 | 3 | Medium | 2018-02-16 | Durable | Unknown | 0 |
| 2 | Cookie Chocolate Chip With | 91.2329 | 3 | Medium | 2017-02-12 | Unknown | Unknown | 0 |
| 3 | Onions - Cippolini | 9.1379 | 9 | Medium | 2018-03-15 | Weak | False | 111 |
| 4 | Sauce - Gravy, Au Jus, Mix | 54.3055 | 9 | Medium | 2017-07-16 | Durable | Unknown | 0 |
| 5 | Artichokes - Jerusalem | 65.4771 | 2 | Low | 2017-08-16 | Durable | True | 27 |
### 销售数据样例
| SalesID | SalesPersonID | CustomerID | ProductID | Quantity | Discount | SalesDate | TransactionNumber |
|---------|--------------|-----------|----------|----------|----------|-----------|-------------------|
| 1 | 6 | 27039 | 381 | 7 | 0.0 | 2018-02-05 | FQL4S94E4ME1EZFTG42G |
| 2 | 16 | 25011 | 61 | 7 | 0.0 | 2018-02-02 | 12UGLX40DJ1A5DTFBHB8 |
| 3 | 13 | 94024 | 23 | 24 | 0.0 | 2018-05-03 | 5DT8RCPL87KI5EORO7B0 |
| 4 | 8 | 73966 | 176 | 19 | 0.2 | 2018-04-07 | R3DR9MLD5NR76VO17ULE |
| 5 | 10 | 32653 | 310 | 9 | 0.0 | 2018-02-12 | 4BGS0Z5OMAZ8NDAFHHP3 |
## 应用场景
### 销售预测与库存优化
基于该数据集丰富的历史销售记录,可以构建精准的销售预测模型。通过分析不同时间段、不同产品类别、不同地区的销售趋势,企业能够合理安排库存,避免积压或缺货。例如,可以根据2018年1-5月的销售数据训练时间序列预测模型,预测后续月份各类产品的需求量,从而优化采购计划和库存管理。同时,结合折扣率与销售量的关系分析,可以制定更有效的促销策略,在保证利润的同时提升销量。
### 客户细分与精准营销
利用近10万客户的信息,可以进行深入的客户细分分析。通过聚类算法将客户分为不同群体,识别高价值客户、潜在客户和流失风险客户。针对不同客户群体,可以制定个性化的营销策略,如向高价值客户提供专属优惠,向潜在客户推送相关产品推荐,向流失风险客户发送挽留信息。此外,结合地理信息数据,可以分析不同地区客户的消费偏好,实现区域化精准营销。
### 推荐系统研发
该数据集包含完整的用户-商品交互记录,是训练推荐系统的优质数据资源。可以基于协同过滤算法,分析客户的购买行为,发现相似客户群体和关联商品。例如,通过分析大量销售记录,可以发现购买"Flour - Whole Wheat"的客户同时也倾向于购买"Cookie Chocolate Chip With",从而实现商品推荐。此外,结合产品属性信息,可以构建基于内容的推荐模型,进一步提升推荐准确性。
### 员工绩效分析
通过分析销售人员的销售数据,可以全面评估员工绩效。可以从销售数量、销售金额、客户满意度等多个维度进行考核,识别优秀员工和需要培训的员工。同时,分析不同员工的销售特点,可以优化团队配置,将合适的员工分配到合适的区域或产品线,提升整体销售效率。此外,结合入职时间和销售业绩的关系,可以评估培训效果,优化员工培训方案。
### 市场趋势分析
通过对产品分类、价格区间、销售地区等维度的深入分析,可以洞察市场趋势和消费者偏好变化。例如,分析不同等级产品的销售占比变化,可以了解消费者对产品品质的需求变化;分析不同国家和城市的销售分布,可以发现新兴市场机会;分析折扣策略对销售的影响,可以优化定价策略。这些分析结果将为企业的产品开发、市场拓展和定价决策提供有力支持。
## 结尾
本数据集以其庞大的数据规模、丰富的维度信息和完整的业务链路,为电商数据分析和算法研发提供了宝贵的研究资源。超过675万条销售记录、近10万客户信息、452件产品数据构成了一个完整的电商业务生态系统,支持从销售预测、客户分析到推荐系统等多个方向的研究与应用。数据的高完整性和强关联性确保了分析结果的可靠性和准确性,是学术研究和商业应用的理想选择。如有需要,可私信获取更多数据详情和使用说明。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:





