# 综合大麻药房数据集深度分析报告
## 引言与背景
随着全球大麻产业的快速发展,数据驱动的决策已成为药房运营和市场分析的关键。本数据集由Elmhurst University和Kaggle联合提供,包含美国多个州的综合大麻药房运营数据,为研究人员、行业从业者和政策制定者提供了宝贵的分析资源。
该数据集包含8个核心文件:品牌信息(brands.csv)、客户信息(customer.csv)、订单交易记录(customerOrders.csv)、药房位置(locations.csv)、产品库存(productInventory.csv)、产品类型(productType.csv)、州级法规(stateReg.csv)和品种信息(strains.csv)。这些数据涵盖了从供应链管理到客户行为分析的各个环节,为深入理解大麻零售行业提供了全面视角。
数据集的研究价值在于其多维度的关联性:通过整合地理位置、产品信息、客户特征和法规数据,研究人员可以探索市场布局优化、产品定价策略、客户细分以及政策影响等多个研究方向。同时,完整的交易记录为算法训练提供了丰富的样本数据。
## 数据基本信息
### 数据字段说明
| 数据集 | 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|--------|----------|----------|----------|----------|--------|
| brands | unq_id | 整数 | 品牌唯一标识 | 1 | 100% |
| brands | name | 字符串 | 品牌名称 | Old Glory | 100% |
| brands | lat/lng | 浮点 | 坐标 | 41.3973809/-72.854575 | 100% |
| brands | products_offered | 列表 | 提供产品类型 | ['beverage', 'vape', 'concentrate'] | 100% |
| customer | unq_id | 整数 | 客户唯一标识 | 1 | 100% |
| customer | fst_nam/lst_nam | 字符串 | 姓名 | Carl Krueger | 100% |
| customer | city/state/zip | 字符串 | 位置信息 | ADJUNTAS, PR, 00601 | 100% |
| customer | reg_code | 字符 | 注册类型 | m/r/o | 100% |
| locations | unq_id | 整数 | 位置唯一标识 | 1 | 100% |
| locations | name | 字符串 | 药房名称 | Happy Leaf Collective | 100% |
| locations | type | 字符串 | 药房类型 | Medical/Recreational | 100% |
| orders | ord_id | 整数 | 订单唯一标识 | 12019 | 100% |
| orders | ord_datetime | 日期时间 | 订单时间 | 2019-01-01 09:02:09 | 100% |
| orders | ord_itm_cost | 浮点 | 商品成本 | 70.0 | 100% |
| orders | ord_itm_tax | 浮点 | 税费 | 7.7 | 100% |
| inventory | prod_name | 字符串 | 产品名称 | Amazing flower popcorn | 100% |
| inventory | prod_thc_lvl | 字符串 | THC含量 | 0.63 | 100% |
| inventory | prod_lst_price | 货币 | 标价 | $30.00 | 100% |
| productType | category | 字符串 | 产品类别 | flower/concentrate | 100% |
| stateReg | state | 字符串 | 州代码 | CA/AZ/CO | 100% |
| stateReg | tax_rate | JSON | 税率 | {"s": 0.15, "i": 0.12, "c": 0.31} | 100% |
| strains | name | 字符串 | 品种名称 | GG4/Wedding Cake | 100% |
| strains | type | 字符串 | 品种类型 | Hybrid/Indica/Sativa | 100% |
| strains | thc_level | 浮点 | THC等级 | 0.20 | 100% |
### 数据分布情况
#### 产品类别分布
| 类别 | 子类数量 | 占比 |
|------|----------|------|
| concentrate | 23 | 41.1% |
| flower | 5 | 8.9% |
| vape | 6 | 10.7% |
| edible | 7 | 12.5% |
| preroll | 3 | 5.4% |
| topical | 3 | 5.4% |
| capsule | 2 | 3.6% |
| tincture | 1 | 1.8% |
| beverage | 4 | 7.1% |
| 总计 | 56 | 100% |
#### 药房类型分布
| 类型 | 数量 | 占比 |
|------|------|------|
| Medical | 325 | 56.1% |
| Recreational | 254 | 43.9% |
| 总计 | 579 | 100% |
#### 品种类型分布
| 类型 | 数量 | 占比 |
|------|------|------|
| Hybrid | 52 | 56.5% |
| Indica | 21 | 22.8% |
| Sativa | 19 | 20.7% |
| 总计 | 92 | 100% |
#### 客户注册类型分布
| 类型 | 含义 | 占比 |
|------|------|------|
| r | Recreational | 约35% |
| m | Medical | 约45% |
| o | Other | 约20% |
#### 地理分布(主要州)
| 州 | 药房数量 | 占比 |
|----|----------|------|
| CA | 324 | 55.9% |
| CO | 255 | 44.0% |
| AZ | 1 | 0.2% |
| 总计 | 579 | 100% |
### 数据规模概览
- 品牌数量: 25个
- 客户数量: 1309条记录
- 药房位置: 579个
- 产品类型: 56种
- 大麻品种: 92种
- 州级法规: 59个地区
- 订单记录: 大量历史交易数据
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|----------|----------|----------|
| 多维度覆盖 | 涵盖品牌、客户、订单、位置、产品、法规、品种7个维度 | 支持多维度交叉分析 |
| 地理信息完整 | 所有位置均包含精确坐标和地址信息 | 支持空间分析和市场布局研究 |
| 交易数据完整 | 包含订单时间、产品明细、价格、税费等完整信息 | 支持销售分析和定价策略研究 |
| 产品信息丰富 | 包含THC含量、产品属性、库存数量等详细数据 | 支持产品管理和供应链优化 |
| 法规数据齐全 | 包含59个州/地区的税率和购买限制 | 支持政策影响分析 |
| 品种数据详尽 | 92种品种的完整描述和萜烯信息 | 支持产品开发和品种选择 |
| 数据格式统一 | 所有文件均为CSV格式,便于处理 | 降低数据清洗成本 |
| 时间跨度完整 | 订单数据覆盖多个时间点 | 支持趋势分析和季节性研究 |
## 数据样例
### 品牌数据样例
1. Old Glory: 位于康涅狄格州North Haven,提供beverage、vape、concentrate、preroll、edible、flower
2. F5 Smoke: 位于宾夕法尼亚州Allentown,提供concentrate、edible、flower、preroll、vape、beverage
3. Smokers Choice: 位于纽约州Middletown,提供capsule、edible、vape、tincture、topical
4. Nutz: 位于纽约州Wappingers Falls,提供concentrate、preroll、beverage、flower、vape
5. Head to Toe: 位于康涅狄格州Bridgeport,提供全品类9种产品
### 客户数据样例
| ID | 姓名 | 城市 | 州 | 邮编 | 注册类型 |
|----|------|------|----|------|----------|
| 1 | Carl Krueger | ADJUNTAS | PR | 00601 | r |
| 2 | Gregory Robinson | AGUADA | PR | 00602 | m |
| 3 | Dylan Shaffer | AGUADILLA | PR | 00603 | m |
| 4 | Michele Rodriguez | AGUADILLA | PR | 00603 | r |
| 5 | Austin Chapman | AGUADILLA | PR | 00603 | m |
### 订单数据样例
| 订单ID | 客户ID | 位置 | 产品 | 数量 | 成本 | 税费 | 总计 |
|--------|--------|------|------|------|------|------|------|
| 12019 | 1839 | Terpene Station - Portland | Amazing flower popcorn | 1 | 70.0 | 7.7 | 77.7 |
| 22019 | 25463 | Mohave Green | Aladdins Smoke flower moon rocks | 1 | 10.0 | 0.7 | 10.7 |
| 32019 | 41224 | ThirdEye Wellness | 2nd Ave Smoke concentrate oil syringe | 1 | 15.0 | 4.65 | 19.65 |
| 62019 | 26244 | Chubbys Med House | 2nd Ave Smoke flower popcorn | 1 | 10.0 | 1.4 | 11.4 |
| 72019 | 6119 | The Clinic on Colfax | Cigarillos topical balm | 1 | 25.0 | 6.25 | 31.25 |
### 产品库存样例
| 产品名称 | THC含量 | 规格 | 价格 | 库存 |
|----------|----------|------|------|------|
| 2nd Ave Smoke concentrate live jelly | 0.63 | 7g | $30.00 | 424 |
| Aladdins Smoke flower popcorn | 0.14 | 7g | $70.00 | 243 |
| Amazing beverage seltzer | 500mg | 16oz | $10.00 | 52 |
| Blue Nile concentrate live badder | 0.54 | 0.5g | $105.00 | 367 |
| Cigarillos edible candy | 2000mg | 30 | $15.00 | 322 |
### 品种数据样例
| 品种 | 类型 | THC含量 | 主要萜烯 |
|------|------|----------|----------|
| GG4 | Hybrid | 0.20 | Caryophyllene |
| Wedding Cake | Hybrid | 0.22 | Limonene |
| Runtz | Hybrid | 0.19 | Limonene |
| Gelato | Hybrid | 0.17 | Caryophyllene |
| Blue Dream | Hybrid | 0.18 | Myrcene |
## 应用场景
### 市场分析与布局优化
该数据集为药房市场分析提供了丰富的数据基础。通过分析579个药房位置的地理分布,可以识别市场饱和度和潜在扩张机会。例如,加利福尼亚州拥有324家药房,占总数的55.9%,显示出该州市场的成熟度;而科罗拉多州作为首批合法化州之一,拥有255家药房,市场竞争同样激烈。
研究人员可以结合地理信息系统(GIS)分析,识别未充分服务的区域,为新药房选址提供数据支持。同时,通过分析不同类型药房(Medical vs Recreational)的分布模式,可以理解消费者需求的地域差异。
### 客户行为分析与精准营销
客户数据集包含1309条记录,覆盖波多黎各、马萨诸塞州、罗德岛州和新罕布什尔州等地。通过分析客户的注册类型分布(医疗用户约45%,娱乐用户约35%),可以制定差异化的营销策略。
订单数据提供了深入分析客户购买行为的机会,包括购买频率、消费金额、产品偏好等。这些信息可用于构建客户画像,实现精准营销和个性化推荐。例如,识别高价值客户群体,制定忠诚度计划;分析购买模式,优化库存管理。
### 产品定价与利润优化
产品库存数据包含详细的定价信息和THC含量数据,为定价策略研究提供了支持。通过分析不同产品类别的价格分布(concentrate类产品价格较高,平均$60-$210;edible类产品价格适中,平均$15),可以优化产品线定价结构。
结合州级法规中的税率数据,可以分析不同地区的利润差异。例如,加利福尼亚州的concentrate税率为31%,而科罗拉多州为27%,这种差异直接影响产品定价策略和利润预期。
### 供应链与库存管理
产品库存数据包含每个门店的库存数量信息,支持供应链优化分析。通过分析库存水平与销售数据的关系,可以优化库存补货策略,减少缺货和库存积压风险。
产品类型分布显示concentrate类产品种类最多(23种),占总数的41.1%,其次是edible类(7种)和vape类(6种)。这种产品结构分析有助于优化采购计划和产品组合。
### 政策影响研究
州级法规数据包含59个地区的税率和购买限制信息,为政策影响研究提供了数据支持。通过分析不同税率对销售的影响,可以评估税收政策的有效性。
购买限制数据(如花类产品限制为28g,可食用产品限制为2700mg)为合规性分析提供了依据,帮助药房确保运营符合当地法规要求。
### 品种选择与产品开发
92种大麻品种数据包含详细的THC含量和萜烯信息,为品种选择和产品开发提供了参考。通过分析品种的流行度和消费者偏好,可以优化产品开发方向。
例如,Hybrid类型品种占56.5%,显示出消费者对平衡效果的偏好;THC含量范围从0.14到0.27,为不同市场定位提供了选择依据。
## 结尾
本数据集为大麻药房行业的研究和运营提供了全面的数据支持。其多维度的关联性、完整的交易记录和丰富的地理信息使其成为市场分析、客户研究、供应链管理和政策评估的宝贵资源。
数据集的核心优势在于其完整性和一致性:从品牌信息到客户行为,从产品库存到法规数据,所有文件相互关联,支持多维度交叉分析。研究人员可以利用这些数据深入理解大麻零售行业的运营模式和市场动态。
此外,数据集采用统一的CSV格式,便于数据处理和分析,降低了研究门槛。无论是学术研究还是商业应用,该数据集都提供了坚实的数据基础。
如需获取更多信息或讨论数据应用,欢迎联系数据集提供方。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






