# 诗歌书籍推荐系统数据集分析
## 引言与背景
在数字时代,书籍推荐系统已成为连接读者与内容的重要桥梁,尤其对于诗歌这一特殊文学体裁而言,精准的推荐能够帮助读者发现更多符合个人口味的作品。本数据集包含了丰富的诗歌书籍信息及用户交互数据,为推荐系统的开发和研究提供了宝贵的资源。
该数据集由两部分组成:书籍元数据和用户交互数据。书籍元数据包含了36514本诗歌相关书籍的详细信息,包括基本信息、评分、标签等;用户交互数据则记录了25846位用户对这些书籍的阅读行为和评价,共计250000条交互记录。这些数据不仅涵盖了书籍的基本属性,还包含了用户的真实反馈,为研究诗歌书籍的推荐算法提供了全面的视角。
对于科研人员而言,该数据集可用于开发和测试推荐算法,探索用户阅读行为模式;对于出版社和书店来说,可基于数据洞察优化图书采购和营销策略;对于普通读者,则可以通过推荐系统发现更多优质诗歌作品。
## 数据基本信息
### 书籍数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| isbn | 字符串 | 国际标准书号 | 0811223981 | 99.99% |
| text_reviews_count | 整数 | 文本评论数量 | 2 | 100.00% |
| series | 数组 | 系列信息 | [] | 100.00% |
| country_code | 字符串 | 国家代码 | US | 100.00% |
| language_code | 字符串 | 语言代码 | eng | 99.99% |
| popular_shelves | 数组 | 热门标签 | [{"count": "100", "name": "to-read"}] | 100.00% |
| asin | 字符串 | 亚马逊标准识别号 | B00U2WY9U8 | 99.99% |
| is_ebook | 布尔值 | 是否为电子书 | false | 100.00% |
| average_rating | 浮点数 | 平均评分 | 3.83 | 99.99% |
| kindle_asin | 字符串 | Kindle版本ASIN | B00SM9ITQS | 99.99% |
| similar_books | 数组 | 相似书籍 | ["25869488", "23630890"] | 100.00% |
| description | 字符串 | 书籍描述 | Fairy Tales gathers the unconventional verse dramolettes... | 99.99% |
| format | 字符串 | 书籍格式 | Paperback | 99.99% |
| link | 字符串 | 书籍链接 | https://www.goodreads.com/book/show/22466716-fairy-tales | 100.00% |
| authors | 数组 | 作者信息 | [{"author_id": "16073", "role": ""}] | 100.00% |
| publisher | 字符串 | 出版社 | New Directions | 99.99% |
| num_pages | 整数 | 页数 | 128 | 99.99% |
| publication_day | 整数 | 出版日 | 20 | 99.99% |
| isbn13 | 字符串 | 13位ISBN | 9780811223980 | 99.99% |
| publication_month | 整数 | 出版月 | 4 | 99.99% |
| edition_information | 字符串 | 版本信息 | First | 99.99% |
| publication_year | 整数 | 出版年 | 2015 | 99.99% |
| url | 字符串 | 书籍URL | https://www.goodreads.com/book/show/22466716-fairy-tales | 100.00% |
| image_url | 字符串 | 封面图片URL | https://images.gr-assets.com/books/1404958407m/22466716.jpg | 100.00% |
| book_id | 整数 | 书籍ID | 22466716 | 100.00% |
| ratings_count | 整数 | 评分数量 | 37 | 100.00% |
| work_id | 整数 | 作品ID | 41905435 | 100.00% |
| title | 字符串 | 书籍标题 | Fairy Tales: Dramolettes | 100.00% |
| title_without_series | 字符串 | 不含系列的标题 | Fairy Tales: Dramolettes | 100.00% |
### 用户交互数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| user_id | 字符串 | 用户ID | 8842281e1d1347389f2ab93d60773d4d | 100.00% |
| book_id | 整数 | 书籍ID | 1384 | 100.00% |
| review_id | 字符串 | 评论ID | 1bad0122cebb4aa9213f9fe1aa281f66 | 100.00% |
| is_read | 布尔值 | 是否已读 | True | 100.00% |
| rating | 整数 | 用户评分 | 4 | 100.00% |
| review_text_incomplete | 字符串 | 评论内容(不完整) | I have three younger siblings... | 99.99% |
| date_added | 日期 | 添加日期 | Wed May 09 09:33:44 -0700 2007 | 100.00% |
| date_updated | 日期 | 更新日期 | Wed May 09 09:33:44 -0700 2007 | 100.00% |
| read_at | 日期 | 阅读日期 | Tue Mar 01 00:00:00 -0800 1983 | 99.99% |
| started_at | 日期 | 开始阅读日期 | Thu Oct 19 17:23:24 -0700 2017 | 99.99% |
### 数据分布情况
#### 出版年份分布
| 年份 | 记录数量 | 占比 | 累计占比 |
|------|---------|------|----------|
| 2015 | 2000+ | ~5.5% | ~5.5% |
| 2014 | 1800+ | ~5.0% | ~10.5% |
| 2013 | 1600+ | ~4.5% | ~15.0% |
| 2012 | 1400+ | ~4.0% | ~19.0% |
| 2011 | 1200+ | ~3.5% | ~22.5% |
| 2010 | 1000+ | ~3.0% | ~25.5% |
| 2009 | 900+ | ~2.5% | ~28.0% |
| 2008 | 800+ | ~2.2% | ~30.2% |
| 2007 | 700+ | ~2.0% | ~32.2% |
| 2006 | 600+ | ~1.8% | ~34.0% |
| 其他年份 | 18000+ | ~49.0% | 100.0% |
#### 语言分布
| 语言 | 记录数量 | 占比 |
|------|---------|------|
| eng | 25000+ | ~68.5% |
| en-US | 3000+ | ~8.2% |
| fre | 1500+ | ~4.1% |
| spa | 1000+ | ~2.7% |
| ger | 800+ | ~2.2% |
| por | 600+ | ~1.6% |
| it | 500+ | ~1.4% |
| tur | 400+ | ~1.1% |
| ara | 300+ | ~0.8% |
| 其他语言 | 3000+ | ~8.2% |
#### 书籍格式分布
| 格式 | 记录数量 | 占比 |
|------|---------|------|
| Paperback | 25000+ | ~68.5% |
| Hardcover | 5000+ | ~13.7% |
| ebook | 2000+ | ~5.5% |
| Mass Market Paperback | 1000+ | ~2.7% |
| chapbook | 800+ | ~2.2% |
| 其他格式 | 2700+ | ~7.4% |
#### 用户交互类型分布
| 类型 | 记录数量 | 占比 |
|------|---------|------|
| 未读 | 126717 | 50.69% |
| 已读 | 123283 | 49.31% |
#### 用户评分分布
| 评分 | 记录数量 | 占比 |
|------|---------|------|
| 0星 | 133583 | 53.43% |
| 5星 | 47182 | 18.87% |
| 4星 | 39320 | 15.73% |
| 3星 | 22467 | 8.99% |
| 2星 | 5790 | 2.32% |
| 1星 | 1658 | 0.66% |
#### 热门标签分布(前20)
| 标签 | 记录数量 | 占比 |
|------|---------|------|
| poetry | 36210 | ~10.0% |
| to-read | 35947 | ~9.9% |
| currently-reading | 25112 | ~6.9% |
| favorites | 18815 | ~5.2% |
| owned | 15123 | ~4.1% |
| fiction | 12699 | ~3.5% |
| books-i-own | 12627 | ~3.5% |
| literature | 11526 | ~3.2% |
| to-buy | 10285 | ~2.8% |
| classics | 10279 | ~2.8% |
### 数据规模与覆盖范围
- 总书籍数:36514本
- 总用户数:25846位
- 总交互记录:250000条
- 时间范围:2004年2月至2017年10月
- 语言覆盖:多种语言,以英语为主
- 出版年份:1887年至2017年
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据量庞大 | 包含36514本诗歌书籍和250000条用户交互记录 | 为推荐系统提供充足的训练数据,提高推荐准确性 |
| 字段丰富 | 书籍数据包含29个字段,交互数据包含10个字段 | 支持多维度分析,可构建更复杂的推荐模型 |
| 时间跨度长 | 覆盖2004-2017年的用户行为数据 | 可分析用户阅读习惯的变化趋势 |
| 多语言覆盖 | 包含多种语言的诗歌书籍 | 支持多语言推荐系统的开发 |
| 真实用户反馈 | 包含用户的阅读状态和评分 | 可用于评估推荐系统的实际效果 |
| 标签体系完善 | 每本书都有丰富的用户标签 | 可基于标签进行内容推荐和聚类分析 |
| 数据质量高 | 字段完整性均在99.99%以上 | 减少数据清洗成本,提高分析效率 |
| 涵盖经典与现代 | 包含从1887年到2017年的作品 | 满足不同读者的需求,支持多样化推荐 |
## 数据样例
### 书籍数据样例
1. 书籍ID: 16037549, 标题: Vision of Sir Launfal and Other Poems, 作者: [{'author_id': '15585', 'role': ''}], 出版社: Houghton, Mifflin and Company, 出版年份: 1887, 评分: 3.83, 页数: 80, 格式: Paperback, 语言: eng
2. 书籍ID: 22466716, 标题: Fairy Tales: Dramolettes, 作者: [{'author_id': '16073', 'role': ''}, {'author_id': '3484503', 'role': 'Translator'}, {'author_id': '367928', 'role': 'Translator'}, {'author_id': '1028358', 'role': 'Preface'}], 出版社: New Directions, 出版年份: 2015, 评分: 3.83, 页数: 128, 格式: Paperback, 语言:
3. 书籍ID: 926662, 标题: Growltiger's Last Stand and Other Poems, 作者: [{'author_id': '18540', 'role': ''}, {'author_id': '248155', 'role': 'Illustrator'}], 出版社: Farrar Straus Giroux, 出版年份: 2008, 评分: 4.38, 页数: 12, 格式: Paperback, 语言:
4. 书籍ID: 29065952, 标题: Louder Than Everything You Love, 作者: [{'author_id': '14308759', 'role': ''}], 出版社: ELJ Publications, 出版年份: 2015, 评分: 5.0, 页数: 118, 格式: Paperback, 语言: eng
5. 书籍ID: 35235890, 标题: Su Seviyesi, 作者: [{'author_id': '11563', 'role': ''}, {'author_id': '14182642', 'role': 'Translator'}], 出版社: Everest Yayinlari, 出版年份: 2017, 评分: 4.0, 页数: 128, 格式: Paperback, 语言: tur
6. 书籍ID: 15861988, 标题: Into Temptation, 作者: [{'author_id': '2988946', 'role': ''}], 出版社: Tollington Press, 出版年份: 2009, 评分: 4.75, 页数: 80, 格式: Paperback, 语言: eng
7. 书籍ID: 24849837, 标题: Naked Soul: The Erotic Love Poems, 作者: [{'author_id': '13260036', 'role': ''}], 出版社: Naked Soul Press, 出版年份: 2015, 评分: 3.95, 页数: 172, 格式: Paperback, 语言: eng
8. 书籍ID: 20544060, 标题: Black Liquor: Poems, 作者: [{'author_id': '547708', 'role': ''}], 出版社: Caitlin Press, 出版年份: 2013, 评分: 4.0, 页数: 128, 格式: Paperback, 语言:
9. 书籍ID: 10898316, 标题: Little Boy Blue: A Memoir in Verse, 作者: [{'author_id': '592389', 'role': ''}], 出版社: CavanKerry Press, 出版年份: 2011, 评分: 4.09, 页数: 63, 格式: Paperback, 语言:
10. 书籍ID: 11739266, 标题: Ariel, 作者: [{'author_id': '4379', 'role': ''}], 出版社: Gallimard, 出版年份: 2011, 评分: 4.0, 页数: 1, 格式: Mass Market Paperback, 语言: fre
### 用户交互数据样例
1. 用户ID: 8842281e1d1347389f2ab93d60773d4d, 书籍ID: 1384, 是否已读: True, 评分: 4, 添加日期: Wed May 09 09:33:44 -0700 2007
2. 用户ID: 72fb0d0087d28c832f15776b0d936598, 书籍ID: 24769928, 是否已读: False, 评分: 0, 添加日期: Wed Apr 27 11:05:51 -0700 2016
3. 用户ID: ab2923b738ea3082f5f3efcbbfacb218, 书籍ID: 240007, 是否已读: True, 评分: 4, 添加日期: Tue Nov 10 17:16:38 -0800 2009
4. 用户ID: d986f354a045ffb91234e4af4d1b12fd, 书籍ID: 23513349, 是否已读: False, 评分: 0, 添加日期: Thu Jul 20 13:55:22 -0700 2017
5. 用户ID: 06316bec7a49286f1f98d5acce24f923, 书籍ID: 2696, 是否已读: True, 评分: 3, 添加日期: Tue Jun 05 09:17:50 -0700 2012
6. 用户ID: 1711b2a40d154603f157536619f71967, 书籍ID: 17707772, 是否已读: False, 评分: 0, 添加日期: Thu Feb 09 14:39:10 -0800 2017
7. 用户ID: 220ef9c058a2132e6a9827f93a821d87, 书籍ID: 18743, 是否已读: True, 评分: 5, 添加日期: Sun Jun 10 09:13:39 -0700 2012
8. 用户ID: 01ec1a320ffded6b2dd47833f2c8e4fb, 书籍ID: 28188156, 是否已读: False, 评分: 0, 添加日期: Tue Apr 05 00:44:11 -0700 2016
9. 用户ID: 4b3636a043e5c99fa27ac897ccfa1151, 书籍ID: 30119, 是否已读: True, 评分: 5, 添加日期: Tue Jun 14 15:28:50 -0700 2011
10. 用户ID: 4035e5f05352217609c1a294410f2d50, 书籍ID: 1371, 是否已读: True, 评分: 4, 添加日期: Wed Apr 10 19:20:03 -0700 2013
## 应用场景
### 个性化诗歌推荐系统
基于该数据集,可开发个性化诗歌推荐系统,为用户推荐符合其阅读偏好的诗歌作品。系统可利用用户的历史阅读记录、评分和标签偏好,结合书籍的元数据信息,构建推荐模型。通过分析用户对不同类型诗歌的偏好,系统能够精准推荐用户可能感兴趣的作品,提高用户发现优质诗歌的效率。例如,对于喜欢现代诗歌的用户,系统可以推荐 contemporary poetry 标签下的高评分作品;对于喜欢经典诗歌的用户,则可以推荐 classics 标签下的经典之作。
### 诗歌市场趋势分析
出版社和书店可以利用该数据集分析诗歌市场的发展趋势,包括不同时期、不同语言、不同风格诗歌的受欢迎程度变化。通过分析用户评分和阅读行为,可以了解哪些类型的诗歌更受读者欢迎,哪些作者的作品更具市场潜力。这些洞察可以帮助出版社优化选题策略,书店优化采购和陈列方案,从而更好地满足读者需求,提高市场竞争力。
### 诗歌作者影响力评估
研究者可以利用该数据集评估诗歌作者的影响力,分析不同作者的作品被阅读、评分和标记的情况。通过统计作者的作品数量、平均评分、阅读量和标签分布,可以构建作者影响力指标,为文学研究提供数据支持。例如,可以分析哪些作者的作品被标记为 favorites 的比例更高,哪些作者的作品评分更高,从而评估作者在读者中的受欢迎程度和文学价值。
### 诗歌内容分类与聚类
基于书籍的标签信息和描述,可以对诗歌作品进行自动分类和聚类,构建诗歌分类体系。通过自然语言处理技术分析书籍描述和标签,可以识别诗歌的主题、风格、时代等特征,将诗歌作品分为不同类别。这种分类体系可以帮助读者更系统地发现和探索诗歌作品,也可以为推荐系统提供更精细的内容特征,提高推荐的准确性。
### 用户阅读行为分析
通过分析用户的阅读行为数据,可以了解读者的阅读习惯和偏好,包括阅读频率、阅读时长、评分行为等。这些分析可以帮助平台优化用户体验,例如根据用户的阅读时间推荐合适长度的诗歌作品,根据用户的评分习惯调整推荐算法。此外,还可以分析不同群体的阅读行为差异,为不同类型的读者提供定制化的服务。
## 结尾
本数据集为诗歌书籍推荐系统的开发和研究提供了丰富的资源,包含了大量真实的书籍信息和用户交互数据。其数据量庞大、字段丰富、时间跨度长、多语言覆盖等优势,使其成为研究诗歌推荐系统的理想数据集。
通过对该数据集的分析和应用,可以开发出更精准的诗歌推荐系统,帮助读者发现更多符合个人口味的诗歌作品;可以为出版社和书店提供市场洞察,优化图书出版和销售策略;可以为文学研究提供数据支持,评估诗歌作者的影响力和诗歌市场的发展趋势。
未来,随着更多用户数据的积累和推荐算法的改进,基于该数据集的推荐系统将能够为读者提供更加个性化、精准的诗歌推荐服务,促进诗歌文化的传播和发展。
有需要可私信获取更多信息。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






