德语在线媒体新闻与用户讨论数据集
引言与背景
在线新闻媒体不仅是信息传播的平台,更是公众讨论和观点交流的重要场所。本数据集收录了奥地利知名媒体derStandard.at在2002年至2016年间发布的12,087篇德语新闻文章,以及由31,413名用户贡献的1,011,773条评论,构成了一个包含内容发布、用户互动、情感标注和社区反馈的完整生态系统。数据集涵盖Articles.csv(文章内容与元数据)、Posts.csv(用户评论与投票)、Annotations.csv和Annotations_consolidated.csv(专业标注)、Categories.csv(分类体系)、CrossValSplit.csv(交叉验证划分)以及Newspaper_Staff.csv(编辑部人员信息)共7个CSV文件,为德语自然语言处理、情感分析、社区行为研究、新闻传播学和舆情监测提供了宝贵的真实世界数据基础。
数据集的核心价值在于其多层次结构:文章层面记录了完整的HTML正文、发布时间和栏目路径;评论层面保留了嵌套回复关系、正负投票数和发布状态;标注层面提供了由专业人员完成的多维度质量评估,包括情感倾向(正面/中性/负面)、论证质量、话题相关性、歧视性内容识别等细粒度标签。这种"内容-互动-标注"三位一体的设计,使得研究者既能分析新闻文本本身,又能挖掘用户反应模式,还能训练基于人工标注的监督学习模型,在公共讨论质量评估、仇恨言论检测、观点挖掘和媒体影响力分析等领域具有独特应用潜力。
数据基本信息
字段说明表格
文章表(Articles.csv)
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| ID_Article | 整数 | 文章唯一标识符 | 1 | 100% |
| Path | 字符串 | 文章所属栏目路径 | Newsroom/Panorama/Weltchronik | 100% |
| publishingDate | 日期时间 | 文章发布时间戳 | 2015-05-26 14:30:00 | 100% |
| Title | 字符串 | 文章标题 | Die Newsletter von derStandard.at | 100% |
| Body | 文本 | 文章HTML正文内容 | <div class="section">...完整HTML</div> |
100% |
评论表(Posts.csv)
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| ID_Post | 整数 | 评论唯一标识符 | 38970509 | 100% |
| ID_Parent_Post | 整数 | 父评论ID(嵌套回复) | 38965432 或 NULL | 部分(顶层评论为NULL) |
| ID_Article | 整数 | 所属文章ID | 1 | 100% |
| ID_User | 整数 | 发布用户ID | 123456 | 100% |
| CreatedAt | 日期时间 | 评论发布时间 | 2015-05-26 15:45:23 | 100% |
| Status | 整数 | 评论状态码 | 1(已发布) 或 2(已删除) | 100% |
| Headline | 字符串 | 评论标题 | "完全同意作者观点" | 部分 |
| Body | 文本 | 评论正文内容 | 详细评论文本... | 100% |
| PositiveVotes | 整数 | 获得正面投票数 | 15 | 100% |
| NegativeVotes | 整数 | 获得负面投票数 | 3 | 100% |
标注表(Annotations_consolidated.csv)
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| ID_Post | 整数 | 被标注评论ID | 38970509 | 100% |
| Category | 字符串 | 标注维度类别 | SentimentNegative | 100% |
| Value | 整数 | 标注值(0/1) | 1 | 100% |
分类表(Categories.csv)
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| Name | 字符串 | 分类名称 | SentimentNegative | 100% |
| Ord | 整数 | 分类顺序编号 | 1 | 100% |
数据分布表格
年度发布量分布
| 年份 | 文章数量 | 占比 | 累计占比 |
|---|---|---|---|
| 2015 | 6,880 | 56.92% | 56.92% |
| 2016 | 5,177 | 42.82% | 99.74% |
| 2014 | 12 | 0.10% | 99.84% |
| 2013 | 4 | 0.03% | 99.87% |
| 2012 | 5 | 0.04% | 99.91% |
| 其他年份 | 9 | 0.07% | 100.00% |
文章主题栏目分布(Top 10)
| 栏目路径 | 文章数量 | 占比 |
|---|---|---|
| Newsroom/Panorama/Weltchronik(国际大事) | 317 | 2.62% |
| Newsroom/Panorama/Chronik(社会新闻) | 229 | 1.89% |
| Newsroom/Web/Netzpolitik(网络政治) | 219 | 1.81% |
| Newsroom/Panorama/Flucht/Flucht_und_Politik(难民与政治) | 213 | 1.76% |
| Newsroom/Wirtschaft/Unternehmen(企业经济) | 208 | 1.72% |
| Newsroom/Panorama/Flucht/Fluechtlinge_in_Oesterreich(奥地利难民) | 189 | 1.56% |
| Newsroom/Web/Innovationen(技术创新) | 172 | 1.42% |
| Newsroom/Web/Games(游戏) | 170 | 1.41% |
| Newsroom/Web/Webvermischtes(网络杂谈) | 139 | 1.15% |
| Newsroom/Web/ITBusiness(IT商业) | 131 | 1.08% |
评论热度分布
| 评论数区间 | 文章数量 | 占比 | 特征描述 |
|---|---|---|---|
| 0-10条评论 | 3,215 | 26.60% | 低讨论度文章 |
| 11-50条评论 | 5,428 | 44.90% | 中等讨论度 |
| 51-200条评论 | 2,894 | 23.94% | 高讨论度 |
| 201-500条评论 | 434 | 3.59% | 热点话题 |
| 500条以上评论 | 116 | 0.96% | 极高关注度 |
标注维度分布
| 标注类别 | 标注为1的数量 | 标注为0的数量 | 正例占比 |
|---|---|---|---|
| SentimentPositive(正面情感) | 43 | 3,556 | 1.19% |
| SentimentNeutral(中性情感) | 1,865 | 1,734 | 51.82% |
| SentimentNegative(负面情感) | 1,691 | 1,908 | 46.99% |
| ArgumentsUsed(使用论据) | 1,022 | 2,577 | 28.40% |
| OffTopic(偏离主题) | 580 | 3,019 | 16.11% |
| Discriminating(歧视性内容) | 282 | 3,317 | 7.83% |
| Inappropriate(不当内容) | 303 | 3,296 | 8.42% |
| PersonalStories(个人经历) | 1,625 | 7,711 | 17.40% |
| PossiblyFeedback(可能是反馈) | 1,301 | 4,737 | 21.54% |
用户互动统计
| 指标 | 数值 | 说明 |
|---|---|---|
| 总用户数 | 31,413 | 发表过评论的注册用户 |
| 总评论数 | 1,011,773 | 包含所有状态的评论 |
| 平均每用户评论数 | 32.21 | 反映社区参与深度 |
| 最活跃用户评论数 | 4,682 | 单个用户最大贡献量 |
| 总正面投票数 | 3,824,806 | 用户点赞总数 |
| 总负面投票数 | 1,096,300 | 用户点踩总数 |
| 平均每条评论正面投票 | 3.78 | 社区认可度 |
| 平均每条评论负面投票 | 1.08 | 社区异议度 |
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 大规模真实用户讨论 | 101万条真实评论,3.1万活跃用户,完整保留嵌套回复结构 | 支持社区行为建模、讨论动态演化研究和用户画像分析 |
| 多维度专业标注 | 4万余条评论经9个维度标注,涵盖情感、论证、相关性、问题内容识别 | 可直接训练监督学习模型,评估评论质量和社区健康度 |
| 长时间跨度覆盖 | 2002-2016年跨越14年,重点集中在2015-2016年社会热点时期 | 适合纵向研究、事件演化追踪和历史舆情回溯 |
| 完整HTML原文保留 | 文章和评论保留原始HTML格式,包含图片、链接、格式标记 | 支持富文本分析、结构化信息抽取和多模态研究 |
| 社区反馈机制完整 | 包含正负投票数、发布状态、父评论关系等社交信号 | 可研究群体智慧、信息可信度和社区共识形成 |
数据样例
以下展示20条具有代表性的数据样本,涵盖不同主题、讨论热度和时间段:
文章样例
-
文章1 - ID:1, 标题:"Die Newsletter von derStandard.at", 栏目:User/Community, 发布:2012-05-26, 评论数:未统计
- 内容类型:网站功能介绍,说明derStandard.at的Newsletter订阅服务
-
文章2 - ID:2, 标题:"Werden Sie Teil von derStandard.at!", 栏目:User/Community/Regeln, 发布:2012-05-26, 评论:54条
- 内容类型:用户注册引导,详细说明注册流程和社区参与方式
-
文章3 - ID:3, 标题:"Die Android App von derStandard.at", 栏目:Diverses/mobil, 发布:2013-11-22
- 内容类型:移动应用介绍,Android客户端功能说明
-
文章4 - ID:4, 标题:"Welche Erfahrungen haben Sie als Linkshänder gemacht?", 栏目:User/mitmachen/Mitreden, 发布:2014-08-13
- 内容类型:社区讨论话题,征集左撇子用户的生活经历
-
文章5 - ID:5, 标题:"Wie haben Sie das Jahr 1989 erlebt?", 栏目:User/mitmachen/Mitreden, 发布:2014-08-27
- 内容类型:历史回忆征集,围绕柏林墙倒塌等1989年重大事件
-
文章6 - ID:6, 标题:"Ihre schlimmsten Hotelerlebnisse", 栏目:User/mitmachen/Mitreden, 发布:2014-09-30
- 内容类型:旅游话题讨论,征集糟糕的酒店住宿经历
-
文章7 - ID:7, 标题:"Keine Scheu vor der Community!", 栏目:User/Community/Austausch, 发布:2014-09-26
- 内容类型:社区管理理念,由社区管理员阐述互动策略
-
文章8 - ID:8, 标题:"Was wollten Sie als Kind werden?", 栏目:User/mitmachen/Mitreden, 发布:2014-11-13
- 内容类型:轻松话题,询问童年职业梦想
-
文章9 - ID:9, 标题:"Wie war Ihr erstes Mal im World Wide Web?", 栏目:User/mitmachen/Mitreden, 发布:2015-02-02
- 内容类型:互联网回忆,配合网站20周年纪念
-
文章10 - ID:10, 标题:"Community-Quiz #2: Können Sie die Postings...", 栏目:Wissenschaft/Zoom/Quiz, 发布:2015-02-07
- 内容类型:互动测验,让用户猜测评论对应的文章
高热度文章样例(按评论数排序)
-
热门1 - 标题:"Flüchtlingsthema katapultiert Strache auf Platz eins", 3,656条评论
- 主题:难民话题与政治人物支持率,极高争议性
-
热门2 - 标题:"Regierung schafft sich mehr Spielraum bei Asylobergrenze", 3,441条评论
- 主题:庇护政策上限调整,政府决策引发讨论
-
热门3 - 标题:"Halal-Fleisch: Nach Spar-Rückzieher nun Kampagne gegen Merku", 3,363条评论
- 主题:清真食品销售争议,涉及宗教与商业
-
热门4 - 标题:"Mikl-Leitner vor Wechsel nach St.Pölten, Sobotka soll Innenm", 2,922条评论
- 主题:政府人事变动,内政部长更替
-
热门5 - 标题:"EU-Kommission fordert Umverteilung von 160.000 Flüchtlingen", 2,737条评论
- 主题:欧盟难民分配方案,政策影响广泛
专业标注评论样例
-
标注样例1 - 评论ID未知, 类别:SentimentNegative=1, ArgumentsUsed=1
- 特征:表达负面情感但包含论据支撑的评论
-
标注样例2 - 评论ID未知, 类别:Discriminating=1, Inappropriate=1
- 特征:含有歧视性且不当的问题评论
-
标注样例3 - 评论ID未知, 类别:OffTopic=1, PossiblyFeedback=1
- 特征:偏离主题但可能包含对网站的反馈
-
标注样例4 - 评论ID未知, 类别:PersonalStories=1, SentimentNeutral=1
- 特征:分享个人经历且情感中性的评论
-
标注样例5 - 评论ID未知, 类别:SentimentPositive=1, ArgumentsUsed=1
- 特征:罕见的正面情感评论(仅1.19%)且使用论据
注:由于评论内容为德语且涉及用户隐私,此处仅展示标注维度特征。完整评论文本可在Posts.csv中查阅,标注详情见Annotations_consolidated.csv。
应用场景
1. 德语情感分析与观点挖掘模型训练
本数据集包含40,567条经专业标注的评论,标注维度涵盖情感倾向(正面/中性/负面)、论证质量、话题相关性等九个维度,为德语自然语言处理提供了高质量的监督学习语料。研究者可基于SentimentNegative、SentimentNeutral和SentimentPositive三类标注训练细粒度情感分类器,或利用ArgumentsUsed标注开发论证挖掘系统,识别评论中是否包含事实依据和逻辑推理。相比通用情感词典和机器翻译标注,本数据集由母语标注员完成,能够准确捕捉德语特有的语言现象如情态动词用法、从句结构对情感表达的影响,以及奥地利德语方言特征。此外,标注中包含Discriminating(歧视性)和Inappropriate(不当内容)类别,可训练仇恨言论检测和有害内容过滤模型,助力社交媒体平台内容审核和公共讨论质量提升,在德语舆情监测、品牌声誉管理和政策民意分析领域具有直接应用价值。
2. 在线社区互动行为与讨论动态研究
数据集完整保留了评论的嵌套回复关系(ID_Parent_Post字段)、发布时间序列、用户投票反馈(PositiveVotes和NegativeVotes)以及发布状态(Status字段标记已发布或已删除),为社区行为学和计算社会科学研究提供了丰富的关系网络和时序信息。研究者可构建评论树结构分析讨论深度和广度,识别引发热烈回复的"种子评论"特征,或追踪单一话题从初始发布到讨论衰减的生命周期曲线。通过对比正负投票比例,可量化社区共识程度,发现争议性话题的特征模式。31,413名用户的发帖频次分布(最活跃用户贡献4,682条评论,平均每用户32.21条)呈现典型的长尾分布,适合研究核心用户与普通参与者的行为差异,以及"超级用户"对讨论走向的影响力。此外,Status字段记录的删除评论可用于研究内容审核决策的触发因素,结合Discriminating和Inappropriate标注训练自动化审核模型,或分析删除操作对后续讨论氛围的影响,为平台治理策略优化提供数据支撑。
3. 新闻传播效果与议程设置分析
12,087篇文章的Path字段记录了详细的栏目分类(如"Newsroom/Panorama/Flucht"代表难民相关报道),结合publishingDate时间戳和评论数量,可量化分析不同主题的公众关注度和传播效果。数据显示,难民议题文章(Flucht相关栏目共402篇)虽仅占总量3.3%,但吸引了极高的讨论热度,如"EU-Kommission fordert Umverteilung von 160.000 Flüchtlingen"单篇获得2,737条评论,反映该议题在2015-2016年间的社会敏感性。研究者可通过时间序列分析追踪特定事件(如难民危机、政府换届)的媒体报道量与公众讨论强度的互动关系,验证议程设置理论在数字时代的适用性。文章Body字段保留完整HTML可用于提取关键词、实体和框架,对比媒体叙事角度与用户评论观点的一致性或冲突,揭示"媒体-受众"信息流的偏差来源。此外,跨栏目比较(如Web/Netzpolitik技术话题 vs Panorama/Weltchronik国际时事)可识别不同受众群体的参与模式,为媒体内容策略和受众细分提供实证依据。
4. 跨时间段舆情演化与危机传播研究
数据集跨越2002-2016年共14年,虽然主要数据集中在2015-2016年(占99.74%),但仍保留了少量早期样本,为纵向对比研究提供可能。2015年欧洲难民危机期间,相关文章评论数激增(如Top 10热门文章中6篇涉及难民或移民话题),且标注显示SentimentNegative占比46.99%,显著高于SentimentPositive的1.19%,量化反映了公众情绪的负面倾斜。研究者可将文章发布时间、评论发布时间(CreatedAt)与外部事件时间线对齐,分析危机事件从爆发到平息过程中舆论焦点的转移,以及负面情绪的扩散速度和持续时长。OffTopic标注(16.11%评论偏离主题)可用于识别议题劫持现象,即用户在某话题下引入无关争议以转移注意力。通过对比同一事件在不同时间点的报道(如政策调整前后)下评论的情感分布和论据使用率(ArgumentsUsed从28.40%平均值到具体文章的变化),可评估信息干预措施的有效性,为危机沟通策略制定和舆情预警系统开发提供实证基础。
5. 多任务学习与弱监督学习方法验证
数据集的标注结构为多任务学习提供了理想测试平台:同一评论同时具有情感(3类)、论证质量(2类)、相关性(2类)、问题内容识别(4类)等多个标签,研究者可训练共享底层表示的多任务模型,探索任务间的知识迁移(如论证质量高的评论是否更可能情感中性)和标签关联模式(如Discriminating与Inappropriate的共现率)。仅4万标注评论相对于101万总评论的稀疏性(3.99%覆盖率)也为弱监督学习和半监督学习研究创造了条件:可利用大量未标注评论的文本特征(词频、长度、回复数)和社交信号(投票比例、回复深度)作为软标签,训练自监督预训练模型后在标注数据上微调。此外,CrossValSplit.csv提供的交叉验证划分方案确保了实验可复现性和结果可比性,便于不同算法在统一基准下评估。PersonalStories(17.40%)和PossiblyFeedback(21.54%)等细粒度标签还可支持特定下游任务,如用户生成内容的个性化推荐(优先展示个人经历分享)或产品反馈自动聚合,拓展数据集在推荐系统和客户关系管理领域的应用潜力。
结论
德语在线媒体新闻与用户讨论数据集以12,087篇文章、1,011,773条评论和40,567条多维度专业标注构成了内容丰富、结构完整的德语社会媒体研究语料库。数据集核心优势在于真实性(来自主流媒体真实运营数据)、规模性(百万级评论和三万用户)、标注质量(九维度专业人工标注)和信息完整性(保留HTML原文、嵌套关系、社交反馈和时间序列)。从技术角度看,它为德语NLP模型训练、情感分析算法优化、社区行为建模和多任务学习研究提供了基准数据集;从应用角度看,它可直接服务于舆情监测、内容审核、媒体效果评估、危机传播研究和公共政策分析等领域。
数据集清晰反映了2015-2016年间欧洲难民危机等重大社会议题在奥地利公共讨论空间的投影:高争议话题吸引极端化讨论(负面情感占主导,歧视性内容占比7.83%),而技术和文化类话题则呈现更理性的讨论氛围(论证使用率相对较高)。Newspaper_Staff.csv(110名编辑部人员)为媒体组织研究提供了结构化补充,未来可结合作者署名分析编辑风格对讨论走向的影响。需要注意的是,数据集主要覆盖2015-2016年,时效性研究需结合最新数据补充;德语方言和奥地利本地化表达可能降低模型在德国或瑞士德语场景的泛化能力,跨区域应用需进行领域适配。
总体而言,本数据集为理解德语数字公共领域的讨论生态、评估在线社区健康度、优化内容治理策略和推进德语NLP技术发展提供了宝贵的数据基础设施,适合计算语言学、传播学、社会学、政治学和计算机科学等多学科交叉研究使用。
数据获取说明: 本数据集基于derStandard.at公开数据整理,使用时需遵守相关版权和隐私保护规定,仅限学术研究和非商业用途。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:









