武强

verify-tagShifaa阿拉伯语心理健康咨询问答数据集_40469条医患问答_7大心理疾病分类_2002-2024年完整原始记录_NLP医疗对话训练与跨语言心理研究优质资源

15.9

已售 0
945.76MB

数据标识:D17784923547823564

发布时间:2026/05/11

# Shifaa 阿拉伯语心理健康咨询问答数据集:40469 条医患真实问答、7 大心理疾病分类、2002—2024 年完整原始记录,NLP 医疗对话训练与跨语言心理研究优质资源

## 一、引言与背景

心理健康是当下全球公共卫生与人工智能研究共同关注的核心议题,而阿拉伯语作为联合国六大工作语言之一、覆盖超过四亿人口的语种,其专业心理咨询语料长期处于稀缺状态,远远滞后于英语、中文等高资源语种。Shifaa 阿拉伯语心理健康咨询问答数据集正是在这一背景下整理、汇聚而成,集中收录了来自阿拉伯语在线心理咨询平台 "إسلام ويب(Islam Web)" 体系下"الاستشارات النفسية والاجتماعية" 板块的真实问答内容,覆盖了自 2002 年至 2024 年长达二十三年的咨询时间跨度,全量记录共计 40469 条专业医生与求助者之间的标准问答对,是面向阿拉伯语心理咨询领域规模最大、结构最完整的公开问答语料之一。

整个数据集由 7 个 CSV 文件1 个 JSON 总目录文件共同构成。CSV 文件按照心理疾病的临床分类进行组织,每一条记录均完整保留了求助者提问的原始标题、提问正文、医生答复全文、医生姓名、咨询编号、答复日期以及多级层次化诊断标签等关键字段;JSON 文件则在 Specialties → 分类 → details 的多层级结构下,对全部专科进行了细粒度的二次组织,便于按学科和子类目快速检索调阅。所有问答内容均为完整的原始文本,没有截断、没有摘要替代,问题平均长度约 906 个字符,答复平均长度约 2152 个字符,单条记录信息量丰富,对话上下文完整可追溯。

该数据集的研究价值在于其同时承载了"语料规模"、"专业深度"与"分类结构"三个层面的稀缺性。从语料规模看,四万余条真实问答足以支撑大模型的指令微调与对齐训练;从专业深度看,绝大多数答复由具备临床资质的精神科医生与心理咨询顾问撰写,内容涵盖症状描述、鉴别分析、药物机制、行为干预、家庭支持等多个维度;从分类结构看,每条记录均挂载了清晰的层次化诊断标签,可直接用于阿拉伯语心理健康领域的分类、检索、问答和对话系统建模,对学术界开展低资源语言医疗 NLP、跨语言迁移学习以及阿拉伯语大模型评测均具有不可替代的应用价值。

## 二、数据基本信息

数据集采用结构化字段对每一条咨询记录进行表征。所有 CSV 文件采用统一的七字段表结构,JSON 文件中的 details 列表项与 CSV 字段语义完全一致,整体字段完整率达到 100%,没有缺失值。

### 2.1 字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| Question Title | 文本 | 求助者提交的咨询标题,通常为一句话概述 | أتعبتني الخيالات الانفعالية، فما هو العلاج؟ | 100% |
| Question | 长文本 | 求助者完整提问原文,含背景、症状与诉求 | السلام عليكم ورحمة الله وبركاته، أعاني منذ سنوات … | 100% |
| Answer | 长文本 | 医生或顾问的完整答复原文,含分析与建议 | بسم الله الرحمن الرحيم … نرحب بك في إسلام ويب … | 100% |
| Doctor Name | 文本 | 答复医生或顾问的署名 | د. محمد عبد العليم | 100% |
| Consultation Number | 文本/数字 | 平台唯一咨询编号,可作为主键 | 2550657 | 100% |
| Date of Answer | 日期 | 答复发布日期(ISO 或 M/D/YYYY 两种格式) | 2024-10-15 | 100% |
| Hierarchical Diagnosis | 多级文本 | 多级层次化诊断标签,使用 " - " 作为层级分隔 | الحالات النفسية العصبية - الاكتئاب - الاكتئاب عمومًا | 100% |

### 2.2 文件构成与规模分布

数据集对外提供 7 个按类别拆分的 CSV 文件与 1 个聚合型 JSON 文件,全量合计 40469 条问答记录,文件大小覆盖从约 1.3 MB 到约 215 MB 的较宽区间。

| 文件名 | 记录数量 | 占比 | 文件大小(字节) |
|---|---|---|---|
| Neuropsychological_Conditions.csv | 24835 | 61.37% | 146,040,856 |
| Personality_and_Self_Development.csv | 4558 | 11.26% | 27,347,477 |
| Shifaa_Arabic_Mental_Health_Consultationse.json | 4821 | 11.91% | 215,305,444 |
| Behavioral_Psychological_Conditions.csv | 2705 | 6.68% | 13,668,235 |
| Psychotic_Disorders.csv | 1738 | 4.29% | 9,387,656 |
| Psychological_Issues_and_Guidance.csv | 860 | 2.13% | 4,918,808 |
| Childhood_Psychological_Problems.csv | 690 | 1.71% | 3,466,147 |
| Other_Psychological_and_Behavioral_Issues.csv | 262 | 0.65% | 1,325,130 |

### 2.3 心理疾病分类分布(按 Hierarchical Diagnosis 顶层类目)

| 顶层分类(阿拉伯语原文) | 中文释义 | 记录数量 | 占比 |
|---|---|---|---|
| الحالات النفسية العصبية | 神经性心理状态(焦虑、恐惧、强迫、抑郁等) | 24835 | 69.67% |
| الشخصية وتطوير الذات | 人格与自我发展 | 4558 | 12.79% |
| الحالات النفسية السلوكية | 行为型心理状态(睡眠、不自主动作等) | 2705 | 7.59% |
| الأمراض الذهانية | 精神病性障碍 | 1738 | 4.88% |
| قضايا وإرشادات نفسية عامة | 一般心理议题与指导 | 860 | 2.41% |
| مشاكل الطفل النفسية | 儿童心理问题 | 690 | 1.94% |
| قضايا نفسية وسلوكية أخرى | 其他心理与行为议题 | 262 | 0.73% |

### 2.4 二级诊断分布(Top 10)

| 二级层次化诊断 | 记录数量 |
|---|---|
| الحالات النفسية العصبية - المخاوف(恐惧类) | 8709 |
| الحالات النفسية العصبية - القلق والتوتر(焦虑与紧张) | 8610 |
| الحالات النفسية العصبية - الوساوس(强迫观念) | 4862 |
| الحالات النفسية العصبية - الاكتئاب(抑郁) | 2636 |
| الشخصية وتطوير الذات - تطوير الذات(自我发展) | 2306 |
| الحالات النفسية السلوكية - مشاكل النوم(睡眠问题) | 1805 |
| الحالات النفسية السلوكية - الحركات اللاإرادية(不自主动作) | 835 |
| الأمراض الذهانية - تشتت الذهن وعدم التركيز(注意力涣散) | 610 |
| الأمراض الذهانية - مشاكل الفصام والذهان(精神分裂相关) | 521 |
| قضايا وإرشادات نفسية عامة - العلاج السلوكي وأهميته(行为疗法) | 444 |

### 2.5 时间分布(按答复年份汇总,覆盖 2002—2024)

| 年份 | 记录数量 | 占比 | 累计占比 |
|---|---|---|---|
| 2002 | 139 | 0.34% | 0.34% |
| 2003 | 229 | 0.57% | 0.91% |
| 2004 | 510 | 1.26% | 2.17% |
| 2005 | 1038 | 2.56% | 4.73% |
| 2006 | 1486 | 3.67% | 8.41% |
| 2007 | 868 | 2.14% | 10.55% |
| 2008 | 992 | 2.45% | 13.00% |
| 2009 | 590 | 1.46% | 14.46% |
| 2010 | 345 | 0.85% | 15.31% |
| 2011 | 1801 | 4.45% | 19.76% |
| 2012 | 2664 | 6.58% | 26.35% |
| 2013 | 3568 | 8.82% | 35.16% |
| 2014 | 4171 | 10.31% | 45.47% |
| 2015 | 4103 | 10.14% | 55.61% |
| 2016 | 2131 | 5.27% | 60.87% |
| 2017 | 2884 | 7.13% | 68.00% |
| 2018 | 2675 | 6.61% | 74.61% |
| 2019 | 1882 | 4.65% | 79.26% |
| 2020 | 3575 | 8.83% | 88.09% |
| 2021 | 1208 | 2.99% | 91.08% |
| 2022 | 1698 | 4.20% | 95.28% |
| 2023 | 878 | 2.17% | 97.44% |
| 2024 | 1034 | 2.56% | 100.00% |

### 2.6 主要答复医生分布(Top 15)

数据集共包含 66 位具名医生与顾问,分布呈现明显的长尾结构,头部资深医生贡献了大部分高质量答复,便于在研究中进行风格一致性建模与作者归因分析。

| 排名 | 医生 / 顾问署名 | 记录数 | 占比 |
|---|---|---|---|
| 1 | د. محمد عبد العليم | 24933 | 61.61% |
| 2 | د. عبد العزيز أحمد عمر | 5511 | 13.62% |
| 3 | د. مأمون مبيض | 3229 | 7.98% |
| 4 | د. أحمد الفرجابي | 1042 | 2.57% |
| 5 | د. على أحمد التهامي | 1021 | 2.52% |
| 6 | د. عطية إبراهيم محمد | 783 | 1.93% |
| 7 | د. أحمد سعيد الفودعي | 426 | 1.05% |
| 8 | الشيخ / موافي عزب | 378 | 0.93% |
| 9 | د. عبد الرحمن جرار | 310 | 0.77% |
| 10 | د. محمد حمودة | 242 | 0.60% |
| 11 | أ. فيصل العشاري | 231 | 0.57% |
| 12 | د. أحمد المحمدي | 221 | 0.55% |
| 13 | د. حاتم محمد أحمد | 205 | 0.51% |
| 14 | د. عقيل المقطري | 204 | 0.50% |
| 15 | د/ العربي عطاء الله | 182 | 0.45% |

### 2.7 语言与文本规模

整个数据集语言为现代标准阿拉伯语(MSA)混合部分宗教、医学专业术语,使用 UTF-8 编码。问题平均长度约 906 个字符(约 150—200 词),答复平均长度约 2152 个字符(约 350—450 词),单条记录信息密度高,足以承载多轮上下文建模任务。

## 三、数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 完整原始问答文本 | 数据集完整保留了问题与答复的原始全文,未做摘要或截断,每条记录可独立还原为一次完整的咨询会话 | 可直接用于端到端对话生成、医患问答模型微调以及基于完整上下文的语义理解评测 |
| 大规模真实临床语料 | 全量 40469 条记录,覆盖 23 年时间跨度,由 66 位具名医生答复,规模在阿拉伯语心理领域处于领先位置 | 满足大模型预训练、指令微调与对齐阶段对真实领域语料的高数据量需求 |
| 高质量层次化标注 | 100% 字段完整率,每条记录附带细粒度多层 Hierarchical Diagnosis 标签 | 可直接用于多标签分类、症状抽取、诊断辅助决策模型的监督训练 |
| 多文件多视角组织 | 7 个 CSV 按主题拆分,1 个 JSON 提供 Specialties → 分类 → details 树形组织 | 既适配按类别加载的轻量任务,也适配整体目录化的全景任务 |
| 时间纵深与可追溯性 | 包含 2002—2024 年的连续日期与唯一咨询编号 | 支持时间序列分析、咨询主题演化研究、纵向语义漂移建模 |
| 题材丰富、临床覆盖广 | 覆盖焦虑、抑郁、强迫、恐惧、人格障碍、儿童心理、精神病性障碍等核心议题 | 支持心理子领域细分模型的训练以及面向特定病症的对话助手研发 |
| 低资源语种价值突出 | 阿拉伯语专业心理咨询语料长期稀缺,本数据集弥补关键缺口 | 助力跨语言迁移、低资源 NLP 研究以及面向阿语用户的本地化心理产品落地 |

## 四、数据样例

以下样例直接取自数据集的真实记录,已对超长正文进行了节选展示,原始数据中相应字段保留完整全文。样例覆盖了七个核心分类的代表性问答,并涵盖不同时期、不同医生署名与不同诊断标签,用以体现数据集在主题、风格与年份维度上的多样性。所有样例均为元数据 + 完整问答正文样例,原始文件中包含未经截断的全量文本。

样例 1 — 行为型心理状态(睡眠 / 白日梦) - Consultation Number: 2550657 - Date of Answer: 2024-10-15 - Doctor Name: د. محمد عبد العليم - Hierarchical Diagnosis: الحالات النفسية السلوكية - مشاكل النوم - أحلام اليقظة - Question Title: أتعبتني الخيالات الانفعالية، فما هو العلاج؟ - Question (节选): السلام عليكم ورحمة الله وبركاته، أعاني منذ سنوات من تخيل بعض المواقف في ذهني... - Answer (节选): بسم الله الرحمن الرحيم، الأخ الفاضل/ محمد حفظه الله. نرحب بك في إسلام ويب...样例 2 — 行为型心理状态(过度幻想) - Consultation Number: 2544364;Date: 2024-06-27;Doctor: د. مأمون مبيض - Hierarchical Diagnosis: الحالات النفسية السلوكية - مشاكل النوم - أحلام اليقظة - Title: أعيش في الخيال أكثر من الواقع، فكيف أتخلص من ذلك؟样例 3 — 儿童心理(学前选择咨询) - Consultation Number: 2545743;Date: 2024-07-24;Doctor: أ. فيصل العشاري - Hierarchical Diagnosis: مشاكل الطفل النفسية - أمور أخرى متعلقة بالصحة النفسية للطفل - Title: أحتاج لتوجيهكم بشأن الروضة التي تناسب ابنتي أكثر样例 4 — 儿童心理(如厕训练) - Consultation Number: 2546073;Date: 2024-07-21;Doctor: د. عطية إبراهيم محمد - Hierarchical Diagnosis: مشاكل الطفل النفسية - أمور أخرى متعلقة بالصحة النفسية للطفل - Title: كيف أعود طفلي على الذهاب إلى الحمام بنفسه؟样例 5 — 神经性心理状态(抑郁日间波动) - Consultation Number: 2551445;Date: 2024-11-17;Doctor: د. محمد عبد العليم - Hierarchical Diagnosis: الحالات النفسية العصبية - الاكتئاب - الاكتئاب عمومًا - Title: أشعر بالاكتئاب في الصباح وأتحسن في المغرب.. ما العلة؟样例 6 — 神经性心理状态(联合用药咨询) - Consultation Number: 2551317;Date: 2024-11-10;Doctor: د. مأمون مبيض - Hierarchical Diagnosis: الحالات النفسية العصبية - الاكتئاب - الاكتئاب عمومًا - Title: هل يمكن الجمع بين إنفرانيل وسيبرالكس لعلاج الاكتئاب والهلع؟样例 7 — 其他心理与行为议题(情绪与多动) - Consultation Number: 2496179;Date: 2022-11-15;Doctor: د. مأمون مبيض - Hierarchical Diagnosis: قضايا نفسية وسلوكية أخرى - عادات شاذة ومكتسبة - Title: أجد سعادتي في فرط الحركة أثناء سماع الأغاني والتخيل، ثم يعقبها اكتئاب样例 8 — 其他心理与行为议题(情绪管理) - Consultation Number: 2441034;Date: 2020-08-26;Doctor: د. محمد عبد العليم - Hierarchical Diagnosis: قضايا نفسية وسلوكية أخرى - عادات شاذة ومكتسبة - Title: العدوانية تجاه طفلي الرضيع، ما السبب والعلاج؟样例 9 — 人格与自我发展(自我接纳) - Consultation Number: 2551607;Date: 2024-11-23;Doctor: د. مأمون مبيض - Hierarchical Diagnosis: الشخصية وتطوير الذات - أخرى - Title: صرت أكره نفسي وأشعر بأني فاشلة نفسياً واجتماعياً.. أرشدوني样例 10 — 人格与自我发展(情感空虚) - Consultation Number: 2550849;Date: 2024-10-24;Doctor: د. مأمون مبيض - Hierarchical Diagnosis: الشخصية وتطوير الذات - أخرى - Title: أشعر بالحزن والفراغ وأجهل أسباب ذلك.. أفيدوني!样例 11 — 一般心理议题与指导(侵入式回忆) - Consultation Number: 2549369;Date: 2024-09-17;Doctor: د. محمد عبد العليم - Hierarchical Diagnosis: قضايا وإرشادات نفسية عامة - أخرى - Title: ذكرياتي المزعجة تداهمني عند الاستيقاظ وتفسد صباحي، فماذا أفعل؟样例 12 — 一般心理议题与指导(学习路径) - Consultation Number: 2547801;Date: 2024-08-25;Doctor: د. مأمون مبيض - Hierarchical Diagnosis: قضايا وإرشادات نفسية عامة - أخرى - Title: هل يمكن دراسة علم النفس عن طريق الكتب فقط؟样例 13 — 精神病性障碍(药物副作用) - Consultation Number: 2549762;Date: 2024-09-24;Doctor: د. محمد عبد العليم - Hierarchical Diagnosis: الأمراض الذهانية - أمور أخرى متعلقة بالأمراض الذهانية - Title: زميلي يشكو من أعراض الذهان الجانبية، فكيف يتخلص منها؟样例 14 — 精神病性障碍(生活意义感) - Consultation Number: 2547156;Date: 2024-08-07;Doctor: د. مأمون مبيض - Hierarchical Diagnosis: الأمراض الذهانية - أمور أخرى متعلقة بالأمراض الذهانية - Title: لا أشعر بالرضا عن حياتي ولا علاقتي بربي، فماذا أفعل؟样例 15 — JSON 总目录结构示意 JSON 文件根节点为 Specialties,其下按专科组织,每个专科再按细分类目划分,细分类目下的 details 列表中每个元素与 CSV 字段一一对应:
{
  "Specialties": {
    "الشخصية وتطوير الذات": {
      "تطوير الذات": {
        "details": [
          {
            "Question Title": "...",
            "Question": "...",
            "Answer": "...",
            "Doctor Name": "...",
            "Consultation Number": "...",
            "Date of Answer": "..."
          }
        ]
      }
    }
  }
}

## 五、应用场景

1. 阿拉伯语大模型领域微调与对齐训练 该数据集是阿拉伯语大模型在心理健康垂直领域进行指令微调(SFT)与基于人类偏好对齐(如 RLHF、DPO)的高价值语料来源。借助 40469 条由具备临床资质的医生撰写的完整答复,研究者可以构建涵盖问题改写、症状抽取、多轮共情对话、用药建议解释等多种指令模板,配合层次化诊断标签进行任务分层训练。完整的原始问答文本意味着模型可以学习到真实的医患对话语序、专业表达、宗教文化语用以及对求助者的礼貌性问候范式,从而提升生成结果的专业性、安全性与文化适配度。相较于以英语为主导的通用医疗数据集,本数据集为阿拉伯语本地化大模型提供了珍贵的领域知识源,有助于显著降低模型在阿拉伯语世界落地心理服务时的语言迁移损失,对中东、北非市场的本地化产品研发具有突出价值。2. 心理健康问答与对话系统研发 基于完整的问答正文与诊断标签,研究团队与产业开发者可以构建面向阿语用户的智能心理咨询助手、症状自评机器人或筛查辅助工具。完整文本支持检索增强生成(RAG)的语料库建设:将 4 万条专业问答切片入库后,系统能够在用户提问时检索最相关的历史案例,结合大模型生成个性化回复并附带可追溯的医生原话证据,提升答复的可信度与可解释性。Hierarchical Diagnosis 字段则可作为槽位(slot)用于对话状态跟踪和意图识别,帮助系统准确判断用户的潜在问题类别,并基于不同分类调用不同的应答策略,从而在保证体验自然的同时降低敏感场景下的内容风险。3. 心理健康分类与症状抽取模型训练 全量记录 100% 携带层次化诊断标签,提供了天然的多标签、多层级监督信号,非常适合训练阿拉伯语心理疾病分类器、症状识别器与命名实体抽取模型。研究者可以利用顶层 7 大类构建粗分类模型,再基于二级、三级标签训练细分类与症状抽取联合模型;也可以将整段 Question 文本作为输入,预测 Hierarchical Diagnosis 的多层结构,验证模型对长文本的层次化理解能力。结合具名医生信息,还能开展作者风格识别、专业度评估等附加任务。这类模型在阿拉伯语心理热线分流、社区帖子自动审核、心理求助风险预警等下游产品中具有直接的工程价值。4. 跨语言迁移与多语种心理学研究 阿拉伯语是低资源到中等资源语种的代表,本数据集为跨语言 NLP 研究提供了高质量的对照语料。研究者可以通过对齐英、中、阿三语种的心理咨询数据,分析不同语言文化背景下情绪表达、症状描述与求助语用的差异,揭示文化对心理表达模式的影响;也可以基于本数据集开展零样本 / 少样本跨语言迁移评测,验证多语种预训练模型在阿拉伯语心理领域的泛化能力。完整的原始文本是开展上述对比研究的基础,缺少原文将使语料学、跨文化心理学等学科研究难以推进。5. 临床知识图谱与决策辅助构建 丰富的诊断层次结构、医生署名信息与连续 23 年的时间字段,使得本数据集天然适合构建阿拉伯语心理健康知识图谱:以症状、诊断、药物(如 Lustral、Lamictal、Risperidone 等在样例中频繁出现的药品名)为节点,以"症状—诊断"、"诊断—疗法"、"药物—副作用"为关系,可以从全量答复中以信息抽取技术构建大规模图谱。该图谱进一步可用于辅助决策系统、症状自查工具、用药知识检索引擎,为基层医生与一线心理咨询师提供参考依据,提升阿语地区心理健康服务的可及性与同质化水平。6. 心理趋势分析与社会舆情研究 连续 23 年的纵向数据为社会心理趋势研究提供了独特视角。研究者可以基于年份分布、主题词频与诊断比例的演化,分析阿拉伯语世界在不同年代关注的心理议题变迁,例如疫情、社交媒体、家庭结构变化等外部因素如何影响人们的心理求助主题。例如数据集中 2014—2015、2020 等年份记录数显著增加,可作为社会事件影响心理状态的研究起点。这类研究对公共卫生政策制定、心理健康教育资源配置以及社会工作的精细化运营都具有重要的参考价值。7. 教育培训与学术研究素材 对于阿拉伯语世界的心理咨询培训与学术教学而言,4 万余条由资深医生撰写的真实问答是稀缺的教学素材。教师可以选择典型案例用于教学讲解,研究生可以从中选取语料进行话语分析、咨询技巧研究和临床决策推理研究。完整的原始问答内容确保了学习者能够看到一个真实问题如何被专业人员解构、回应、引导,这一点是任何二次摘要语料都难以替代的。

## 六、结语

Shifaa 阿拉伯语心理健康咨询问答数据集以 40469 条完整原始问答七大心理疾病主题分类百分之百的字段完整率长达 23 年的时间纵深以及多层级诊断标签,为阿拉伯语自然语言处理、智能心理咨询与跨语言心理学研究提供了一份系统、可靠、可直接落地使用的高质量语料。完整保留的问题与答复原文,是该数据集相较其他衍生整理数据最核心的优势,确保了下游任务无论是大模型微调、检索增强问答、知识图谱构建,还是社会心理趋势研究,都能拥有可追溯、可解释、可复现的真实文本基础。

该数据集在使用过程中建议遵循基础的数据合规与伦理要求:尊重原始平台与医生的著作权,仅用于学术研究、模型训练与非商业产品验证;在公开发布衍生模型或下游产品前,对涉及个人身份的细节进行二次脱敏;并在面向真实用户的应用中明确告知其辅助性质,不得替代真实的临床诊断与专业咨询。如需进一步了解数据细节、扩展子集或获取定制化加工版本,欢迎通过私信沟通获取更多信息。

看了又看

数据加载中

验证报告

以下为卖家选择提供的数据验证报告:

data icon
Shifaa阿拉伯语心理健康咨询问答数据集_40469条医患问答_7大心理疾病分类_2002-2024年完整原始记录_NLP医疗对话训练与跨语言心理研究优质资源
15.9
已售 0
945.76MB
申请报告