微博大数据集:1380亿条中文社交媒体数据助力AI研究与商业应用
微博大数据集:1380亿条中文社交媒体数据助力AI研究与商业应用
1.2 亿篇论文数据集,多学科学术语料库,涵盖医学、化学、生物学、人文、物理、工程、数学、生态、经济与计算机科学,用于 NLP、知识图谱与大模型训练
本文介绍三万小时院线级电影多模态数据集,专为视频大模型训练设计,涵盖完整视频、音频和字幕资源,适用于文生视频生成、影视剪辑和语义检索。
研究生化学英文题库数据集包含300万条LaTeX格式资源,覆盖有机化学、物理化学等分支,为智能教育系统和LLM训练提供高质量数据支持。