大模型数据集查看全部

高质量票据识别数据集

高质量票据识别数据集:1000张收据图像+2141个商品标注,支持OCR模型训练与文档理解研究

方言版语音识别

方言版语音识别模型,无缝识别多语言,抗噪音能力强。

天津话男性语音语料库

200 个天津方言的带注释男声句子

英文文本海报

1100张图多场景英文图片

COIG-CQIA

开源的高质量指令微调数据集

南昌方言对话语音语料库

4 小时关于某些主题的转录南昌方言对话演讲

英文文本

10407张英文文本图片数据集

天津方言会话语音语料库

包括 7 小时关于某些主题的转录天津方言对话演讲

心理健康-R1蒸馏中文数据集-10k

包含 10,000 条高质量样本,适用于心理学领域的自然语言处理任务,如心理咨询、情感分析、多轮对话等。

长沙方言会话语音语料库

包含 4.1 小时关于某些主题的转录长沙方言对话

国家标准《网络安全技术 生成式人工智能服务安全基本要求》基准测试集

包含2000+高质量测试问题数据

CValues-Comparison 中文大模型价值观比较数据集

包含145k的价值观比较样本数据集,每个样本包含(prompt,正例回复、负例回复)。

微信公众号原创文章数据集

涵盖科技财经教育娱乐美食旅游等多领域,支持内容推荐、舆情分析、情感识别与大模型训练。

影视资源大数据训练合集

40GB样例数据

中文粤语(广州)语音语料库

包括 5 小时在车内转录的广州粤语脚本语音。

深度学习数据集查看全部

电子邮件分类数据集

包含 10,000 条真实邮件样本,其中垃圾邮件(spam)约 1,500 条,正常邮件(ham)约 8,500 条。

高可用性 AmesHousing_engineered 数据集

含原始与工程变量,适配线性回归。

2025 年数据科学就业市场数据

2025 年数据科学就业市场全景:从薪资洞察到职业决策的数据解码。

皇家马德里与利物浦 2018 欧冠决赛期间推文数据集

1.95GB!皇家马德里与利物浦 2018 欧冠决赛期间推文数据集,多维度分析体育赛事舆论与传播。

Spotify 音乐 ML 练习数据集

包含音乐流行度(0-100 分)、音频特征(可舞性、能量、响度等)、结构特征、114 个流派哑变量(is_genre_前缀)、自定义指标(如 loudness_intensity、mood_pca)、聚类目标(mood_cluster 等)及艺术家 / 专辑相关统计量。

50K 条多企业多区域支持工单优先级数据集

含数值与分类特征,适配梯度提升等监督学习

棋盘游戏数据集

数据赋能桌游生态:棋盘游戏数据集的商业与研究价值再探。

任天堂 E3 2018 大会期间推文数据集

518.23MB 任天堂 E3 2018 大会期间推文数据集,适用于多领域分析,全面洞察游戏舆论。

700+ JOBs AI & Data Fields 数据

人工智能与数据领域职位数据集。

高质量均衡化垃圾图像数据集

涵盖塑料、金属、玻璃、纸板、纸张、杂项垃圾6类标准化RGB图像。

初创公司单线推介数据集

2025 年初创公司单线推介数据集:解码全球创业生态的价值密码

建筑工地安全图像数据集

764 张图像!建筑工地安全图像数据集,助力多类分类与目标检测,初学者友好

人员检测数据集

包含源自真实世界的图像,图像中的每个人都以 YOLO 格式边界框进行标注。

2025 全球城市城市内涝风险数据集

覆盖 58 城 2900 + 监测点,含地理 / 水文 / 排水特征。

健康健身追踪数据集

1000 位用户 365 天健康健身追踪数据集:健康行为洞察与个性化干预的核心工具。

外贸数据推荐

中国企业出海印度市场贸易发展白皮书

中国企业出海印度市场贸易发展白皮书

本白皮书对印度的宏观经济格局、支柱产业现状、交通运输体系等方面进行了细致剖析,同时聚焦最新贸易数据,深度挖掘贸易趋势。

中国企业出海越南市场贸易发展白皮书

中国企业出海越南市场贸易发展白皮书

本白皮书对越南的宏观经济格局、支柱产业现状、交通运输体系等方面进行了细致剖析,同时聚焦最新贸易数据,深度挖掘贸易趋势。

中国企业出海土耳其市场贸易发展白皮书

中国企业出海土耳其市场贸易发展白皮书

通过整合市场数据、政策解析、风险提示与机遇洞察,为不同主体提供了从战略决策到落地执行的全流程参考。

中国企业出海泰国市场贸易发展白皮书

中国企业出海泰国市场贸易发展白皮书

对中国企业、政府部门和行业协会等均具有重要用途,能助力企业了解市场、制定策略,为政府和协会提供决策参考与服务支撑等。

中国企业出海墨西哥市场贸易发展白皮书

中国企业出海墨西哥市场贸易发展白皮书

为中国企业提供全面的墨西哥市场开发指南,从墨西哥的经济概况、交通运输到双边贸易趋势,全方位解析墨西哥市场的潜力与挑战。

模型样例数据查看全部

大学本科及研究生金融专业题库数据集

109157条高质量中文金融教育题库数据,涵盖银行证券保险投资理财等全领域。

大学本科及研究生职业专业题库数据集

112031条高质量中文职业教育题库数据,涵盖铁路交通市场营销会计管理等全领域

搜狐新闻全量数据集--样例数据

9.7亿条搜狐新闻平台上的帖子

微博1380亿全量数据--样例数据

情感分析模型训练必备

论文数据集样例

1.2亿篇研究论文合集

中文方言语音数据--样例数据

通用类男女声方言语音数据

多语种语音数据--样例数据

成品小语种语音数据

多类型原始视频素材数据集--样例数据

涵盖了多种主题类型

多领域精选高清图像集--样例数据

300万张多领域精选图片

汉语普通话--样例数据

大模型语音识别、语音合成

网易号3.59亿全量数据-样例数据

用于舆情分析

腾讯网4.4亿全量数据-样例数据

舆情分析训练素材

10万条小红书笔记数据集

10万条小红书笔记数据集(含标题、正文、标签、互动量、图片等),可用于NLP、推荐算法、大模型训练、爆款文章生成、精准营销与市场分析

Youtube影视数据集-样例数据

视频模型训练必备

乳腺X光片数据集

包含1000张临床乳腺X光影像,用于乳腺癌检测、无监督域适应研究。

外贸必读报告查看全部

中国电动自行车及三轮车东南亚市场出口分析白皮书

含东南亚三国电动白行车TOP50采购商名单

中国充电桩及储能设备出口分析及各国进口政策影响白皮书

含重点国家充电基础设施TOP50采购商

中国半导体照明及应用领域出口统计及市场发展趋势分析白皮书

涵盖传统照明、新兴技术及细分领域。

中国半导体行业出口分析及各国进口政策影响白皮书

旨在系统性剖析中国半导体产业的全球出口格局、核心驱动因素及国际政策环境的深层影响。

印度尼西亚市场贸易发展中企出海系列白皮书

聚焦中国企业在印尼市场的贸易机遇、政策环境及本土化实践进行分析。

写给外贸人的展会营销指南

关于外贸的会展营销方法。

全球化妆品市场概况及中国化妆品出口情况分析白皮书

含不同类型化妆品TOP50采购商

2024年外贸企业营销数字化发展分析报告

适用范围覆盖全行业外贸企业。

非美市场贸易开发指南

适合希望摆脱对美国市场依赖、布局全球多元化市场的中企。

2024年中国出口百大产品及贸易伙伴排名统计数据

适用于机电与电子行业,机械设备与交通运输行业,传统劳动密集型行业,高新技术行业,新能源行业等。

中国企业出海印度市场贸易发展白皮书

可为中国企业开拓印度市场提供全面指导意见。

中国企业出海越南市场贸易发展白皮书

能为中国企业提供市场分析、政策指导、风险预警等。

中国企业出海土耳其市场贸易发展白皮书

帮助企业了解市场环境、把握贸易政策、规划市场策略等。

中国企业出海泰国市场贸易发展白皮书

用于中国企业进入泰国市场做决策提供依据

中国企业出海墨西哥市场贸易发展白皮书

墨西哥市场开发指南,助力企业了解墨西哥商业环境,规避潜在风险。

医疗数据API

中国临床试验 主要临床机构信息

中国临床试验 主要临床机构信息

本库完整整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息,涵盖试验设计、招募详情、研究者信息、试验药物、适应症、研发阶段、试验状态及结果摘要等核心内容。每日动态更新,数据总量逾14万条。

中国药品审评基础信息

中国药品审评基础信息

本数据库深度整合国家药品监督管理局及药品审评中心等国内权威监管部门的官方数据源。内容包括药审中心公开发布的药品受理编号及其实时办理状态,全面覆盖国内新药注册申报、各类补充申请、进口药品注册及进口再注册等关键申报情形。

中国药品审评被仿制药相关信息

中国药品审评被仿制药相关信息

本数据库核心收录内容包括药审中心公开发布的药品受理编号及其实时办理状态,全面覆盖国内新药注册申报、各类补充申请、进口药品注册及进口再注册等关键申报情形,本接口为仿制药相关信息查询的接口。

中国药品评审 专利声明信息

中国药品评审 专利声明信息

本数据库核心收录内容包括药审中心公开发布的药品受理编号及其实时办理状态,全面覆盖国内新药注册申报、各类补充申请、进口药品注册及进口再注册等关键申报情形,本接口为专利声明信息查询接口。

中国临床 试验基础信息

中国临床 试验基础信息

本库完整整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息,涵盖试验设计、招募详情、研究者信息、试验药物、适应症、研发阶段、试验状态及结果摘要等核心内容。每日动态更新,数据总量逾14万条。

医疗健康API查看全部

全球临床试验 中国临床试验 结果摘要

整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息。

全球临床试验 中国临床试验 伦理委员会信息

本库完整整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息。

中国临床试验 参与临床机构信息

本库完整整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息。

中国临床试验 主要临床机构信息

本库完整整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息。

中国临床试验 试验信息

本库完整整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息。

中国临床试验 申办单位信息

本库完整整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息。

中国临床试验 临床时间轴

本库完整整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息。

中国临床 试验基础信息

本库完整整合药品审评中心(CDE)、中国临床试验注册中心及国际传统医学临床试验注册平台(ICTMP)三大官方平台登记的全部临床试验信息。

中国药品评审 专利声明信息

收录内容包括药审中心公开发布的药品受理编号及其实时办理状态,全面覆盖国内新药注册申报、各类补充申请、进口药品注册及进口再注册等关键申报情形。

中国药品审评被仿制药相关信息

本数据库深度整合国家药品监督管理局(NMPA)及药品审评中心(CDE)等国内权威监管部门的官方数据源。 核心收录内容包括药审中心公开发布的药品受理编号及其实时办理状态,全面覆盖国内新药注册申报、各类补充申请、进口药品注册及进口再注册等关键申报情形。

中国药品评审 审评概况

包括药审中心公开发布的药品受理编号及其实时办理状态,全面覆盖国内新药注册申报、各类补充申请、进口药品注册及进口再注册等关键申报情形。

中国药品审评基础信息

本数据库深度整合国家药品监督管理局(NMPA)及药品审评中心(CDE)等国内权威监管部门的官方数据源。 核心收录内容包括药审中心公开发布的药品受理编号及其实时办理状态,全面覆盖国内新药注册申报、各类补充申请、进口药品注册及进口再注册等关键申报情形。

高分数据集

大学本科及研究生职业专业题库数据集

大学本科及研究生职业专业题库数据集

112031条高质量中文职业教育题库数据。

大学本科及研究生金融专业题库数据集

大学本科及研究生金融专业题库数据集

109157条高质量中文金融教育题库数据。

4872 对 H&E-IHC 结构级对齐图像乳腺癌数据集

4872 对 H&E-IHC 结构级对齐图像乳腺癌数据集

4872 对 H&E-IHC 结构级对齐图像 BCI 数据集(北京朝阳医院 + 首医合作)elastix 注册 + 6 步标准化构建乳腺癌 IHC 染色图像生成。

569 样本 + 30FNA 特征 乳腺肿瘤良恶性诊断数据集

569 样本 + 30FNA 特征 乳腺肿瘤良恶性诊断数据集

包含 569 个 FNA 样本的 30 个细胞核量化特征,目标变量明确,且配套标准化、标签编码等完整预处理方案,支持线性回归预测与 K-means 聚类等多类任务。

647 张乳腺超声图像数据集

647 张乳腺超声图像数据集

包含 647 张高质量乳腺超声图像,明确划分 437 张良性、210 张恶性,为研究者提供 “临床适配、类别明确、规模适中” 的超声图像数据,支撑乳腺癌超声检测 AI 模型的开发。

API接口

企业基本信息

企业基本信息

查询企业的基本信息,包括工商基本信息、行业分类、所在地区等信息。

动产抵押

动产抵押

查询企业的动产抵押信息,包括动产抵押基本信息、抵押物、抵押人及变更等信息。

欠税公告

欠税公告

查询企业欠税公告信息,欠税公告信息包括纳税人信息、欠税税种、欠税金额等字段信息。

软件著作权

软件著作权

查询企业的软件著作权信息,包括登记号、名称、版本号、登记时间等信息。

经营异常

经营异常

查询企业的经营异常信息,包括列入、移除原因及日期、操作部门等信息。

实用项目源码查看全部

自动修复错误命令行

代码修复工具

命令行版本网易云音乐

程序员使用的终端版网易云!

OCRmyPDF(一个强大的pdf转写文字的工具)

可以将pdf中不清晰的,年代久远的,精准定位转换成文字。包含项目源码以及使用说明,部署教程。

AI自动P图工具

AI自动P图工具,源码项目。

FPS游戏物理准星

准星源码,包含使用教程,可解决fps游戏中狙没有准星的缺陷。

会写作文的人工智能

包含项目源码,详细步骤,教您部署一个会写作文的人工智能

genact

显示一些多任务场景,让看到你电脑屏幕的人都误以为你在 Coding。

视频去马赛克

视频去马赛克以及视频超分辨率的项目源码。

合成大西瓜

项目源码合成大西瓜,包含开发全流程。

实时语音克隆源码项目

5秒即可克隆出您想要的声音!

IDEA 久坐提醒插件

避免长时间写代码造成的身体上的伤害而开发的项目,每40分钟进行一次提醒休息。

线描图画上色工具

图像自动处理,AI工具源码。

图片转换工具

一张图片,只要改变后缀名就变成了一首歌等格式,可用于加密。

去除纹身工具

可无痕去除纹身或者加纹身,此为项目源码,包含使用教程,可部署在本地。

图像清晰化工具(用于人脸清晰化)

图像清晰化项目源码,附使用说明。