巴拉数

谷歌 Word2Vec

Word2vec单词嵌入Google数据集

5,000

已售 0
1.64GB

数据标识:D17135041059638624

发布时间:2024/04/19

卖家暂未授权典枢平台对该文件进行数据验证,您可以向卖家

申请验证报告

数据描述

谷歌 Word2Vec

预训练的词到向量模型

关于数据集

Word2vec是一种特定的单词嵌入技术,它使用神经网络模型从相当大的文本语料库中学习单词关联。经过训练,模型可以检测相似的单词并推荐单词来完成部分句子。顾名思义,word2vec 将每个不同的单词映射到一个向量,该向量的分配方式是通过对单词映射到的向量进行简单的数学运算来指示单词之间的语义相似度级别(例如,向量之间的余弦相似度)。

该数据集包括在 Google 新闻数据集(包含约 1000 亿个单词)的一部分上训练的预训练向量。该模型包含约 300 万个单词和短语的 300 维向量。这些短语是使用本文讨论的简单的数据驱动方法获得的。可以使用gensim库加载它。

来源: https://code.google.com/archive/p/word2vec/

最初发布模型的许可证: Apache License 2.0

data icon
谷歌 Word2Vec
5,000
已售 0
1.64GB
申请报告