巴拉数

谷歌 Word2Vec

Word2vec单词嵌入Google数据集

￥5,000

1.64GB

数据标识：D17135041059638624

发布时间：2024/04/19

谷歌 Word2Vec

预训练的词到向量模型

关于数据集

Word2vec是一种特定的单词嵌入技术，它使用神经网络模型从相当大的文本语料库中学习单词关联。经过训练，模型可以检测相似的单词并推荐单词来完成部分句子。顾名思义，word2vec 将每个不同的单词映射到一个向量，该向量的分配方式是通过对单词映射到的向量进行简单的数学运算来指示单词之间的语义相似度级别（例如，向量之间的余弦相似度）。

该数据集包括在 Google 新闻数据集（包含约 1000 亿个单词）的一部分上训练的预训练向量。该模型包含约 300 万个单词和短语的 300 维向量。这些短语是使用本文讨论的简单的数据驱动方法获得的。可以使用gensim库加载它。

来源： https://code.google.com/archive/p/word2vec/

最初发布模型的许可证： Apache License 2.0

看了又看

验证报告

当前版本暂不支持对此种交付方式或数据格式开展数据质量验证，相关校验能力将在后续版本上线，敬请期待。

谷歌 Word2Vec

￥5,000

1.64GB

申请报告

谷歌 Word2Vec

谷歌 Word2Vec

关于数据集

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群