`

30天了解30种技术系列(17)---词关系分析神器Word2vec

阅读更多

   

   我本人是自然语言处理的从业者,同时也是非常非常热爱自然语言处理技术。所以分享一个我平常使用的工具-Word2vec.

 

  Word2vec 是由Google开源,基于deep-learning 技术可以将单词转换成向量形式的工具。然后通过向量空间技术计算词的相似度。但是需要注意的是该模型其实更是一个神经网络模型,所以离这个Deep Learning 稍微差一些。

 

  word2vec的官方地址:https://code.google.com/p/word2vec/,下载好代码后进行编译即可。

 

  如果是中文,需要先找一个分词工具对词进行分词,可以用jieba(这个。。),阿里,ANSJ

  通过以下方式可以对结果集,进行处理

  

nohup ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1 &

##相似此计算
/distance vectors.bin

 

 

  以下使用81万条样本处理过后,得到的结果,从结果可以看出,屏幕的近似词为显示屏,电脑屏幕,还是相当的精准的。

   

 

  有了这个以后,咱们就可以构建词的关系网络,如android 有关系的词,在海量文本数据里面是一种非常有效的前期数据处理工具。

 

 大家如果对于哪个技术比较感兴趣,可以私信,我会有重点的在后续文章进行展开。

 

 更多精彩请关注微信 : 图灵搜索

 大家也可以使用中国第一个为程序员打造的搜索引擎:https://www.tulingss.com 进行查看。

  

 

  • 大小: 4.4 KB
3
2
分享到:
评论

相关推荐

    word2vec-google-news-300.zip.006

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec.rar_VEC-361_layers5cb_vec361_word2vec_word2vec 中文

    word2vec的实现源码,并加上中文注解!

    word2vec-google-news-300.zip.010

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec-google-news-300.zip.002

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec-google-news-300.zip.003

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec-master

    word2vec-master 词向量

    论文研究-word2vec-ACV:OOV语境含义的词向量生成模型.pdf

    为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和...

    word2vec-google-news-300.zip.009

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    基于gensim-word2vec+svm文本情感分析.完整代码数据可直接运行

    gensim-word2vec+svm评论情感分析

    word2vec-google-news-300.zip.004

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    word2vec-google-news-300.zip.001

    Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将...

    vecodo-luajava-master_iphone_VEC-466友人_

    OSCHINA 的 iPhone 客户端源码,可直接在 App Store上搜索“开源中国”来安装此app

    word2vec-数学原理

    word2vec中的数学原理详解...学原理详解...原理详解...理详解...详解...解

    根据word2vec词向量进行文本相似度分析

    根据已经训练好的word2vec词向量,对于文本相似度进行相关分析

    tensorflow-word2vec.zip

    关于tensorflow-word2vec问题的代码详细描述,结合相关的项目进行讲解,有助于快速学习,并深入了解word2vec算法

    Word2vec-OpenSourceReading-master.zip

    zhiyong大侠针对word2vec c版本代码所做的源码分析,非常细致,强烈推荐。 如果能够结合其博客阅读,更加理想。

    Python-word2vec使用word2vec改进搜索结果

    word2vec:使用word2vec改进搜索结果

    word2vec系列资料

    仅用于资料备份,便与查阅。 word2vec 中的数学原理详解.pdf Word2Vec-语言模型的前世今生PDF word2vec Parameter Learning Explained.pdf

    ( 12-word2vec.pdf )

    ( 12-word2vec.pdf )精简ppt( 12-word2vec.pdf )精简ppt

    word2vec词向量训练及中文文本相似度计算 【源码+语料】

    该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算 http://blog.csdn.net/eastmount/article/details/50637476 其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动...

Global site tag (gtag.js) - Google Analytics