自然语言处理=======python利用word2vec实现计算词语相似度【gensim实现】

您所在的位置:网站首页 必须的相近词语是什么 自然语言处理=======python利用word2vec实现计算词语相似度【gensim实现】

自然语言处理=======python利用word2vec实现计算词语相似度【gensim实现】

2024-07-13 22:59:51| 来源: 网络整理| 查看: 265

💥实验目的

🚀1、要利用已训练过的词向量模型进行词语相似度计算,实验中采用的词向量模型已事先通过训练获取的。 🚀2、于数据采用的是 2020 年特殊年份的数据,“疫情”是主要 话题。 🚀3、在计算词语之间的相似度时,采用的词语与“疫情”相关

💥实验内容

🚀1、加载已训练的词向量模型,直接调用 models.word2vec.Word2Vec.load 加载模型 wiki.model。 🚀2、计算多种形式的词语相似度 🚀3、model 计算不同方法下的词语相似度

**

💥实验步骤

** 🚀1、加载模型,获得某个词的词向量 代码:

# TODO 鸟欲高飞,必先展翅 # TODO 向前的人 :Jhon import warnings warnings.filterwarnings('ignore') from gensim import models model = models.word2vec.Word2Vec.load('wiki.model') # TODO 步骤2.1 todo:获取某个词对应的词向量,了解词向量 word = '疫情' #注意:词库里面要有这个词,否则会报错 vector = model.wv[word] #获取单词的词向量 print('{}的词向量为:\n{}'.format(word,vector)) # print(vector.shape()) print(len(vector)) print("-"*66)

截图: 在这里插入图片描述 由上面的代码我们可以得出和疫情相关的100个词的相似度。我们可以发现有的相似度大于80%,但有的却是负相关。Ok,下面我们来使用wv.similarity计算两个词语的余弦相似度

🚀2、计算两个词语之间的相似度

# TODO 鸟欲高飞,必先展翅 # TODO 向前的人 :Jhon import warnings warnings.filterwarnings('ignore') from gensim import models model = models.word2vec.Word2Vec.load('wiki.model') # TODO 步骤2.1 todo:获取某个词对应的词向量,了解词向量 word = '疫情' #注意:词库里面要有这个词,否则会报错 vector = model.wv[word] #获取单词的词向量 print('{}的词向量为:\n{}'.format(word,vector)) print(len(vector)) print("-"*66) # TODO 步骤2.2 todo:使用wv.similarity计算两个词语的余弦相似度 word1 = '疫情' word2 = '新冠' distance = model.wv.similarity(word1,word2) print('%s与%s的相似度为:%.4f'%(word1,word2,distance))

截图: 在这里插入图片描述 可以得出疫情与新冠的相似度为:0.8392这个结论。所以当出现疫情的时候我们就会不加思考的想到新冠。

🚀3、使用wv.n_similarity计算两个list之间的相似度

代码: import warnings warnings.filterwarnings('ignore') from gensim import models model = models.word2vec.Word2Vec.load('wiki.model') # TODO 步骤2.3 使用wv.n_similarity计算两个list之间的相似度,返回单个值 # TODO 可以考察两个句子(先进行分词)之间的相似度 words_list1 = ['电脑', '现在', '不贵'] words_list2 = ['计算机', '便宜'] list_distant=model.wv.n_similarity(words_list1,words_list2) print("%s与%s相似度为:%.4f" % (words_list1, words_list2, list_distant))

截图: 在这里插入图片描述

由上面的model模型中的wv.n_similarity计算两个list之间的相似度,[‘电脑’, ‘现在’, ‘不贵’]和[‘计算机’, ‘便宜’]之间的相似度为0.8281,很高的相似度了,与实际相符。

🚀4、计算与一个词语最相似的前topn个词语

代码:

# TODO 步骤2.4 是同wv.most_similar 计算与某个词语最相似的词语 # 步骤2.4.1 使用要搜索的词和topn参数,计算与一个词语最相似的前topn个词语 top_n=8 word="疫情" model_word=model.wv.most_similar(word,topn=top_n) print('\n文本字典中与\"{}\"最相似的前{}个词语依次是'.format(word,top_n)) print([{"词语":item[0],"相似度":"%.5f"%item[1]} for item in model.wv.most_similar(word,topn=top_n)])

截图: 在这里插入图片描述

我们可以发现和疫情最相似的词语是冠状病毒。其次是病疫情,这应该是jieba分词的错误,第三个是新冠,和实际相符。

🚀5、计算其他形式的词语相似度

~👀5.1、最相似的五个词

代码:

list_1 = ['中国', '华盛顿'] list_2 = ['北京'] topn = 5 model_word =model.wv.most_similar(positive=list_1,negative=list_2,topn=topn) print('\n与\"{}---{}+{}\"最相似的前5个词语为'.format(list_1[0],list_2[0],list_1[1],topn)) for item in model_word: print(item[0],'%.4f'%item[1])

截图: 在这里插入图片描述

我们可以发现还是挺准的,说明这个模型还是挺成功的。达到预期效果。

~👀5.2、wv.doesnt_match 找出列表中不属于同一类的词语**

代码:

word_list=['北京','上海','广州','纽约'] Not_need_country=model.wv.doesnt_match(word_list) print(r'{}中不属于同一类的词语为:{}'.format(word_list,Not_need_country))

截图: 在这里插入图片描述

我们可以发现模型中的wv的doesn’t_match方法找到列表国家中不是同一类的国家。

💥实验小结

我们计算其他形式的词语相似度,主要应用 model 的 most_similar 和 doesnt_match 方法来完成它。利用维基百科训练出来的模型效果还是比较理想的,可以计算出多种形式下的词语相似度。由于已训练的词向量模型采用的是 2020 年 8 月 5 日中文维基百科数据语 料,2020 年是较为的特殊年份,“疫情”是主要话题,因此在计算“疫情” 与“新冠”之间的相似度,其值约为 0.839;与疫情最相似的 8 个词语中 均符合认知但是“电脑 现在 不贵”与“计算机 便宜”的相似度为 0.8281,按照认知, 这两句话的相似度应该能达到 0.9 以上。综上可得模型结果依赖于模型采用的语料库通用性较差,而且计算相似度的词语必须都存在模型训练前的训练数据中,不然会出现所计算相似的的词语不存在模型中之类的报错。所以,这个模型还有缺陷,但是这是固性问题,毕竟就是我们要判断两者有没有关系,也要通过大脑接受一些文本信息进行判断,只不过这个过程你们忽视而已。

有问题可以评论区打出来,或者私聊也可以的

觉得有用的可以给个三连,关注一波!!!带你了解更多的自然语言处理小知识



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭