相似度计算之(二)

2024-06-29 05:14:20| 来源: 网络整理| 查看: 265

将数据看成空间中的点时，评价远近可以用欧式距离或余弦距离一般可用于文本间的相似度计算，但也不是绝对的余弦距离计算步骤：在这里插入图片描述以余弦距离计算文本相似度为例，具体说明其计算过程：余弦相似度算法：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。第一步，分词句子A：这只/皮靴/号码/大了。那只/号码/合适。句子B：这只/皮靴/号码/不/小，那只/更/合适。第二步，列出所有的词这只，皮靴，号码，大了。那只，合适，不，小，很第三步，计算词频句子A：这只1，皮靴1，号码2，大了1。那只1，合适1，不0，小0，更0 句子B：这只1，皮靴1，号码1，大了0。那只1，合适1，不1，小1，更1 第四步，写出词频向量　　句子A：(1，1，2，1，1，1，0，0，0) 　　句子B：(1，1，1，0，1，1，1，1，1) 到这里，问题就变成了如何计算这两个向量的相似程度。我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, …]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合,这是表示两个向量代表的文本完全相等；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。在这里插入图片描述计算两个句子向量句子A：(1，1，2，1，1，1，0，0，0) 和句子B：(1，1，1，0，1，1，1，1，1)的向量余弦值来确定两个句子的相似度。计算过程如下：计算结果中夹角的余弦值为0.81非常接近于1，所以，上面的句子A和句子B是基本相似的由此，我们就得到了文本相似度计算的处理流程是: （1）找出两篇文章的关键词；　（2）每篇文章各取出若干个关键词，合并成一个集合，计算每篇文章对于这个集合中的词的词频　（3）生成两篇文章各自的词频向量；　（4）计算两个向量的余弦相似度，值越大就表示越相似参考博客： http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html https://blog.csdn.net/Jameslvt/article/details/81171972

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

相似度计算之(二)

相似度计算之(二)

今日新闻

点击排行

推荐新闻

图片新闻

专题文章