csdn博客推荐系统实战 您所在的位置:网站首页 jaccard相似度与汉明距离那种方法更类似于 csdn博客推荐系统实战

csdn博客推荐系统实战

2024-07-18 07:57| 来源: 网络整理| 查看: 265

上一篇说了simhash,本质是降维,计算量会大幅降低。simhash可以用来去复,也可以用来计算相似度,今天要说的minhash和simhash很相似,可用于去重和计算相似度,主要也是降维的路思。

就是simhash和汉明距离配套一样,和minhash配套的是Jaccard距离。

minhash是LSH(局部敏感哈希)的一种,快速检索大量数据。

特征矩阵

特征矩阵是推荐系统必须要做的事,不管是用户-用户,用户-物品,物品-物品,词-文章,主题-文章,都要用到特征矩阵。minhash就是在特征矩阵上下功夫降维。

以词-文章特征矩阵为例,一列就对应一个集合,所有的行加起来就是所有集合元素的全集,如果集合中有那个元素,则矩阵中的对应位置为1,否则为0。

假设现在有4个集合,分别为S1,S2,S3,S4;其中,S1={a,d}, S2={c}, S3={b,d,e}, S4={a,c,d},所以全集U={a,b,c,d,e}

那么这4个集合的特征矩阵为:

构建集合的特征矩阵是为了计算集合的最小哈希。

最小哈希

为了计算最小哈希,首先对特征矩阵的行进行打乱(也即随机调换行与行之间的位置),这个打乱是随机的。然后某一列的最小哈希值就等于打乱后的这一列第一个值为1的行所在的行号(不明白的直接看例子),行号从0开始。

例如,定义一个最小哈希函数h,然后对上面的特征矩阵进行行打乱,原来第一列的顺序为abcde,打乱后为beadc,则新的特征矩阵为:

对于列S1,从这一列的第一行往下走,直到遇到第一个1,所在的行号则为这一列的最小哈希值。所以这4列的最小哈希值依次为h(S1) = 2, h(S2) = 4, h(S3) = 0, h(S4) = 2.

最小哈希签名

上面是用一个行打乱来处理特征矩阵,然后就可以得到每个集合最小哈希值,这样多个集合就会有多个最小哈希值,这些值就可以组成一列。当我们用多个随机行打乱(假设为n个,分别为h1,h2…hn)来处理特征矩阵时,然后分别计算打乱后的这n个矩阵的最小哈希值;这样,对于集合S,就会有n个最小哈希值,这n个哈希值就可以组成一个列向量,为[h1(S), h2(S)…hn(S)];因此对于一个集合,经过上面的处理后,就能得到一个列向量;如果有m个集合,就会有m个列向量,每个列向量中有n个元素。把这m个列向量组成一个矩阵,这个矩阵就是特征矩阵的签名矩阵;这个签名矩阵的列数与特征矩阵相同,但行数为n,也即哈希函数的个数。通常来说,n都会比特征矩阵的行数要小很多,所以签名矩阵就会比特征矩阵小很多。

最小签名的计算

其实得到上面的签名矩阵之后,我们就可以用签名矩阵中列与列之间的相似度来计算集合间的Jaccard相似度了;但是这样会带来一个问题,就是当一个特征矩阵很大时(假设有上亿行),那么对其进行行打乱是非常耗时,更要命的是还要进行多次行打乱。

为了解决这个问题,可以通过一些随机哈希函数来模拟行打乱的效果。

考虑上面的特征矩阵,将abcde换成对应的行号,在后面加上两个哈希函数,其中h1(x)=(x+1) mod 5,h2(x) = (3*x+1) mod 5,注意这里x指的是行号:

接下来计算签名矩阵。一开始时,全部初始化为Inf:

接着看特征矩阵中的第0行;这时S2和S3的值为0,所以无需改动;S1和S4的值为1,需改动。h1= 1,h2= 1。1比Inf小,所以需把S1和S4这两个位置对应的值替换掉,替换后效果如下:

接着看第1行;只有S3的值为1;此时h1= 2,h2= 4;对S3那一列进行替换,得到:

接着看第2行;S2和S4的值为1;h1=3,h2=2;因为签名矩阵S4那一列的两个值都为1,比3和2小,所以只需替换S2那一列:

接着看第3行;S1,S3和S4的值都为1,h1=4, h2= 0;替换后效果如下:

接着看第4行;S3值为1,h1=0, h2= 3,最终效果如下:

这样,所有的行都被遍历一次了,最终得到的签名矩阵如下:

基于这个签名矩阵,我们就可以估计原始集合之间的Jaccard相似度了。由于S2和S4对应的列向量完全一样,所以可以估计SIM(S1,S4)=1;同理可得SIM(S1,S3) = 0.5;

以上这个过程我已经实现,没什么难度。

但是如果文档数量特别的多,几千万,几十亿,即使降维降到50维,计算量依然很大,线性计算不可为,是大忌,怎么办呢?

局部敏感哈希算法LSH

有很多篇文档,找出相似度很高的文档,先计算出所有文档的签名矩阵,然后依次两两比较签名矩阵的相似度,时间,空间复杂度太高,不可行。那可不可以只比较那些相似度可能会很高的文档,而直接忽略过那些相似度很低的文档。当然可以!!

首先,我们可以通过上面的方法得到一个签名矩阵,然后把这个矩阵划分成b个行条(band),每个行条由r行组成。对于每个行条,存在一个哈希函数能够将行条中的每r个整数组成的列向量(行条中的每一列)映射到某个桶中。可以对所有行条使用相同的哈希函数,但是对于每个行条我们都使用一个独立的桶数组,因此即便是不同行条中的相同列向量,也不会被哈希到同一个桶中。这样,只要两个集合在某个行条中有落在相同桶的两列,这两个集合就被认为可能相似度比较高,作为后续计算的候选对;而那些在所有行条中都不落在同一个桶中的两列,就会被认为相似度不会很高,而被直接忽略。下面直接看一个例子:

例如,现在有一个12行签名矩阵,把这个矩阵分为4个行条,每个行条有3行;为了方便,这里只写出行条1的内容。

可以看出,行条1中第2列和第4列的内容都为[0,2,1],所以这两列会落在行条1下的相同桶中,因此无论在剩下的3个行条中这两列是否有落在相同桶中,这两个集合都会成为候选对。在行条1中不相等的两列还有另外的3次机会成为候选对,因为他们只需在剩下的3个行条中有一次相等即可。

经过上面的处理后,我们就找出了相似度可能会很高的一些候选对,接下来我们只需对这些候选队进行比较就可以了,而直接忽略那些不是候选对的集合。这个方法适合用来计算相似度超过某个值的文档的相似度,而不适用于计算所有文档的相似度,因为那些相似度可能很低的文档已经被直接忽略了。

LSH是一个算法族,里面有很多的算法,minhash只是其中的一个而已,有兴趣的朋友可以好好研究研究。

LSH这个算法我没有实现,不过感谢python无所不能的包啊,已经有了很多的实现,LSHash,sklearn,datasketch,都已经实现了LSH,直接用就可以了。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有