20种数据相似性计算方法 您所在的位置:网站首页 excel计算两列数据相关性差异的公式是什么 20种数据相似性计算方法

20种数据相似性计算方法

2024-07-11 15:02| 来源: 网络整理| 查看: 265

欧几里德距离(Euclidean Distance): Euclidean Distance = ∑ i = 1 n ( x i − y i ) 2 \text{Euclidean Distance} = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} Euclidean Distance=i=1∑n​(xi​−yi​)2 ​

曼哈顿距离(Manhattan Distance): Manhattan Distance = ∑ i = 1 n ∣ x i − y i ∣ \text{Manhattan Distance} = \sum_{i=1}^{n} |x_i - y_i| Manhattan Distance=i=1∑n​∣xi​−yi​∣

余弦相似度(Cosine Similarity): Cosine Similarity = ∑ i = 1 n x i ⋅ y i ∑ i = 1 n x i 2 ⋅ ∑ i = 1 n y i 2 \text{Cosine Similarity} = \frac{\sum_{i=1}^{n} x_i \cdot y_i}{\sqrt{\sum_{i=1}^{n} x_i^2} \cdot \sqrt{\sum_{i=1}^{n} y_i^2}} Cosine Similarity=∑i=1n​xi2​ ​⋅∑i=1n​yi2​ ​∑i=1n​xi​⋅yi​​

皮尔逊相关系数(Pearson Correlation Coefficient): Pearson Correlation = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ⋅ ∑ i = 1 n ( y i − y ˉ ) 2 \text{Pearson Correlation} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} Pearson Correlation=∑i=1n​(xi​−xˉ)2 ​⋅∑i=1n​(yi​−yˉ​)2 ​∑i=1n​(xi​−xˉ)(yi​−yˉ​)​

汉明距离(Hamming Distance): Hamming Distance = count ( x i ≠ y i ) \text{Hamming Distance} = \text{count}(x_i \neq y_i) Hamming Distance=count(xi​​=yi​)

Jaccard相似系数(Jaccard Similarity): Jaccard Similarity = count ( x i = y i ) count ( x i ∪ y i ) \text{Jaccard Similarity} = \frac{\text{count}(x_i = y_i)}{\text{count}(x_i \cup y_i)} Jaccard Similarity=count(xi​∪yi​)count(xi​=yi​)​

编辑距离(Edit Distance): 计算两个序列之间的最小操作数,如插入、删除和替换操作。(以字符串为例) 编 辑 距 离 = 最 小 编 辑 操 作 次 数 编 辑 距 离 = 最 小 编 辑 操 作 次 数 编辑距离=最小编辑操作次数 编辑距离=最小编辑操作次数 编辑距离=最小编辑操作次数编辑距离=最小编辑操作次数

汉明权重(Hamming Weight): Hamming Weight = count ( x i = 1 ) \text{Hamming Weight} = \text{count}(x_i = 1) Hamming Weight=count(xi​=1)

Jensen-Shannon散度(Jensen-Shannon Divergence): JS ( P ∥ Q ) = 1 2 ∑ i = 1 n ( P i log ⁡ 2 2 P i P i + Q i + Q i log ⁡ 2 2 Q i P i + Q i ) \text{JS}(P \parallel Q) = \frac{1}{2} \sum_{i=1}^{n} \left( P_i \log_2 \frac{2P_i}{P_i + Q_i} + Q_i \log_2 \frac{2Q_i}{P_i + Q_i} \right) JS(P∥Q)=21​i=1∑n​(Pi​log2​Pi​+Qi​2Pi​​+Qi​log2​Pi​+Qi​2Qi​​)

汉明相似度(Hamming Similarity): Hamming Similarity = count ( x i = y i ) n \text{Hamming Similarity} = \frac{\text{count}(x_i = y_i)}{n} Hamming Similarity=ncount(xi​=yi​)​

KL散度(Kullback-Leibler Divergence): KL ( P ∥ Q ) = ∑ i = 1 n P i log ⁡ 2 P i Q i \text{KL}(P \parallel Q) = \sum_{i=1}^{n} P_i \log_2 \frac{P_i}{Q_i} KL(P∥Q)=i=1∑n​Pi​log2​Qi​Pi​​

DTW(Dynamic Time Warping): 动态时间规整计算两个序列的最佳匹配。考虑两个序列之间的最佳匹配,可以允许时间轴的不同步长,捕捉序列之间的相似性。给出一个递归形式的表达式: DTW ( i , j ) = ∣ x [ i ] − y [ j ] ∣ + min ⁡ ( DTW ( i − 1 , j ) , DTW ( i , j − 1 ) , DTW ( i − 1 , j − 1 ) ) \text{DTW}(i, j) = |x[i] - y[j]| + \min(\text{DTW}(i-1, j), \text{DTW}(i, j-1), \text{DTW}(i-1, j-1)) DTW(i,j)=∣x[i]−y[j]∣+min(DTW(i−1,j),DTW(i,j−1),DTW(i−1,j−1))

Gower距离: Gower Distance = 1 n ∑ i = 1 n d i j \text{Gower Distance} = \frac{1}{n} \sum_{i=1}^{n} d_{ij} Gower Distance=n1​i=1∑n​dij​

矩阵距离(Matrix Distance): 定义两个矩阵之间的距离度量方法。 "矩阵距离"并不是一个常见的术语,可能会有不同的解释。如果您是指矩阵之间的距离或相似度计算,这可以用来比较两个矩阵的相似性或差异。如欧几里德距离(Euclidean Distance), 弗罗贝尼乌斯范数距离(Frobenius Norm Distance)等。 弗罗贝尼乌斯范数是矩阵的一种范数,用于衡量矩阵的大小。弗罗贝尼乌斯范数距离衡量了两个矩阵之间的差异。如果有两个矩阵 A 和 B,其维度相同,弗罗贝尼乌斯范数距离的计算公式如下: Frobenius Norm Distance = ∑ i ∑ j ( A [ i , j ] − B [ i , j ] ) 2 \text{Frobenius Norm Distance} = \sqrt{\sum_{i}\sum_{j}(A[i, j] - B[i, j])^2} Frobenius Norm Distance=i∑​j∑​(A[i,j]−B[i,j])2 ​ 欧几里德距离考虑了每个元素之间的差异,而弗罗贝尼乌斯范数距离考虑了整个矩阵的差异。

Czekanowski-Dice系数: Czekanowski-Dice Coefficient = 2 × count ( x i = y i ) count ( x i ) + count ( y i ) \text{Czekanowski-Dice Coefficient} = \frac{2 \times \text{count}(x_i = y_i)}{\text{count}(x_i) + \text{count}(y_i)} Czekanowski-Dice Coefficient=count(xi​)+count(yi​)2×count(xi​=yi​)​

Minkowski距离: Minkowski Distance = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p \text{Minkowski Distance} = \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{\frac{1}{p}} Minkowski Distance=(i=1∑n​∣xi​−yi​∣p)p1​

Tanimoto系数: Tanimoto Coefficient = count ( x i = y i ) count ( x i ) + count ( y i ) − count ( x i = y i ) \text{Tanimoto Coefficient} = \frac{\text{count}(x_i = y_i)}{\text{count}(x_i) + \text{count}(y_i) - \text{count}(x_i = y_i)} Tanimoto Coefficient=count(xi​)+count(yi​)−count(xi​=yi​)count(xi​=yi​)​

Spearman等级相关系数: Spearman Rank Correlation = 1 − 6 ∑ i = 1 n d i 2 n ( n 2 − 1 ) \text{Spearman Rank Correlation} = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)} Spearman Rank Correlation=1−n(n2−1)6∑i=1n​di2​​

Haversine距离: 用于地理坐标数据的距离计算方法,基于球面距离的计算。 Haversine Distance = 2 r arcsin ⁡ sin ⁡ 2 ( ϕ 2 − ϕ 1 2 ) + cos ⁡ ( ϕ 1 ) ⋅ cos ⁡ ( ϕ 2 ) ⋅ sin ⁡ 2 ( λ 2 − λ 1 2 ) \text{Haversine Distance} = 2r \arcsin \sqrt{\sin^2\left(\frac{\phi_2 - \phi_1}{2}\right) + \cos(\phi_1) \cdot \cos(\phi_2) \cdot \sin^2\left(\frac{\lambda_2 - \lambda_1}{2}\right)} Haversine Distance=2rarcsinsin2(2ϕ2​−ϕ1​​)+cos(ϕ1​)⋅cos(ϕ2​)⋅sin2(2λ2​−λ1​​) ​ 其中 r r r 为球体的半径, ϕ 1 , ϕ 2 \phi_1, \phi_2 ϕ1​,ϕ2​为两个点的纬度, λ 1 , λ 2 \lambda_1, \lambda_2 λ1​,λ2​为两个点的经度。

Wasserstein距离: 衡量两个概率分布之间的距离,即将一个分布转移到另一个分布所需的最小成本。 Wasserstein Distance = inf ⁡ γ ∈ Π ( P , Q ) ∑ i = 1 n ∑ j = 1 m γ i j ⋅ d ( x i , y j ) \text{Wasserstein Distance} = \inf_{\gamma \in \Pi(P, Q)} \sum_{i=1}^{n} \sum_{j=1}^{m} \gamma_{ij} \cdot d(x_i, y_j) Wasserstein Distance=γ∈Π(P,Q)inf​i=1∑n​j=1∑m​γij​⋅d(xi​,yj​) 其中 Π ( P , Q ) \Pi(P, Q) Π(P,Q) 表示 P , Q P, Q P,Q 两个分布上的所有联合分布, d ( x i , y j ) d(x_i, y_j) d(xi​,yj​) 是数据点之间的距离。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有