20种数据相似性计算方法

2024-07-11 15:02| 来源: 网络整理| 查看: 265

欧几里德距离（Euclidean Distance）： Euclidean Distance = ∑ i = 1 n ( x i − y i ) 2 \text{Euclidean Distance} = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2} Euclidean Distance=i=1∑n(xi−yi)2

曼哈顿距离（Manhattan Distance）： Manhattan Distance = ∑ i = 1 n ∣ x i − y i ∣ \text{Manhattan Distance} = \sum_{i=1}^{n} |x_i - y_i| Manhattan Distance=i=1∑n∣xi−yi∣

余弦相似度（Cosine Similarity）： Cosine Similarity = ∑ i = 1 n x i ⋅ y i ∑ i = 1 n x i 2 ⋅ ∑ i = 1 n y i 2 \text{Cosine Similarity} = \frac{\sum_{i=1}^{n} x_i \cdot y_i}{\sqrt{\sum_{i=1}^{n} x_i^2} \cdot \sqrt{\sum_{i=1}^{n} y_i^2}} Cosine Similarity=∑i=1nxi2 ⋅∑i=1nyi2 ∑i=1nxi⋅yi

皮尔逊相关系数（Pearson Correlation Coefficient）： Pearson Correlation = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ⋅ ∑ i = 1 n ( y i − y ˉ ) 2 \text{Pearson Correlation} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \cdot \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}} Pearson Correlation=∑i=1n(xi−xˉ)2 ⋅∑i=1n(yi−yˉ)2 ∑i=1n(xi−xˉ)(yi−yˉ)

汉明距离（Hamming Distance）： Hamming Distance = count ( x i ≠ y i ) \text{Hamming Distance} = \text{count}(x_i \neq y_i) Hamming Distance=count(xi=yi)

Jaccard相似系数（Jaccard Similarity）： Jaccard Similarity = count ( x i = y i ) count ( x i ∪ y i ) \text{Jaccard Similarity} = \frac{\text{count}(x_i = y_i)}{\text{count}(x_i \cup y_i)} Jaccard Similarity=count(xi∪yi)count(xi=yi)

编辑距离（Edit Distance）：计算两个序列之间的最小操作数，如插入、删除和替换操作。（以字符串为例）编辑距离 = 最小编辑操作次数编辑距离 = 最小编辑操作次数编辑距离=最小编辑操作次数编辑距离=最小编辑操作次数编辑距离=最小编辑操作次数编辑距离=最小编辑操作次数

汉明权重（Hamming Weight）： Hamming Weight = count ( x i = 1 ) \text{Hamming Weight} = \text{count}(x_i = 1) Hamming Weight=count(xi=1)

Jensen-Shannon散度（Jensen-Shannon Divergence）： JS ( P ∥ Q ) = 1 2 ∑ i = 1 n ( P i log ⁡ 2 2 P i P i + Q i + Q i log ⁡ 2 2 Q i P i + Q i ) \text{JS}(P \parallel Q) = \frac{1}{2} \sum_{i=1}^{n} \left( P_i \log_2 \frac{2P_i}{P_i + Q_i} + Q_i \log_2 \frac{2Q_i}{P_i + Q_i} \right) JS(P∥Q)=21i=1∑n(Pilog2Pi+Qi2Pi+Qilog2Pi+Qi2Qi)

汉明相似度（Hamming Similarity）： Hamming Similarity = count ( x i = y i ) n \text{Hamming Similarity} = \frac{\text{count}(x_i = y_i)}{n} Hamming Similarity=ncount(xi=yi)

KL散度（Kullback-Leibler Divergence）： KL ( P ∥ Q ) = ∑ i = 1 n P i log ⁡ 2 P i Q i \text{KL}(P \parallel Q) = \sum_{i=1}^{n} P_i \log_2 \frac{P_i}{Q_i} KL(P∥Q)=i=1∑nPilog2QiPi

DTW（Dynamic Time Warping）：动态时间规整计算两个序列的最佳匹配。考虑两个序列之间的最佳匹配，可以允许时间轴的不同步长，捕捉序列之间的相似性。给出一个递归形式的表达式： DTW ( i , j ) = ∣ x [ i ] − y [ j ] ∣ + min ⁡ ( DTW ( i − 1 , j ) , DTW ( i , j − 1 ) , DTW ( i − 1 , j − 1 ) ) \text{DTW}(i, j) = |x[i] - y[j]| + \min(\text{DTW}(i-1, j), \text{DTW}(i, j-1), \text{DTW}(i-1, j-1)) DTW(i,j)=∣x[i]−y[j]∣+min(DTW(i−1,j),DTW(i,j−1),DTW(i−1,j−1))

Gower距离： Gower Distance = 1 n ∑ i = 1 n d i j \text{Gower Distance} = \frac{1}{n} \sum_{i=1}^{n} d_{ij} Gower Distance=n1i=1∑ndij

矩阵距离（Matrix Distance）：定义两个矩阵之间的距离度量方法。 "矩阵距离"并不是一个常见的术语，可能会有不同的解释。如果您是指矩阵之间的距离或相似度计算，这可以用来比较两个矩阵的相似性或差异。如欧几里德距离（Euclidean Distance），弗罗贝尼乌斯范数距离（Frobenius Norm Distance）等。弗罗贝尼乌斯范数是矩阵的一种范数，用于衡量矩阵的大小。弗罗贝尼乌斯范数距离衡量了两个矩阵之间的差异。如果有两个矩阵 A 和 B，其维度相同，弗罗贝尼乌斯范数距离的计算公式如下： Frobenius Norm Distance = ∑ i ∑ j ( A [ i , j ] − B [ i , j ] ) 2 \text{Frobenius Norm Distance} = \sqrt{\sum_{i}\sum_{j}(A[i, j] - B[i, j])^2} Frobenius Norm Distance=i∑j∑(A[i,j]−B[i,j])2 欧几里德距离考虑了每个元素之间的差异，而弗罗贝尼乌斯范数距离考虑了整个矩阵的差异。

Czekanowski-Dice系数： Czekanowski-Dice Coefficient = 2 × count ( x i = y i ) count ( x i ) + count ( y i ) \text{Czekanowski-Dice Coefficient} = \frac{2 \times \text{count}(x_i = y_i)}{\text{count}(x_i) + \text{count}(y_i)} Czekanowski-Dice Coefficient=count(xi)+count(yi)2×count(xi=yi)

Minkowski距离： Minkowski Distance = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p \text{Minkowski Distance} = \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{\frac{1}{p}} Minkowski Distance=(i=1∑n∣xi−yi∣p)p1

Tanimoto系数： Tanimoto Coefficient = count ( x i = y i ) count ( x i ) + count ( y i ) − count ( x i = y i ) \text{Tanimoto Coefficient} = \frac{\text{count}(x_i = y_i)}{\text{count}(x_i) + \text{count}(y_i) - \text{count}(x_i = y_i)} Tanimoto Coefficient=count(xi)+count(yi)−count(xi=yi)count(xi=yi)

Spearman等级相关系数： Spearman Rank Correlation = 1 − 6 ∑ i = 1 n d i 2 n ( n 2 − 1 ) \text{Spearman Rank Correlation} = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)} Spearman Rank Correlation=1−n(n2−1)6∑i=1ndi2

Haversine距离：用于地理坐标数据的距离计算方法，基于球面距离的计算。 Haversine Distance = 2 r arcsin ⁡ sin ⁡ 2 ( ϕ 2 − ϕ 1 2 ) + cos ⁡ ( ϕ 1 ) ⋅ cos ⁡ ( ϕ 2 ) ⋅ sin ⁡ 2 ( λ 2 − λ 1 2 ) \text{Haversine Distance} = 2r \arcsin \sqrt{\sin^2\left(\frac{\phi_2 - \phi_1}{2}\right) + \cos(\phi_1) \cdot \cos(\phi_2) \cdot \sin^2\left(\frac{\lambda_2 - \lambda_1}{2}\right)} Haversine Distance=2rarcsinsin2(2ϕ2−ϕ1)+cos(ϕ1)⋅cos(ϕ2)⋅sin2(2λ2−λ1) 其中 r r r 为球体的半径， ϕ 1 , ϕ 2 \phi_1, \phi_2 ϕ1,ϕ2为两个点的纬度， λ 1 , λ 2 \lambda_1, \lambda_2 λ1,λ2为两个点的经度。

Wasserstein距离：衡量两个概率分布之间的距离，即将一个分布转移到另一个分布所需的最小成本。 Wasserstein Distance = inf ⁡ γ ∈ Π ( P , Q ) ∑ i = 1 n ∑ j = 1 m γ i j ⋅ d ( x i , y j ) \text{Wasserstein Distance} = \inf_{\gamma \in \Pi(P, Q)} \sum_{i=1}^{n} \sum_{j=1}^{m} \gamma_{ij} \cdot d(x_i, y_j) Wasserstein Distance=γ∈Π(P,Q)infi=1∑nj=1∑mγij⋅d(xi,yj) 其中 Π ( P , Q ) \Pi(P, Q) Π(P,Q) 表示 P , Q P, Q P,Q 两个分布上的所有联合分布， d ( x i , y j ) d(x_i, y_j) d(xi,yj) 是数据点之间的距离。

【本文地址】

公司简介

联系我们

今日新闻

推荐新闻

专题文章