原文链接:论文阅读09——《Deep Fusion Clustering Network》
作者:Wenxuan Tu, Sihang Zhou, Xinwang Liu, Xifeng Guo, Zhiping Cai, En zhu, Jieren Cheng
发表时间:2021年5月18日
论文地址:https://ojs.aaai.org/index.php/AAAI/article/view/17198
代码地址:https://github.com/wxtu/dfcn
缺乏动态融合机制来选择性地融合和细化图结构和节点属性信息以进行共识表示学习。以前的方法只是通过对齐或者拼接两部分信息,导致信息交互和合并不足。健壮的目标分布(即"groundtruth"软标签)。现有的研究未能从两部分信息中生成目标分布使得网络训练的指导不够全面和准确,结果导致两个信息源之间的协商受阻,导致聚类性能不理想。提出一种深度融合聚类网络(DFCN):
将深度聚类分为五类:
《Latent Distribution Preserving Deep Subspace Clustering》
《Deep Subspace Clustering Networks》
《Cascade Subspace Clustering》等
《ClusterGAN: Latent Space Clustering in Generative Adversarial Networks》
《Balanced Self-Paced Learning for Generative Adversarial Clustering Network》等
《Deep Spectral Clustering Using Dual Autoencoder Network》
《SpectralNet: Spectral Clustering using Deep Neural Networks》等
《Deep Clustering by Gaussian Mixture Variational Autoencoders with Graph Embedding》
《Unsupervised Clustering of Quantitative Imaging Phenotypes Using Autoencoder and Gaussian Mixture Model》等
《Unsupervised Deep Embedding for Clustering Analysis》
《Improved Deep Embedded Clustering with Local Structure Preservation》
《Semi-supervised Deep Embedded Clustering》
《Adversarial Incomplete Multi-view Clustering》
《Deep Adversarial Multi-view Clustering Network》等
SDCN中自编码器可以提供互补属性信息,缓解GCN模块的过平滑现象,GCN同时可以向自编码器提供高阶结构信息。在该项工作中,GCN只充当自编码器的正则化器,GCN模块的学习特性没有被充分利用来指导自寻优网络训练,框架的表示学习缺乏两个子网络之间的协商。
经典的自编码器是对称的,而图卷积网络通常是非对称的,它们只需要潜在表示来重建邻接信息,而忽略了基于结构的属性信息也可以用来提高相应网络的泛化能力。

作者精心设计了一个结构和属性信息融合(SAIF)模块,用于详细阐述两个源的信息处理。 首先,我们从局部和全局两个角度集成了两种样本嵌入,用于共识表示学习。 然后,利用学生t分布估计潜在嵌入空间中样本点与预先计算的聚类中心之间的相似度,得到更精确的目标分布。 最后,我们设计了一个三重自监督机制,利用目标分布同时为AE、GAE和信息融合部分提供更可靠的指导。 此外,我们提出了一种改进的对称结构的图自动编码器(IGAE),并利用图解码器重构的潜在表示和特征表示来重建邻接矩阵。
Z(l)=σ(A~Z(l−1)W(l))Z^{(l)}=\sigma(\widetilde{A}Z^{(l-1)}W^{(l)}) Z(l)=σ(AZ(l−1)W(l))
Z^(h)=σ(A~Z^(h−1)W^(h))\hat{Z}^{(h)}=\sigma(\widetilde{A}\hat{Z}^{(h-1)}\hat{W}^{(h)}) Z^(h)=σ(AZ^(h−1)W^(h))
该部分损失函数:
LIGAE=Lw+γLaL_{IGAE}=L_w+\gamma L_a LIGAE=Lw+γLa
Lw=12N∥A~X−Z^∥F2L_w=\frac{1}{2N}\|\widetilde{A}X-\hat{Z}\|_F^2 Lw=2N1∥AX−Z^∥F2
La=12N∥A~−A^∥F2L_a=\frac{1}{2N}\|\widetilde{A}-\hat{A}\|_F^2 La=2N1∥A−A^∥F2

融合模块中的信息集成包括四个步骤:
用一个线性组合操作结合AE和IGAE的潜在特征:
ZI=αZAE+(1−α)ZIGAEZ_I=\alpha Z_{AE}+(1-\alpha)Z_{IGAE} ZI=αZAE+(1−α)ZIGAE
用一个类似图卷积操作(消息传递)来处理组合的信息。通过该操作,考虑数据内部的局部结构来增强初始融合嵌入ZIZ_IZI:
ZL=A~ZIZ_L=\widetilde{A}Z_I ZL=AZI
引入自相关学习机制,利用样本间初步信息融合空间中的非局部关系。具体来说,首先通过下面公式计算归一化的自相关矩阵SSS:
Sij=e(ZLZLT)ij∑k=1Ne(ZLZLT)ikS_{ij}=\frac{e^{(Z_LZ_L^T)_{ij}}}{\sum_{k=1}^Ne^{(Z_LZ_L^T)_{ik}}} Sij=∑k=1Ne(ZLZLT)ike(ZLZLT)ij
以SSS为系数,通过考虑样本间的全局相关性来重组ZLZ_LZL:ZG=SZLZ_G=SZ_LZG=SZL。
采用跳跃连接鼓励信息在融合机制内顺利通过:
Z~=βZG+ZL\widetilde{Z}=\beta Z_G + Z_L Z=βZG+ZL
跨模态动态融合机制从局部和全局两个角度考虑样本的相关性,因此,该算法在精融合和精化AE和IGAE信息以学习一致性潜在表征方面具有潜在的优势。
学生ttt分布和辅助PPP分布与之前阅读的论文里一样,这里不再介绍。
首先采用鲁棒性更强的聚类嵌入Z~\widetilde{Z}Z,利用学生t分布生成目标分布QQQ和辅助分布PPP。
通过学生t分布分别计算AE和IGAE在两个子网络潜在嵌入上的软聚类分布Q′Q'Q′和Q′′Q''Q′′。
聚类损失:
LKL=∑i∑jpijlogpij(qij+qiij′+qij′′)/3L_{KL}=\sum\limits_i\sum\limits_jp_{ij}\log\frac{p_{ij}}{(q_{ij}+q_{iij}'+q_{ij}'')/3} LKL=i∑j∑pijlog(qij+qiij′+qij′′)/3pij
总的损失:
L=LAE+LIGAE+λLKLL=L_{AE}+L_{IGAE}+\lambda L_{KL} L=LAE+LIGAE+λLKL

IGAE
本文提出的重构方法能够利用更全面的信息来提高深度聚类网络的泛化能力。 通过这种方法,潜在嵌入从原始图的属性空间继承了更多的属性,保留了具有代表性的特征,从而产生更好的聚类决策。
SAIF
局部和全局两个角度探索图的结构和节点属性有助于学习一致性潜在表示,从而更好地进行聚类。相互受益。跨模态动态融合机制
结合这两个来源的信息可以潜在地提高混合方法的鲁棒性。两个源信息对DFCN的性能改进同样重要。互补的双模态信息,使目标分布更加可靠和鲁棒,从而更好地进行聚类。总损失函数中λ\lambdaλ分析
有效的。较宽的λ范围内性能稳定。设置λ为10来表现良好。本文提出了一种深度融合聚类网络(DFCN)。 在该方法中,核心组件SAIF模块通过动态跨模态融合机制和三重自监督策略来利用图结构和节点属性。 通过编码双方更多的共识信息和鉴别信息,构造鲁棒的目标分布,有效地提供精确的网络训练指导。 此外,所提出的IGAE能够帮助提高所提方法的泛化能力。
上一篇:类似睡眼惺忪的成语