456.
谱聚类算法是一种重要的聚类算法,能够在多种应用场景中取得理想的聚类效果,但较高的计算复杂度限制了其在大规模数据集上的应用。为了提高计算效率,研究者开发了二部图谱聚类算法。具体来说,此类方法仅选取部分训练集作为锚点集,并利用整个训练集和锚点集构建二部图,再利用该二部图进行近似的谱聚类。然而,这类方法存在以下三个没有被充分研究的问题:一是二部图谱聚类算法是否具备泛化性;二是如何快速获取训练集外顶点的低维嵌入;三是如何选择锚点数规模,使算法达到统计精度和计算开销的最佳平衡。针对上述三个问题,本文先是建立了谱聚类泛化分析的框架,并根据谱聚类的一致性,推导了标准NCut算法的泛化风险上界和额外风险上界。接着,本文分析了针对标准NCut的一种近似算法的泛化性,即基于Nystr?m方法的二部图谱聚类算法。根据所得到的二部图谱聚类的泛化理论,本文提出了一种能够快速获取训练集外顶点低维嵌入的算法。此外,本文还通过上述理论提出了一种锚点数选择的策略,即锚点数为Θ(n
1/2)时,算法达到统计精度与计算效率的最佳平衡。最后,本文在基准数据集上验证了所提出算法的有效性和理论结果的正确性。… …
相似文献