《人工智能系列讀書班》活動8--聚類

發布者:信息工程學院發布時間:2024-12-27浏覽次數:194

   12月26日,《人工智能系列讀書班》活動照常進行,何川博士主持了“聚類”算法的讨論會,首先介紹了聚類算法的任務、性能度量、距離計算,然後重點介紹了原型聚類中的Kmeans均值算法、學習向量量化LVQ以及高斯混合聚類GMM,最後介紹了密度聚類DBSCAN、層次聚類AGNES等:

圖1 何川博士主持聚類算法讨論會

   活動中,何川博士分享了幾個聚類算法在多個數據集上的運行結果,并分析了各自的優缺點:   

圖2 多個聚類算法的演示界面

     原型聚類中,Kmeans簡單但受制于預先設定聚類數,GMM的聚類效果相對比較好,但聚類數的預先設定将影響實驗結果:

圖3 GMM聚類實驗結果圖

    密度聚類,不需要預先指定聚類數,但要預先指定簇的最小點數和半徑,如果這兩個參數設置不好,容易使得聚類結果的局部最優化,達不到全局最優化,如下:

圖4 DBSCAN聚類實驗結果圖

    在自由讨論環節,大家讨論了集中聚類算法的優缺點,在垂直領域已知數據分布的情況下,Kmeans簡單有效;GMM采用概率模型表達聚類原型,與深度學習架構可以建立級聯關系;同時讨論了密度聚類DBSCAN與原型聚類GMM是否可以結合的問題。

    何川博士還分享了最近幾年聚類算法的改進的主要工作,包括對比聚類、基于粒球的快速DBSCAN聚類、基于圖濾波的子空間聚類算法、混合遺傳-模糊蟻群優化算法的自動k均值聚類方法、粒球計算的流形聚類算法等。

   最後,沈來信教授分享了GMM在語音識别、圖像分割等領域的聚類應用:

圖5 GMM用于圖像分割

(會議總結:沈來信)


Baidu
sogou