每月学习笔记

PET 的可行性：

直接利用现成的 MLM 模型效果如何？（零样本学习1）

用“大量无标签数据”微调现成的 MLM 模型效果如何？（零样本学习2）

用“小量标签数据”微调现成的 MLM 模型效果如何？（小样本学习）

用“小量标签数据+大量无标签数据”微调现成的MLM模型效果如何？（半监督学习）

聚类算法对比

不同的聚类算法有不同的应用背景，有的适合于大数据集，可以发现任意形状的聚簇；有的算法思想简单，适用于小数据集。总的来说，数据挖掘中针对聚类的典型要求包括：（1）可伸缩性：当数据量从几百上升到几百万时，聚类结果的准确度能一致。（2）处理不同类型属性的能力：许多算法针对的数值类型的数据。但是，实际应用场景中，会遇到二元类型数据，分类/标称类型数据，序数型数据。

（3）发现任意形状的类簇：许多聚类算法基于距离（欧式距离或曼哈顿距离）来量化对象之间的相似度。基于这种方式，我们往往只能发现相似尺寸和密度的球状类簇或者凸型类簇。但是，实际中类簇的形状可能是任意的。

（4）初始化参数的需求最小化：很多算法需要用户提供一定个数的初始参数，比如期望的类簇个数，类簇初始中心点的设定。聚类的结果对这些参数十分敏感，调参数需要大量的人力负担，也非常影响聚类结果的准确性。

（5）处理噪声数据的能力：噪声数据通常可以理解为影响聚类结果的干扰数据，包含孤立点，错误数据等，一些算法对这些噪声数据非常敏感，会导致低质量的聚类。

（6）增量聚类和对输入次序的不敏感：一些算法不能将新加入的数据快速插入到已有的聚类结果中，还有一些算法针对不同次序的数据输入，产生的聚类结果差异很大。

（7）高维性：有些算法只能处理2到3维的低纬度数据，而处理高维数据的能力很弱，高维空间中的数据分布十分稀疏，且高度倾斜。

（8）可解释性和可用性：我们希望得到的聚类结果都能用特定的语义、知识进行解释，和实际的应用场景相联系。

几种常用的聚类算法从可伸缩性、适合的数据类型、高维性（处理高维数据的能力）、异常数据的抗干扰度、聚类形状和算法效率6个方面进行了综合性能评价，评价结果如表1所示：

算法名称

算法类型

可伸缩性

适合的数据类型

高维性

异常数据的抗干扰性

聚类形状

算法效率

|———|———|———|——–|———|——–|———|

ROCK

层次聚类

很高

混合型

很高

任意形状

一般

BIRCH

层次聚类

较高

数值型

较低

球形

很高

CURE

层次聚类

较高

数值型

一般

很高

任意形状

较高

CLARANS

划分聚类

较低

数值型

较低

较高

球形

较低

DENCLUE

密度聚类

较低

数值型

较高

一般

任意形状

较高

DBSCAN

密度聚类

一般

数值型

较低

较高

任意形状

一般

WaveCluster

网格聚类

很高

数值型

很高

较高

任意形状

很高

OptiGrid

网格聚类

一般

数值型

较高

一般

任意形状

一般

CLIQUE

网格聚类

较高

数值型

较高

任意形状

较低

1231

Three types of existing methods for table structure recognition.

2021年12月

1231

CATALOG

FEATURED TAGS

FRIENDS