每月学习笔记

2021年12月

Posted by franztao on December 31, 2021

PET 的可行性:

  1. 直接利用现成的 MLM 模型效果如何?(零样本学习1)
  2. 用“大量无标签数据”微调现成的 MLM 模型效果如何?(零样本学习2)
  3. 用“小量标签数据”微调现成的 MLM 模型效果如何?(小样本学习)
  4. 用“小量标签数据+大量无标签数据”微调现成的MLM模型效果如何?(半监督学习)

聚类算法对比

不同的聚类算法有不同的应用背景,有的适合于大数据集,可以发现任意形状的聚簇;有的算法思想简单,适用于小数据集。总的来说,数据挖掘中针对聚类的典型要求包括: (1)可伸缩性:当数据量从几百上升到几百万时,聚类结果的准确度能一致。 (2)处理不同类型属性的能力:许多算法针对的数值类型的数据。但是,实际应用场景中,会遇到二元类型数据,分类/标称类型数据,序数型数据。

(3)发现任意形状的类簇:许多聚类算法基于距离(欧式距离或曼哈顿距离)来量化对象之间的相似度。基于这种方式,我们往往只能发现相似尺寸和密度的球状类簇或者凸型类簇。但是,实际中类簇的形状可能是任意的。

(4)初始化参数的需求最小化:很多算法需要用户提供一定个数的初始参数,比如期望的类簇个数,类簇初始中心点的设定。聚类的结果对这些参数十分敏感,调参数需要大量的人力负担,也非常影响聚类结果的准确性。

(5)处理噪声数据的能力:噪声数据通常可以理解为影响聚类结果的干扰数据,包含孤立点,错误数据等,一些算法对这些噪声数据非常敏感,会导致低质量的聚类。

(6)增量聚类和对输入次序的不敏感:一些算法不能将新加入的数据快速插入到已有的聚类结果中,还有一些算法针对不同次序的数据输入,产生的聚类结果差异很大。

(7)高维性:有些算法只能处理2到3维的低纬度数据,而处理高维数据的能力很弱,高维空间中的数据分布十分稀疏,且高度倾斜。

(8)可解释性和可用性:我们希望得到的聚类结果都能用特定的语义、知识进行解释,和实际的应用场景相联系。

几种常用的聚类算法从可伸缩性、适合的数据类型、高维性(处理高维数据的能力)、异常数据的抗干扰度、聚类形状和算法效率6个方面进行了综合性能评价,评价结果如表1所示:

算法名称 算法类型 可伸缩性 适合的数据类型 高维性 异常数据的抗干扰性 聚类形状 算法效率

|———|———|———|——–|———|——–|———|

ROCK 层次聚类 很高 混合型 很高 很高 任意形状 一般
BIRCH 层次聚类 较高 数值型 较低 较低 球形 很高
CURE 层次聚类 较高 数值型 一般 很高 任意形状 较高
CLARANS 划分聚类 较低 数值型 较低 较高 球形 较低
DENCLUE 密度聚类 较低 数值型 较高 一般 任意形状 较高
DBSCAN 密度聚类 一般 数值型 较低 较高 任意形状 一般
WaveCluster 网格聚类 很高 数值型 很高 较高 任意形状 很高
OptiGrid 网格聚类 一般 数值型 较高 一般 任意形状 一般
CLIQUE 网格聚类 较高 数值型 较高 较高 任意形状 较低

1231

Three types of existing methods for table structure recognition. img.png img_1.png img_2.png