如何理解机器学习中的无监督学习

无监督学习（Unsupervised Learning）是指在没有已标记的训练数据的情况下，通过学习输入数据的内在结构和关系来发现新的模式、聚类或降维的机器学习问题。无监督学习模型的任务是找到一种函数，该函数可以揭示输入数据中的隐藏结构或关系。常见的无监督学习任务包括聚类、降维和异常检测等。

简单地说，无监督学习是用算法来分析并聚类未标记的数据集，以便发现数据中隐藏的模式和规律，而不需要人工干预（因此，被称为“无监督的”学习）。

无监督学习示例

无监督学习的输入与输出

图中示例是输入一些图像，由系统来进行分类。虽然没有被灌输哪些图片是猫的哪些是狗，但最终算法会把猫与狗分成两类

无监督学习模型用于三个主要任务: “聚类”、“关联”和“降维”

聚类

聚类（Clustering）是一种数据挖掘技术，用于根据未标记数据的相似性或差异性对它们进行分类分组。聚类是指将一组数据划分为若干个子集（或簇）的过程，使得同一簇中的数据相互之间的相似度较高，而不同簇中的数据相互之间的相似度较低。聚类算法的任务是自动发现数据集中的簇结构，并将数据点分配到相应的簇中。

常见的聚类算法包括K-means、DBSCAN和层次聚类等。这个技术适用于细分市场的划分、图像压缩等领域。

关联

关联（Association），使用不同的规则来查找给定数据集中变量之间的关系。这些方法经常用于“购物车”分析和推荐引擎，类似于“购买此商品的客户也购买了…”这种电商中的推荐算法。

降维

降维（Dimensionality Reduction），当特定数据集中的特征（或维度）太多时，它在保持数据完整性的同时，将数据输入的数量（维度）减少到可管理可操作的大小。要知道有时候数据维度可能达到几千上万或更大的规模，这被称为“维度爆炸”。在这种情况下，我们首先要对数据维度进行筛选去除干扰的无重要意义的维度，即降维。因此，这种技术通常用于数据的预处理阶段，例如用自编码器把图片数据中的噪点去除，以提高图像质量。

其实，无监督学习仍然需要人工干预来验证它的输出是否合理。比如数据分析人员需要验证电商推荐引擎将婴儿服装与尿不湿、苹果酱和吸管杯分组是否有实际意义。反过来，如果有一天，算法把两个我们人类看起来毫不相关的两种商品分类到一起，那我们或许会发现某种人类的潜在需求，我们需要认真对待这种分类，但这种潜在需求是否真的存在，我们尚且不知，仍需要市场去检验，但这至少启发了我们。

监督学习与无监督学习的本质区别，就在于用来训练的数据是否已经被标注。这也导致了监督学习与无监督学习各有利弊。监督学习在处理大量数据的问题时比较吃力，但是一旦学习到位，其结果将非常准确和值得信赖。而无监督学习可以很轻松地同时处理大量的数据，可是是学习出来的结果不具备透明度，即无法解释。但也因此导致无监督学习可以发掘出许多以前未曾被人类注意的新规律。

如何理解机器学习中的无监督学习

聚类

关联

降维

相关推荐