首页
登录 | 注册

机器学习-1(基础概念介绍)

  首先我们要明白一点,什么是机器学习?

我现在的理解就是数据,以及数据背后能够被我们挖掘的含义。我们能利用这些数据去做些什么

 

 机器学习的主要任务就是分类

为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据

当机器学习程序开始运行时,使用训练样本集作为算法的输入,训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量,由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别。由此我们就可以得到这个算法的实际精确度。

一旦分类程序,经过测试满足精确度要求,我们是否就认为机器已经学会了相关的算法了呢?这部分工作就叫做知识表示。

知识表示可以采用规律集的形式,也可以采用概率分布的形式,设置可以是训练样本集中的一个实例。

机器学习一个主要任务就是解决分类,将实例数据划分到合适的分类中。机器学习的另一个任务就是回归,它主要是用来做预测。

分类和回归属于监督学习,这类学习的算法,它们知道预测什么,即目标变量的分类信息。

与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程叫做聚类;将寻找描述数据统计值的过程叫做密度估计。此外,无监督学习还可以减少数据特征的维度

如果想要预测目标标量的值,则可以选择监督学习算法,否则选择无监督学习算法。

如果是监督学习算法,如果目标变量是离散型,则我们可以使用分类器算法;如果是连续型的值的话,那我们就使用回归算法。

如果不想预测目标变量的值,则使用无监督学习算法。如果需要把数据划分为离散的组,那我们使用聚类算法;如果还需要顾及各组数据与其他分组的相似程度,那我们使用密度估计算法。

 



2020 jeepxie.net webmaster#jeepxie.net
10 q. 0.008 s.
京ICP备10005923号