主要了解机器学习的主要概念和几种不同类型的学习算法。

机器学习的三种方法

监督学习

使用有类标的数据构建模型,使用经训练得到的模型对未来的数据进行预测。预测方法主要有两种:

  • 使用分类进行预测

    分类是监督学习的一个子类,目的是对过往已知示例的观察与学习,实现对新样本类标的预测。检测垃圾邮件的例子就是一种二类标的方法,当然还有多类别分类的例子,比如字母表中每个字母的识别。

  • 使用回归预测连续输出值

    这种方法用于对连续型输出变量进行预测,比如学习成绩分数和自习时间多少之间进行预测。

强化(半监督)学习

强化学习的目标在于构建一个系统,在于环境的交互过程中逐步提高系统的性能。环境的当前状态中通常包含者一个反馈信号。常用的例子是象棋对弈的例子,在这个例子中,系统根据棋盘上的局势(环境)来决定落子的位置,而游戏结束的输赢可以当做是反馈信号。

无监督学习

在这种学习方法下,我们将会处理无类标数据或者是总体趋势不明朗的数据,来提取出有效信息探索数据的整体结构。

  • 通过聚类发现数据的子群

    聚类是一种探索性的数据分析技术,在没有任何相关先验信息的情况下,它可以帮我们将数据分成有意义的小组别。

  • 数据压缩中的降维

    讲高维数据压缩,是之转变为相对容易处理的维度数据。

机器学习系统的蓝图

数据预处理

为了尽可能发回机器学习算法的性能,往往需要对原始数据进行处理使得它能达到算法要求的标准,同时选择较高关联的属性作为训练数据。

选择预测模型类型并进行训练和校正

选择合适的机器学习算法来对训练数据集进行学习得到模型,同时利用反馈信号来对模型进行校正。

使用未知数据进行预测

对未来的数据进行预测。