神经网络 - 机器学习
概述
机器学习(Machine Learning,ML)就是让计算机从数据中进行自动学习,得到某种知识(或规律)。作为一门学科,机器学习通常指一类问题以及解决这类问题的方法,即如何从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。
手写数字识别是一个经典的机器学习任务,对人来说很简单,但对计算机来说却十分困难。我们很难总结每个数字的手写体特征,或者区分不同数字的规则,因此设计一套识别算法是一项几乎不可能的任务。
因此,人们开始尝试采用另一种思路,即让计算机“看”大量的样本,并从中学习到一些经验,然后用这些经验来识别新的样本。要识别手写体数字,首先通过人工标注大量的手写体数字图像(即每张图像都通过人工标记了它是什么数字),这些图像作为训练数据,然后通过学习算法自动生成一套模型,并依靠它来识别新的手写体数字。这个过程和人类学习过程也比较类似,我们教小孩子识别数字也是这样的过程。这种通过数据来学习的方法就称为机器学习的方法。

概念
将一个标记好特征以及标签的物体看作一个样本(Sample),也经常称为示例(Instance)。
一组样本构成的集合称为数据集(Data Set),也称为语料库(Corpus)。
一般将数据集分为三部分:训练集(Training Set)、验证集(Validation Set)和测试集(Test Set)
- 训练集(Training Set):用来训练模型的,直接学习数据的特征和规律;
- 验证集(Validation Set):用于模型选择和超参数调优;
- 测试集(Test Set):提供对模型最终、最客观、无偏的性能评估。
机器学习的基本流程.对一个预测任务,输入特征向量为 𝒙,输出标签为𝑦,我们选择一个函数集合ℱ,通过学习算法𝒜和一组训练样本𝒟,从ℱ中学习到函数𝑓∗(𝒙)。这样对新的输入𝒙,就可以用函数𝑓∗(𝒙)进行预测。

