前言
同时在LP 之分词技术概述中有提到 HMM 模型,虽然此方法在现代的作用和地位有所下降,但是依然是非常值得了解的学习机器学习经典算法。
了解了什么是蒙特卡罗方法之后,自然引出了马尔可夫链这个概念,其在 WIKI 的解释如下:
马尔可夫链(英语:Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain,缩写为DTMC),因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。
在马尔可夫链的每一步,系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。
上一篇文章提到了 logistics regression 、多分类的 softmax 算法及梯度等概念,其实就可以很自然的引出深度学习了。
引用WiKi的定义:
深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。
早在1958年就提出了 perceptron 的模型,即最简单的线性感知机模型,在当时引起了很大的轰动,甚至提出了机器可以取代人的说法,然而后来就被人质疑,现在看来线性感知机的限制显而易见。
然后在20世纪80年代,根据之前 perceptron 提出了 multi-layer perceptron(又叫 Neural Network), 这个模型和当今的深度神经网络是没有显著区别的。1986年提出了反向传播的概念,但是通常大于三层的 hidden layer 就没有效果了,神经网络学习出现了梯度消失的问题。
后来在 2006年,在上述神经网络的算法模型上,取得了一些改进(RBM initialization),将之前 multi-layer perceptron 改了个名字 —— Deep Learning 重新提了出来,2009年的时候 DL 的运算开始利用 GPU,后面其在各个领域取得了一些突破性的应用进展,就火起来了。
所以,深度学习并不是什么新鲜事物,只是换了个名字的稍微改进的旧模型。