Basic Structures for Deep Learning Models

Posted on 2019-04-11 | Edited on 2019-06-02 | In 机器学习&深度学习 | Comments:

RNN(循环神经网络)

参考链接：RNN

不容易过拟合，比较好的处理sequence.

h’与h、b’与b的维度必须都一样。

双向RNN,f3存在的目的就是将f1与f2的output合在一起。

锥体RNN，好处是可以将sequence缩短。

一个RNN的样子。其中y是从h’算出来的。（最简单的RNN)

LSTM(长短时记忆网络)

(https://blog.csdn.net/jiede1/article/details/58595418)

$c^t$ 、$h^t$接其他的LSTM,LSTM的输入有两个vector,h是变化非常快的，而c变化较慢（记住以前的information）

LSTM的架构，将$x^t$与$h^{t-1}$分别乘以不同的matrix.

$c^{t-1}$的作用。

将$z^i$与$z$相乘，维度相同，再相加，得到$c^t$.

再次循环，反复使用。

GRU

GRU不像LSTM有两个速度不一样的输入。出的箭头表示乘上了一个matrix，上面那个等式是$h{t-1}$,GRU的运算量比较小。

下一层只连接上一层的若干块。（每一个神经元只管皮肤的一小块部分）

不同的神经元可以有相同的参数（参数共享）