Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

chapter_recurrent-modern/index #787

Merged
merged 2 commits into from
May 6, 2021
Merged
Changes from 1 commit
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Prev Previous commit
Update index.md
  • Loading branch information
goldmermaid authored May 6, 2021
commit 0f9a75f072a6c964cdadb972eb7947a6f76eb413
17 changes: 13 additions & 4 deletions chapter_recurrent-modern/index.md
Original file line number Diff line number Diff line change
@@ -1,11 +1,20 @@
# 现代循环神经网络
:label:`chap_modern_rnn`

我们已经介绍了循环神经网络的基础知识,这种网络可以更好地处理序列数据。为了演示,我们在文本数据上实现了基于循环神经网络的语言模型。但是,这些技术对于从业人员面对当今各种序列学习问题时可能并不够用。
前文中我们已经介绍了循环神经网络的基础知识,这种网络可以更好地处理序列数据。
同时,我们在文本数据上实现了基于循环神经网络的语言模型。
但是,对于面对当今各种序列学习问题的从业人员,这些技术可能并不够用。

例如,实践中一个常见问题是循环神经网络的数值不稳定性。尽管我们已经应用了梯度裁剪等实现技巧,但是通过设计更复杂的序列模型可以进一步缓解这个问题。具体来说,门控循环神经网络在实践中更常见。首先,我们将介绍两个广泛使用的网络,即 *门控循环单元* (gated recurrent units, GRU) 和 *长短期记忆网络* (long short-term memory, LSTM)。然后,我们将基于迄今为止讨论过的一个单向隐藏层来扩展循环神经网络架构。我们将描述具有多个隐藏层的深层架构,并讨论基于前向和后向循环计算的双向设计。现代循环网络经常采用这种扩展。在解释这些循环神经网络的变体时,我们将继续考虑 :numref:`chap_rnn` 中引入的语言模型问题。
例如,循环神经网络在实践中的一个常见问题是数值不稳定性。
尽管我们已经应用了梯度裁剪等实现技巧,但是通过设计更复杂的序列模型可以进一步缓解这个问题。
本章中,我们首先将介绍两个广泛使用的网络,即 *门控循环单元* (gated recurrent units, GRU) 和 *长短期记忆网络* (long short-term memory, LSTM)。
然后,我们将基于单向隐藏层来扩展循环神经网络架构,现代循环网络经常采用这种扩展。
我们将描述具有多个隐藏层的深层架构,并讨论基于前向和后向循环计算的双向设计。
在解释这些循环神经网络的变体时,我们将继续考虑 :numref:`chap_rnn` 中引入的语言模型问题。

事实上,语言建模只揭示了序列学习能力的一小部分。在各种序列学习问题中,如自动语音识别、文本到语音的转换和机器翻译,输入和输出都是任意长度的序列。为了说明如何拟合这种类型的数据,我们将以机器翻译为例介绍基于循环神经网络的“编码器-解码器”结构和束搜索,并用它们来生成序列。
事实上,语言建模只描绘了序列学习能力的冰山一角。
在各种序列学习问题中,如自动语音识别、文本到语音的转换和机器翻译,输入和输出都是任意长度的序列。
本章中,我们将以机器翻译为例介绍基于循环神经网络的“编码器-解码器”结构和束搜索,并用它们来生成序列。

```toc
:maxdepth: 2
Expand All @@ -18,4 +27,4 @@ machine-translation-and-dataset
encoder-decoder
seq2seq
beam-search
```
```