什么是循环神经网络？

循环神经网络是一类专门用于处理序列数据的神经网络，通过维护隐藏状态来捕获前序时间步的信息，使网络能够学习文本、语音和时间序列数据中的时间依赖关系和模式。

快速了解

创建时间	1986 年由 David Rumelhart、Geoffrey Hinton 和 Ronald Williams 提出
规范文档	官方规范

工作原理

循环神经网络通过引入反馈循环，在神经网络处理序列信息的方式上带来了根本性的范式转变，使信息能够在时间步之间持续传递。与前馈网络不同，RNN 维护一个充当记忆的隐藏状态，该状态在每个时间步根据当前输入和前一个隐藏状态进行更新。然而，原始 RNN 在学习长距离依赖时会遇到梯度消失和梯度爆炸问题。这一局限性促使了门控架构的发展，如长短期记忆（LSTM）网络，它使用输入门、遗忘门和输出门来控制信息流动；以及门控循环单元（GRU），它简化了门控机制同时保持了有效性。尽管 Transformer 架构由于其并行化能力在许多 NLP 任务中已经取代了 RNN，但 RNN 在实时序列处理和资源受限环境中仍然具有重要价值。

主要特点

隐藏状态机制在序列时间步之间维护记忆
参数在所有时间步共享，支持可变长度序列处理
通过时间反向传播（BPTT）计算序列数据的梯度
LSTM 变体使用门控机制解决梯度消失问题
GRU 变体提供简化架构同时保持相当性能
双向变体同时从正向和反向处理序列

常见用途

语言建模和文本生成，用于预测序列中的下一个词
使用编码器-解码器 RNN 架构进行机器翻译
语音识别，将音频序列转换为文本转录
时间序列预测，用于股票价格、天气和传感器数据
情感分析和序列分类任务

示例

Loading code...

常见问题

什么是深度学习中的 RNN？

RNN（循环神经网络）是一种专为序列数据处理设计的神经网络。它维护隐藏状态来捕获前序时间步的信息，使网络能够学习文本、语音和时间序列等序列中的时间依赖关系。

RNN 和 LSTM 有什么区别？

LSTM（长短期记忆）是解决梯度消失问题的高级 RNN 变体。原始 RNN 难以处理长序列，而 LSTM 使用门控机制（输入门、遗忘门、输出门）来控制信息流动，捕获长距离依赖。

什么时候应该使用 RNN 而不是 Transformer？

在实时流处理、资源受限环境或在线学习场景中使用 RNN。在需要并行处理、长距离依赖或有充足计算资源时使用 Transformer。Transformer 通常在 NLP 基准测试中性能更好。

RNN 中的梯度消失问题是什么？

梯度消失问题发生在通过时间反向传播时梯度变得极小，使 RNN 难以学习长距离依赖。这是因为梯度被反复相乘，导致指数级衰减。

RNN 有哪些常见应用？

常见应用包括语言建模、机器翻译、语音识别、时间序列预测、情感分析、音乐生成，以及任何涉及时间上下文重要的序列数据任务。

什么是循环神经网络？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

什么是深度学习中的 RNN？

RNN 和 LSTM 有什么区别？

什么时候应该使用 RNN 而不是 Transformer？

RNN 中的梯度消失问题是什么？

RNN 有哪些常见应用？

相关工具

JSON 格式化

相关术语

神经网络

注意力机制

Transformer模型

深度学习

相关文章

注意力机制完全指南：从直觉理解到Transformer核心原理与代码实现

深度学习基础：神经网络、训练算法与现代架构详解

神经网络完全指南：从生物神经元到深度学习架构详解