Long short-term memory (LSTM) là 1 trong kiến trúc artificial recurrent neural network (RNN) được sử dụng trong nghành nghề dịch vụ Deep learning. Nó được khuyến cáo vào năm 1997 vì Sepp Hochreiter và Jurgen schmidhuber. Không y như các feed-forward neural networks, LSTM có các kết nối phản hồi. Nó có thể xử lý không chỉ là các điểm dữ liệu đơn nhất (chẳng hạn như hình ảnh) nhưng còn cục bộ chuỗi dữ liệu (chẳng hạn như speech hoặc video).
Bạn đang xem: Learn about long short
Ví dụ: LSTM là một ứng dụng cho những tác vụ như dấn dạng chữ viết tay ko được phân đoạn, được liên kết hoặc dìm dạng giọng nói.
Một đơn vị LSTM chung gồm 1 cell, một đầu vào gate, một output đầu ra gate và một forget gate. Cell ghi nhớ các giá trị trong khoảng thời gian tùy ý và bố gate điều chỉnh luồng tin tức input cùng output. LSTM rất phù hợp để classify, process, cùng predict bao gồm khoảng thời gian không xác định.
Mạng Long short-term memory (LSTM) là 1 trong phiên bạn dạng sửa đổi của mạng nơ-ron tuần hoàn, giúp dễ dàng ghi nhớ dữ liệu quá khứ trong cỗ nhớ.







Những thắc mắc phổ vươn lên là về Long short-term memory (LSTM)
Các câu hỏi phổ phát triển thành về Long short-term memory (LSTM) bao gồm:
LSTM là gì?LSTM là 1 kiến trúc mạng nơ-ron lại tái phát (recurrent neural network) được thiết kế để xử lý những chuỗi dữ liệu có độ dài béo và khó khăn trong việc giữ lại tin tức lâu dài.LSTM được sử dụng để gia công gì?
LSTM được sử dụng để xử lý những chuỗi tài liệu như văn bản, âm thanh, hình ảnh và video, và hoàn toàn có thể được vận dụng trong các nghành nghề dịch vụ như xử lý ngôn từ tự nhiên, nhận dạng giọng nói, dịch máy, v.v.LSTM không giống gì so với các mô hình mạng nơ-ron khác?
LSTM có tác dụng lưu trữ thông tin lâu dài và xử lý những chuỗi tài liệu dài và phức tạp hơn so với những kiến trúc mạng nơ-ron tái phát khác ví như mạng Elman giỏi mạng Jordan.Các thành phần thiết yếu của LSTM là gì?
Các thành phần chủ yếu của LSTM bao gồm cổng quên (forget gate), cổng đầu vào (input gate), đầu ra (output gate) cùng tế bào trạng thái (cell state).Các cổng của LSTM làm cho gì?
Cổng quên (forget gate) ra quyết định thông tin nào sẽ tiến hành lưu trữ và tin tức nào sẽ ảnh hưởng xóa; cổng đầu vào (input gate) ra quyết định thông tin new nào sẽ được lưu trữ vào tế bào trạng thái; áp sạc ra (output gate) ra quyết định thông tin nào sẽ tiến hành truyền đi cùng tế bào tinh thần (cell state) là khu vực lưu trữ thông tin lâu dài.LSTM có những áp dụng nào vào xử lý ngôn ngữ tự nhiên?
LSTM được áp dụng để giải quyết và xử lý các vụ việc trong cách xử lý ngôn ngữ thoải mái và tự nhiên như: phân nhiều loại văn bản, dịch máy, sinh văn bạn dạng tự động, tổng phù hợp giọng nói, với xử lý dữ liệu ngôn ngữ thoải mái và tự nhiên khác.LSTM gồm những ứng dụng nào trong xử lý âm thanh và hình ảnh?
LSTM hoàn toàn có thể được thực hiện để xử lý các vụ việc trong xử lý music và hình hình ảnh như: nhấn dạng tiếng nói dạng (voice recognition), phân loại hình ảnh, dấn diện khuôn mặt, vạc hiện đối tượng người tiêu dùng và các ứng dụng khác trong nghành nghề thị giác vật dụng tính.LSTM tất cả nhược điểm gì?
Một giữa những nhược điểm của LSTM là việc huấn luyện mô hình rất có thể tốn nhiều thời hạn và khoáng sản tính toán. Ko kể ra, cũng hoàn toàn có thể xảy ra hiện tượng quá khớp (overfitting) nếu không sử dụng những kỹ thuật chính quy hóa (regularization).LSTM được triển khai như vậy nào?
LSTM rất có thể được triển khai bằng cách sử dụng các thư viện và framework của mạng nơ-ron như Keras, Tensor
Flow, Py
Torch, v.v. Những công núm này giúp cho việc xây dựng, huấn luyện và đào tạo và triển khai quy mô LSTM trở nên dễ dàng và đơn giản và dễ dàng hơn.Làm gắng nào để về tối ưu hóa mô hình LSTM?
Để về tối ưu hóa mô hình LSTM, hoàn toàn có thể sử dụng những kỹ thuật như thuật toán về tối ưu Adam, giảm tỷ lệ học tập (learning rate decay), sử dụng kỹ thuật dropout và thiết yếu quy hóa L2 (L2 regularization). Bên cạnh ra, việc điều chỉnh các siêu thông số như số lớp LSTM, số đơn vị chức năng ẩn, con số epoch, v.v. Cũng hoàn toàn có thể giúp tăng độ đúng đắn và công suất của quy mô LSTM.
Dịch vì chưng Trần Tuấn Anh, Đàm Minh Tiến, Hung Nguyễn và Nguyễn Trí Minh
Tổng quan
Kiến trúc của một mạng RNN truyền thống lịch sử Các mạng neural hồi quy, còn được đổi thay đến như là RNNs, là 1 trong lớp của mạng neural cho phép đầu ra được thực hiện như đầu vào trong những lúc có các trạng thái ẩn. Thông thường là như sau:

<oxeda^=g_1(W_aaa^+W_axx^+b_a)quad extrmvàquadoxedy^=g_2(W_yaa^+b_y)>
với $W_ax, W_aa, W_ya, b_a, b_y$ là các hệ số được share tạm thời với $g_1, g_2$ là những hàm kích hoạt.

Ưu điểm | Hạn chế |
• năng lực xử lí đầu vào với bất kì độ nhiều năm nào • form size mô hình ko tăng theo kích cỡ đầu vào • vượt trình giám sát và đo lường sử dụng các thông tin cũ • Trọng số được share trong suốt thời gian | • tính toán chậm • cực nhọc để truy vấn các thông tin xuất phát từ 1 khoảng thời hạn dài trước đó • không thể xem xét bất cứ đầu vào sau này nào cho trạng thái hiện nay tại |
Ứng dụng của RNNs Các quy mô RNN đa số được thực hiện trong lĩnh vực xử lí ngôn ngữ tự nhiên và thoải mái và ghi thừa nhận tiếng nói. Các ứng dụng không giống được tổng kết trong bảng dưới đây:
Các một số loại RNN | Hình minh hoạ | Ví dụ |
Một-Một$T_x=T_y=1$ | ![]() | Mạng neural truyền thống |
Một-nhiều$T_x=1, T_y>1$ | ![]() | Sinh nhạc |
Nhiều-một$T_x>1, T_y=1$ | ![]() | Phân nhiều loại ý kiến |
Nhiều-nhiều$T_x=T_y$ | ![]() | Ghi dấn thực thể tên |
Nhiều-nhiều$T_x eq T_y$ | ![]() | Dịch máy |
Hàm mất non Trong trường hợp của mạng neural hồi quy, hàm mất đuối $mathcalL$ của tất cả các bước thời gian được quan niệm dựa theo mất mát sinh sống mọi thời khắc như sau:
Lan truyền ngược theo thời gian lan truyền ngược được ngừng ở mỗi 1 thời điểm cố thể. Ở bước $T$, đạo hàm của hàm mất non $mathcalL$ cùng với ma trận trọng số $W$ được trình diễn như sau:
<oxed_(t)>
Xử lí phụ thuộc vào dài hạn
Các hàm kích hoạt hay được dùng Các hàm kích hoạt hay được sử dụng trong các modules RNN được diễn đạt như sau:
Sigmoid | Tanh | RELU |
$displaystyle g(z)=frac11+e^-z$ | $displaystyle g(z)=frace^z-e^-ze^z+e^-z$ | $displaystyle g(z)=max(0,z)$ |
![]() | ![]() | ![]() |
Vanishing/exploding gradient hiện tượng lạ vanishing cùng exploding gradient thường chạm chán trong ngữ cảnh của RNNs. Lí do nguyên nhân chúng thường xẩy ra đó là khó để sở hữu được sự nhờ vào dài hạn do multiplicative gradient hoàn toàn có thể tăng/giảm theo hàm mũ tương xứng với con số các tầng.
Gradient clipping là một kĩ thuật được thực hiện để giải quyết vấn đề exploding gradient xảy ra khi thực hiện lan truyền ngược. Bằng việc số lượng giới hạn giá trị lớn số 1 cho gradient, hiện tượng lạ này đang được kiểm soát điều hành trong thực tế.

Các một số loại cổng Để giải quyết và xử lý vấn đề vanishing gradient, những cổng cụ thể được sử dụng trong một vài các loại RNNs cùng thường có mục đích rõ ràng. Bọn chúng thường được kí hiệu là $Gamma$ và bằng với:
Với $W, U, b$ là những hệ số của một cổng và $sigma$ là hàm sigmoid. Các loại chủ yếu được tổng kết sinh hoạt bảng bên dưới đây:
Loại cổng | Vai trò | Được thực hiện trong |
Cổng cập nhật $Gamma_u$ | Dữ liệu cũ nên gồm tầm đặc biệt quan trọng như chũm nào ở hiện tại tại? | GRU, LSTM |
Cổng relevance $Gamma_r$ | Bỏ qua tin tức phía trước? | GRU, LSTM |
Cổng quên $Gamma_f$ | Xoá ô hay không xoá? | LSTM |
Cổng ra $Gamma_o$ | Biểu thị một ô ở tại mức độ bao nhiêu? | LSTM |
GRU/LSTM Gated Recurrent Unit (GRU) và các đơn vị bộ nhớ dài-ngắn hạn (LSTM) ứng phó với vấn đề vanishing gradient khi gặp phải bởi mạng RNNs truyền thống, với LSTM là sự tổng quát lác của GRU. Phía bên dưới là bảng tổng kết những phương trình đặc thù của mỗi kiến trúc:
Đặc tính | Gated Recurrent Unit (GRU) | Bộ ghi nhớ dài-ngắn hạn (LSTM) |
$ ildec^$ | $ extrmtanh(W_c | $ extrmtanh(W_c |
$c^$ | $Gamma_ustar ildec^+(1-Gamma_u)star c^$ | $Gamma_ustar ildec^+Gamma_fstar c^$ |
$a^$ | $c^$ | $Gamma_ostar c^$ |
Các phụ thuộc | ![]() | ![]() |
Chú ý: kí hiệu ⋆ chỉ phép nhân từng thành phần với nhau giữa hai vectors.
Các phát triển thành thể của RNNs Bảng dưới đây tổng kết các kiến trúc thường được thực hiện khác của RNN:
Học tự đại diện
Trong phần này, họ kí hiệu $V$ là tập tự vựng cùng $|V|$ là kích thước của nó.
Giải say mê và những kí hiệu
Các kĩ thuật màn biểu diễn Có nhị cách chính để biểu diễn từ được tổng kết sinh hoạt bảng mặt dưới:
Biểu diễn 1-hot | Word embedding |
![]() | ![]() |
• để ý $o_w$ • Tiếp cận Naive, không tồn tại thông tin chung | • xem xét $e_w$ • cẩn thận độ tương đồng của các từ |
Embedding matrix cho 1 từ $w$, embedding matrix $E$ là 1 trong những ma trận tham chiếu bộc lộ 1-hot $o_w$ của chính nó với embedding $e_w$ của nó như sau:
Chú ý: học embedding matrix hoàn toàn có thể hoàn thành bằng cách sử dụng các mô hình target/context likelihood.
Word embeddings
Word2vec Word2vec là một trong những framework triệu tập vào việc học word embeddings bằng cách ước lượng kĩ năng mà một từ mang lại trước được bao quanh bởi những từ khác. Các mô hình phổ biến bao hàm skip-gram, negative sampling cùng CBOW.

Skip-gram quy mô skip-gram word2vec là một task học tất cả giám sát, nó học những word embeddings bằng phương pháp đánh giá kỹ năng của bất kể target word $t$ cho trước nào xảy ra với context word $c$. Bằng bài toán kí hiệu $ heta_t$ là tham số đi kèm với $t$, xác suất $P(t|c)$ được tính như sau:
Chú ý: cùng tổng tất cả các trường đoản cú vựng trong mẫu mã số của phần softmax khiến mô hình này tốn nhiều giá cả tính toán. CBOW là một mô hình word2vec không giống sử dụng những từ xung quanh để tham dự đoán một từ mang lại trước.
Xem thêm: Soft Swing Là Gì - Có Nên Trao Đổi Bạn Tình Trong Mối Quan Hệ
Negative sampling Nó là 1 trong những tập của các bộ phân loại nhị phân sử dụng logistic regressions với kim chỉ nam là nhận xét khả năng nhưng một ngữ cảnh mang đến trước và những target words cho trước có thể xuất hiện nay đồng thời, với các mô hình đang được huấn luyện và giảng dạy trên các tập của $k$ negative examples cùng 1 positive example. Mang đến trước context word $c$ cùng target word $t$, dự đoán được biểu đạt bởi:
Chú ý: cách tiến hành này tốn ít giá cả tính toán hơn quy mô skip-gram.
Glo
Ve mô hình Glo
Ve, viết tắt của global vectors for word representation, nó là 1 trong kĩ thuật word embedding sử dụng ma trận đồng lộ diện $X$ với từng $X_i,j$ là tần số mà trường đoản cú đích (target) $i$ xuất hiện thêm tại văn cảnh $j$. Cost function $J$ của chính nó như sau:
$f$ là hàm trong các với $X_i,j=0Longrightarrow f(X_i,j)=0$. Với tính đối xứng mà $e$ cùng $ heta$ dành được trong quy mô này, word embedding ở đầu cuối $e_w^( extrmfinal)$ được quan niệm như sau:
Chú ý: Các bộ phận riêng của những word embedding học được không nhất thiết là buộc phải thông dịch được.
So sánh những từ
Độ tương đồng cosine Độ tương đương cosine giữa những từ $w_1$ với $w_2$ được trình diễn như sau:
$t$-SNE $t$-SNE (t-distributed Stochastic Neighbor Embedding) là 1 trong kĩ thuật nhằm mục tiêu giảm đi số chiều của không khí embedding. Vào thực tế, nó thường được thực hiện để trực quan lại hoá những word vectors trong không gian 2 chiều (2D).
Mô hình ngôn ngữ
Tổng quan lại Một quy mô ngôn ngữ vẫn dự đoán tỷ lệ của một câu $P(y)$.
Mô hình $n$-gram mô hình này là giải pháp tiếp cận naive với mục đích định lượng phần trăm mà một biểu thị xuất hiện tại trong văn bản bằng phương pháp đếm số lần mở ra của nó vào tập dữ liệu huấn luyện.
Độ lếu láo tạp Các quy mô ngôn ngữ hay được review dựa theo độ đo hỗ tạp, cũng rất được biết mang đến là PP, hoàn toàn có thể được hiểu như là nghịch đảo xác suất của tập dữ liệu được chuẩn chỉnh hoá bởi số lượng các tự $T$. Độ hỗn tạp càng phải chăng thì càng giỏi và được khái niệm như sau:
<oxed extrmPP=prod_t=1^Tleft(frac1sum_j=1^y_j^(t)cdot widehaty_j^(t) ight)^frac1T>
Chú ý: PP thường xuyên được thực hiện trong $t$-SNE.
Dịch máy
Tổng quan Một quy mô dịch máy giống như với mô hình ngôn ngữ kế bên nó bao gồm một mạng encoder được để phía trước. Do lí vày này, đôi khi nó còn được nghe biết là quy mô ngôn ngữ bao gồm điều kiện. Kim chỉ nam là tìm kiếm một câu văn $y$ như sau:
Tìm kiếm Beam Nó là 1 giải thuật tra cứu kiếm heuristic được thực hiện trong dịch máy và ghi nhận tiếng nói để tìm câu văn $y$ đúng nhất khớp ứng với đầu vào $x$.
• cách 1: Tìm top B những từ y • bước 2: Tính phần trăm có đk y|x,y,...,y • bước 3: Giữ đứng top B các tổ hợp x,y,...,y
Chú ý: nếu phạm vi của beam được thiết lập cấu hình là 1, thì nó tương đương với tìm kiếm kiếm tham lam naive.
Độ rộng Beam Độ rộng lớn beam $B$ là 1 trong tham số của giải mã tìm tìm beam. Những giá trị khủng của $B$ sản xuất ra kết quả tốt hơn tuy vậy với hiệu năng thấp hơn với lượng bộ nhớ sử dụng vẫn tăng.
Chuẩn hoá độ lâu năm Đến nâng cấp tính ổn định định, beam search thường được vận dụng mục tiêu chuẩn chỉnh hoá sau, thường được call là mục tiêu chuẩn hoá log-likelihood, được tư tưởng như sau:
<oxedx,y^, ..., y^)Big>>
Chú ý: tham số $alpha$ có thể được xem như thể softener, cùng giá trị của nó thường bên trong đoạn 0.5 và 1.
Phân tích lỗi Khi có được một bạn dạng dịch tồi $widehaty$, chúng ta có thể tự hỏi rằng tại sao bọn họ không giành được một kết quả dịch xuất sắc $y^*$ bằng việc tiến hành việc phân tích lỗi như sau:
Trường hợp | $P(y^*|x)>P(widehaty|x)$ | $P(y^*|x)leqslant P(widehaty|x)$ |
Nguyên nhân sâu xa | Lỗi Beam search | lỗi RNN |
Biện pháp tự khắc phục | Tăng beam width | • Thử phong cách xây dựng khác • bao gồm quy • lấy nhiều tài liệu hơn |
Điểm Bleu Bilingual evaluation understudy (bleu) score định lượng nấc độ xuất sắc của dịch máy bằng phương pháp tính một độ tương đồng dựa trên dự kiến $n$-gram. Nó được tư tưởng như sau:
Chú ý: một mức phân phát ngắn có thể được áp dụng với các dự đoán dịch ngắn nhằm tránh câu hỏi làm thổi phồng cực hiếm bleu score.
Chú ý
Attention mã sản phẩm Mô hình này được cho phép một RNN tập trung vào các phần ví dụ của đầu vào được cẩn thận là quan lại trọng, nó giúp cải thiện hiệu năng của tế bào hình hiệu quả trong thực tế. Bằng bài toán kí hiệu $alpha^$ là nấc độ để ý mà áp ra output $y^$ phải có đối với hàm kích hoạt $a^$ với $c^$ là ngữ cảnh ở thời điểm $t$, chúng ta có:
Attention weight Sự chú ý mà cổng output $y^$ nên có với hàm kích hoạt $a^$ với $lpha^$ được xem như sau: