რატომ ხსნის lstm გაქრობის გრადიენტს?

Სარჩევი:

რატომ ხსნის lstm გაქრობის გრადიენტს?
რატომ ხსნის lstm გაქრობის გრადიენტს?

ვიდეო: რატომ ხსნის lstm გაქრობის გრადიენტს?

ვიდეო: რატომ ხსნის lstm გაქრობის გრადიენტს?
ვიდეო: Recurrent Neural Networks (RNNs), Clearly Explained!!! 2024, ოქტომბერი
Anonim

LSTM წყვეტს პრობლემას უნიკალური დანამატის გრადიენტური სტრუქტურის გამოყენებით, რომელიც მოიცავს პირდაპირ წვდომას დავიწყების კარიბჭის აქტივაციებზე, რაც საშუალებას აძლევს ქსელს წაახალისოს სასურველი ქცევა შეცდომის გრადიენტიდან ხშირი კარიბჭის განახლების გამოყენებით. სასწავლო პროცესის ყოველ საფეხურზე.

როგორ ხსნის LSTM აფეთქების გრადიენტს?

ძალიან მოკლე პასუხი: LSTM აშორებს უჯრედის მდგომარეობას (ჩვეულებრივ აღნიშნავს c) და დამალულ ფენას/გამომავალს (ჩვეულებრივ აღნიშნავს h-ით) და აკეთებს მხოლოდ c-ს დანამატის განახლებებს, რაც c მეხსიერებას უფრო სტაბილურს ხდის. ამრიგად, გრადიენტი, რომელიც მიედინება c-ში, შენარჩუნებულია და ძნელად გაქრება (აქედან გამომდინარე, საერთო გრადიენტი ძნელია გაქრება).

როგორ შეიძლება გადაიჭრას გაუჩინარებული გრადიენტის პრობლემა?

გადაწყვეტილებები: უმარტივესი გამოსავალია გამოიყენოთ სხვა აქტივაციის ფუნქციები, როგორიცაა ReLU, რომელიც არ იწვევს მცირე წარმოებულს. ნარჩენი ქსელები კიდევ ერთი გამოსავალია, რადგან ისინი უზრუნველყოფენ ნარჩენ კავშირებს პირდაპირ წინა ფენებთან.

რა პრობლემას წყვეტს LSTM?

LSTMs. LSTM (მოკლე ხანმოკლე მეხსიერებისთვის) უპირველეს ყოვლისა წყვეტს გაქრობის გრადიენტის პრობლემას უკანა გავრცელებაში. LSTM იყენებს კარიბჭის მექანიზმს, რომელიც აკონტროლებს დამახსოვრების პროცესს. LSTM-ებში ინფორმაციის შენახვა, ჩაწერა ან წაკითხვა შესაძლებელია კარიბჭის მეშვეობით, რომელიც იხსნება და იხურება.

რატომ აჩერებს LSTM თქვენს გრადიენტებს უკანა უღელტეხილიდან ხედის გაქრობას?

ამის მიზეზი ის არის, რომ, ამ მუდმივი შეცდომის ნაკადის განსახორციელებლად, გრადიენტის გაანგარიშება შეკვეცა ისე, რომ არ დაბრუნებულიყო შეყვანის ან კანდიდატის კარიბჭეზე..

გირჩევთ: