პოლიტიკის შეფასების მსგავსად, მნიშვნელობების გამეორება ფორმალურად მოითხოვს გამეორებების უსასრულო რაოდენობას ზუსტად -მდე კონვერტაციისთვის. პრაქტიკაში, ჩვენ ვჩერდებით მას შემდეგ, რაც მნიშვნელობის ფუნქცია შეიცვლება მხოლოდ მცირე რაოდენობით სვიპში. … ყველა ეს ალგორითმი გადადის ოპტიმალურ პოლიტიკასთან დისკონტირებული სასრული MDP-ებისთვის.
მნიშვნელობის გამეორება დეტერმინისტულია?
მაგრამ, მნიშვნელობის გამეორება არის დეტერმინისტული შემთხვევის პირდაპირი განზოგადება. ის შეიძლება იყოს უფრო ძლიერი დინამიურ პრობლემებში, უფრო მაღალი გაურკვევლობისთვის ან ძლიერი შემთხვევითობისთვის. თუ პოლიტიკაში ცვლილება არ არის, დააბრუნეთ იგი როგორც ოპტიმალური პოლიტიკა, სხვა შემთხვევაში გადადით 1-ზე.
მნიშვნელობის გამეორება ოპტიმალურია?
3 მნიშვნელობის გამეორება. მნიშვნელობების გამეორება არის მეთოდი ოპტიმალური MDP პოლიტიკის და მისი მნიშვნელობის გამოსათვლელადV მასივის შენახვა იწვევს ნაკლებ შენახვას, მაგრამ უფრო რთულია ოპტიმალური მოქმედების დადგენა და საჭიროა კიდევ ერთი გამეორება იმის დასადგენად, თუ რომელი ქმედება იძლევა ყველაზე დიდ მნიშვნელობას. …
რა განსხვავებაა პოლიტიკის გამეორებასა და მნიშვნელობის გამეორებას შორის?
პოლიტიკის გამეორებისას, ჩვენ ვიწყებთ ფიქსირებული პოლიტიკით. პირიქით, მნიშვნელობის გამეორებისას ვიწყებთ მნიშვნელობის ფუნქციის არჩევით. შემდეგ, ორივე ალგორითმში, ჩვენ განმეორებით ვაუმჯობესებთ, სანამ არ მივაღწევთ კონვერგენციას.
რა არის გამეორების მნიშვნელობა?
ძირითადად, Value Iteration ალგორითმი ითვლის ოპტიმალური მდგომარეობის მნიშვნელობის ფუნქციას V (s)-ის შეფასების განმეორებით გაუმჯობესებით. ალგორითმი ახდენს V(s) ინიციალიზაციას თვითნებურ შემთხვევით მნიშვნელობებამდე. ის არაერთხელ აახლებს Q(s, a) და V(s) მნიშვნელობებს, სანამ ისინი არ გადაიყრებიან.