Q-learning_(học_tăng_cường)

Q -learning là một thuật toán học tăng cường không mô hình. Mục tiêu của Q-learning là học một chính sách, chính sách cho biết máy sẽ thực hiện hành động nào trong hoàn cảnh nào. Nó không yêu cầu một mô hình (do đó hàm ý "không mô hình") của môi trường và nó có thể xử lý các vấn đề với chuyển đổi và phần thưởng ngẫu nhiên, mà không cần điều chỉnh."Đối với bất kỳ quá trình quyết định Markov hữu hạn (QTQDMKHH) nào, Q -learning tìm một chính sách tối ưu theo nghĩa là nó tối đa hóa giá trị mong đợi của tổng số phần thưởng trên bất kỳ và tất cả các bước tiếp theo, bắt đầu từ trạng thái hiện tại.[1] Q -learning có thể xác định một chính sách lựa chọn hành động tối ưu cho bất kỳ QTQDMKHH cụ thể nào, với thời gian thăm dò vô hạn và chính sách một phần ngẫu nhiên.[1] "Q" đặt tên theo tên hàm phần thưởng trả về, được sử dụng để cải thiện hoạt động và có thể nói là đại diện cho "chất lượng" của một hành động được thực hiện trong một trạng thái nhất định.[2]

Tài liệu tham khảo

WikiPedia: Q-learning_(học_tăng_cường) http://webdocs.cs.ualberta.ca/~sutton/book/ebook/n... http://papers.nips.cc/paper/3964-double-q-learning http://www.bkgm.com/articles/tesauro/tdl.html //edwardbetts.com/find_link?q=Q-learning_(h%E1%BB%... //books.google.com/books?id=YPjNuvrJR0MC //books.google.com/books?id=clKwynlfZYkC&pg=PA320-... //books.google.com/books?id=mGtQAAAAMAAJ&pg=PA397 //books.google.com/books?id=oLcAiySCow0C http://www.research.ibm.com/infoecon/paps/html/ijc... http://www.leemon.com/papers/1995b.pdf