Thực đơn
Hàm_softmax Học tăng cườngTrong lĩnh vực của học tăng cường, một hàm softmax có thể được sử dụng để chuyển đổi giá trị thành xác suất. Các hàm thường dùng là:[3]
P t ( a ) = exp ( q t ( a ) / τ ) ∑ i = 1 n exp ( q t ( i ) / τ ) , {\displaystyle P_{t}(a)={\frac {\exp(q_{t}(a)/\tau )}{\sum _{i=1}^{n}\exp(q_{t}(i)/\tau )}}{\text{,}}}nơi giá trị của hành động {\displaystyle } tương ứng với hiệu quả mong muốn của hành động a và {\displaystyle } (một sự ám chỉ trong thống kê cơ học). Với nhiệt độ cao ( {\displaystyle } ), tất cả hành động như có cùng một xác suất và với nhiệt độ càng thấp hơn thì sự ảnh hưởng của hiệu quả mong muốn đến xác suất càng cao. Với nhiệt độ thấp ( {\displaystyle } ), xác suất của hành động với hiệu quả mong muốn lớn nhất sẽ có xu hướng tiến tới 1.
Thực đơn
Hàm_softmax Học tăng cườngLiên quan
Hàm số Hàm số chẵn và lẻ Hàm số bậc hai Hàm số bậc ba Hàm sóng Hàm số đơn điệu Hàm số sơ cấp Hàm sinh mô men Hàm số cơ bản Hàm sincTài liệu tham khảo
WikiPedia: Hàm_softmax http://www.faqs.org/faqs/ai-faq/neural-nets/part2/...