Phân_loại_bằng_thống_kê

Phân loại bằng thống kê là một thủ tục thống kê trong đó các thể riêng biệt sẽ được sắp vào từng nhóm dựa trên số lượng thông tin về một hay nhiều tính chất kế thừa của cá thể đó (được xem như là các điểm, các biến, các đặc điểm, v.v...) và dựa vào một tập huấn luyện của các cá thể đã được đánh nhãn sẵn.Về mặt hình thức, bài toán có thể diễn giải như sau: cho sẵn một tập huấn luyện { ( x 1 , y ) , … , ( x n , y ) } {\displaystyle \{(\mathbf {x_{1}} ,y),\dots ,(\mathbf {x_{n}} ,y)\}} ta cần tạo ra một phân loại h : X → Y {\displaystyle h:{\mathcal {X}}\rightarrow {\mathcal {Y}}} mà có thể ánh xạ một đối tượng x ∈ X {\displaystyle \mathbf {x} \in {\mathcal {X}}} vào nhãn phân loại y ∈ Y {\displaystyle y\in {\mathcal {Y}}} của nó. Ví dụ, nếu bài toán là lọc spam, thì x i {\displaystyle \mathbf {x_{i}} } là một biểu diễn nào nó cho một thư điện tử và y {\displaystyle y} thì hoặc là "Spam" hoặc "Không Spam".Các giải thuật phân loại bằng thống kê thường được sử dụng trong các hệ thống nhận dạng mẫu.Chú ý: trong cộng đồng sinh thái học, thuật ngữ "phân loại" là đồng nghĩa với từ được biết đến (trong ngành học máy) là phân nhóm (clustering). Xem bài viết đó để biết rõ hơn về các kĩ thuật không có giám sát.