Phân loại bằng thống kê là một thủ tục
thống kê trong đó các thể riêng biệt sẽ được sắp vào từng nhóm dựa trên số lượng thông tin về một hay nhiều tính chất kế thừa của cá thể đó (được xem như là các điểm, các biến, các đặc điểm, v.v...) và dựa vào một
tập huấn luyện của các cá thể đã được đánh nhãn sẵn.Về mặt hình thức, bài toán có thể diễn giải như sau: cho sẵn một tập huấn luyện { ( x 1 , y ) , … , ( x n , y ) } {\displaystyle \{(\mathbf {x_{1}} ,y),\dots ,(\mathbf {x_{n}} ,y)\}} ta cần tạo ra một
phân loại h : X → Y {\displaystyle h:{\mathcal {X}}\rightarrow {\mathcal {Y}}} mà có thể ánh xạ một đối tượng x ∈ X {\displaystyle \mathbf {x} \in {\mathcal {X}}} vào nhãn phân loại y ∈ Y {\displaystyle y\in {\mathcal {Y}}} của nó. Ví dụ, nếu bài toán là lọc spam, thì x i {\displaystyle \mathbf {x_{i}} } là một biểu diễn nào nó cho một
thư điện tử và y {\displaystyle y} thì hoặc là "Spam" hoặc "Không Spam".Các giải thuật phân loại bằng thống kê thường được sử dụng trong các hệ thống
nhận dạng mẫu.
Chú ý: trong
cộng đồng sinh thái học, thuật ngữ "phân loại" là đồng nghĩa với từ được biết đến (trong ngành
học máy) là
phân nhóm (clustering). Xem bài viết đó để biết rõ hơn về các kĩ thuật
không có giám sát.