Tf–idf

Trong truy hồi thông tin, tf–idf, TF*IDF, hay TFIDF, viết tắt từ cụm từ tiếng Anh: term frequency–inverse document frequency, là một thống kê số học nhằm phản ánh tầm quan trọng của một từ đối với một văn bản trong một tập hợp hay một ngữ liệu văn bản.[1] tf–idf thường dùng dưới dạng là một trọng số trong tìm kiếm truy xuất thông tin, khai thác văn bản, và mô hình hóa người dùng.Giá trị tf–idf tăng tỉ lệ thuận với số lần xuất hiện của một từ trong tài liệu và được bù đắp bởi số lượng tài liệu trong kho ngữ liệu có chứa từ, giúp điều chỉnh thực tế là một số từ xuất hiện nói chung thường xuyên hơn. tf-idf là một trong những lược đồ (scheme) tính trọng số phổ biến nhất hiện nay. Một cuộc khảo sát được thực hiện vào năm 2015 cho thấy 83% các hệ thống khuyến nghị dựa trên văn bản (text-based recommender systems) trong các thư viện số sử dụng tf-idf.[2]

Tài liệu tham khảo

WikiPedia: Tf–idf http://www.codeproject.com/KB/IP/AnatomyOfASearchE... http://nbn-resolving.de/urn:nbn:de:bsz:352-0-31131... http://bscit.berkeley.edu/cgi-bin/pl_dochome?query... http://i.stanford.edu/~ullman/mmds/ch1.pdf http://scgroup.hpclab.ceid.upatras.gr/scgroup/Proj... http://lucene.apache.org/core/3_6_1/api/all/org/ap... //dx.doi.org/10.1007%2Fs00799-015-0156-0 //dx.doi.org/10.1017%2FCBO9781139058452.002 http://scikit-learn.org/stable/modules/generated/s... //www.worldcat.org/issn/1432-5012