Word2vec

Word2vec là một kỹ thuật xử lý ngôn ngữ tự nhiên. Thuật toán Word2vec sử dụng một mô hình mạng thần kinh để học các liên kết từ (sự liên quan của từ) từ một kho ngữ liệu văn bản có dung lượng lớn [1]. Sau khi được huấn luyện, mô hình có thể phát hiện các từ đồng nghĩa hoặc gợi ý các từ bổ sung cho một phần của câu. Với cái tên nói lên tất cả, word2vec thể hiện cho mỗi từ riêng biệt với một danh sách cụ thể của các số được gọi là vectơ. Các vectơ được lựa chọn cẩn thận sao cho một hàm toán học đơn giản sẽ (độ tương tự cosin giữa các vectơ) cho biết mức độ của độ tương tự ngữ nghĩa giữa các từ được biểu diễn bằng các vectơ đó.[2]