UTF-8

UTF-8 (8-bit Unicode Transformation Format - Định dạng chuyển đổi Unicode 8-bit) là một bộ mã hóa ký tự với chiều rộng biến thiên dành cho Unicode. Tương tự như UTF-16UTF-32, UTF-8 có thể biểu diễn tất cả các chữ cái trong bộ ký tự Unicode, nhưng điểm khác biệt quan trọng nhất là nó có thể tương thích ngược với ASCII. Vì lý do này, UTF-8 nhanh chóng trở thành bộ mã hóa thống trị trong các tập tin, thư điện tử, trang web[1][2], và các phần mềm xử lý văn bản.UTF-8 mã hóa mỗi ký tự (điểm mã) thành 1 đến 4 octet (tức là byte gồm 8-bit). 128 ký tự đầu tiên của bộ ký tự Unicode (tương ứng một-một với bộ ASCII) chỉ dùng một octet có cùng giá trị nhị phân như bộ ASCII.Nhóm đặc trách kỹ thuật Internet (Internet Engineering Task Force - IETF) bắt buộc mọi giao thức Internet phải xác định bộ mã hóa dùng trong dữ liệu ký tự, và trong các bộ mã hóa ký tự hỗ trợ phải có UTF-8[3]. Liên minh Thư tín Internet (Internet Mail Consortium - IMC) khuyến cáo tất cả các chương trình thư điện tử phải hiển thị và tạo được thư bằng UTF-8[4].