Xin nói ngay, ý tưởng lọc tin nhắn rác của tôi cũng tương tự
như ý tưởng lọc spam
mail
vốn đã được ứng dụng rộng rãi, bằng cách sử dụng giải thuật
học Naive Bayes (tức Bayes “ngây thơ”), hiện nay hầu hết các
hệ thống e-mail đều sử dụng.
Tin nhắn rác hay spam mail
đều có một đặc điểm chung, là chứa các từ mà ý nghĩa của
chúng nói lên rằng chúng là “rác”. Giải thuật học Bayes
(Bayesian learning) được sử dụng chính là để “học” đặc trưng
này. Sau đây xin trình bày sơ lược về ý tưởng:
Công việc cần làm cũng khá đơn giản, đó là lấy một số tin
nhắn đã được xác định là rác rồi tính xác suất xuất hiện của
tất cả các từ trong đó (chẳng hạn nếu có từ “khuyến” và từ
“mãi” (khuyến mãi) thì khả năng tin nhắn đó là rác rất
cao). Sau đó lấy một số tin nhắn đã được xác định không phải
rác và cũng làm tương tự. Hai tập tin nhắn trên gọi là 2 tập
huấn luyện. Từ 2 kết quả đó ta sẽ tính ra mức-độ-là-rác
(spamicity) của một từ bất kỳ. Về sau, khi nhận được tin
nhắn mới, ta sẽ dùng giá trị spamicity đó để tính xác suất
là rác của tin nhắn này bằng công thức Bayes. Nếu xác suất
đó là cao thì có thể kết luận nó là rác và ngược lại. Đó là
ý tưởng chung, còn chi tiết giải thuật học Naive Bayes như
thế nào xin không trình bày ở đây.
Các hệ thống e-mail đều dùng các máy tính rất mạnh để lọc
vì e-mail dài và gồm nhiều từ. Còn tin nhắn rác ở nước ta
được cấu thành từ những từ tiếng Việt không dấu và có độ dài
thường không quá 160 ký tự (giới hạn của 1 tin nhắn), nên số
lượng từ chỉ khoảng 20-40 từ/tin nhắn, và tổng số tất cả các
từ có thể xuất hiện (trong từ điển tin nhắn rác) cũng không
nhiều. Do đó chỉ cần khả năng tính toán của chiếc
điện thoại
cũng có thể thực hiện tốt công việc lọc. Hiện tôi đã xây
dựng thành công mã nguồn của phần nhân bộ lọc và kết quả
kiểm thử trên máy tính rất khả quan (lọc được hơn 90% tin
nhắn có nội dung quảng cáo).
Với ý tưởng này ta có thể cài đặt
phần mềm
lọc cho từng chiếc ĐTDĐ, hoặc các nhà mạng cũng có thể cài
đặt bộ lọc trên hệ thống truyền nhận tin nhắn của mình. Nếu
được phát triển bởi nhà mạng, tức được cài đặt vào máy chủ,
bộ lọc có thể được xây dựng theo một cách phức tạp hơn (thêm
một số heuristic) nhằm cho kết quả chính xác hơn vì khả năng
tính toán của
máy chủ
mạnh hơn ĐTDĐ rất nhiều.
Tham khảo thêm tại
HUYENMOBILE để
cập nhật các dòng điện thoại mới nhất !
Trần Quang Khải