AWS ra mắt công cụ tìm dữ liệu khoa học về COVID-19 dựa trên machine learning

Xã hội 29/04/2020 - 16:28

Trong bối cảnh thế giới đang vật lộn với đại dịch COVID-19, Amazon Web Services (AWS) thuộc tập đoàn Amazon vừa ra mắt CORD-19 Search, một trang tìm kiếm mới vận hành dựa trên học máy (machine learning) có thể giúp các nhà nghiên cứu dễ dàng tìm kiếm tài liệu và công trình nghiên cứu chỉ với các câu hỏi ngôn ngữ tự nhiên.

Trong bối cảnh thế giới đang vật lộn với đại dịch COVID-19, Amazon Web Services (AWS) thuộc tập đoàn Amazon vừa ra mắt CORD-19 Search, một trang tìm kiếm mới vận hành dựa trên học máy (machine learning) có thể giúp các nhà nghiên cứu dễ dàng tìm kiếm tài liệu và công trình nghiên cứu chỉ với các câu hỏi ngôn ngữ tự nhiên.

AWS ra mắt công cụ tìm dữ liệu khoa học về COVID-19 dựa trên machine learning - ảnh 1

Là một phần trong chương trình thảo luận bàn tròn từ xa của Nhà Trắng với giới công nghệ tháng trước, Viện AI Allen (AI2) đã giới thiệu CORD-19 (bộ dữ liệu nghiên cứu mở COVID-19). Tìm kiếm CORD-19 được xây dựng dựa trên bộ dữ liệu này, ban đầu bao gồm khoảng 24.000 tài liệu nghiên cứu và khoa học về COVID-19, SARS-CoV-2, và coronavirus. Kể từ khi ra mắt, bộ dữ liệu CORD-19 đã tăng gần gấp đôi tới 47.000 công trình và tài liệu nghiên cứu từ các tạp chí thẩm định và máy chủ lưu trữ uy tín.

Cộng đồng khoa học đang đối phó với mối đe dọa COVID-19 thông qua việc nghiên cứu chủng virus nCoV mới và công bố các công trình nghiên cứu quan trọng về phát hiện và điều trị bệnh. Các hoạt động này đang tạo nên các bằng chứng khoa học và y tế về COVID-19 với quy mô tăng nhanh theo cấp số nhân đến mức khó có thể khai thác và phân tích.

CORD-19 Search sẽ giúp các nhà nghiên cứu điều hướng các tài liệu coronavirus đang gia tăng nhanh chóng để tìm kiếm các thông tin liên quan và cập nhật một cách hiệu quả. CORD-19 Search có giao diện tìm kiếm đơn giản, giúp các nhà nghiên cứu có thể sử dụng ngôn ngữ tự nhiên để đặt câu hỏi, như "Khi nào thì lượng virus COVID-19 có trong nước bọt là cao nhất?" hay "Liệu pháp điều trị dùng huyết tương của người đã khỏi bệnh có phải là tiền đề để chế tạo vắc-xin không?" CORD-19 Search sẽ tạo ra các câu trả lời chính xác cũng như đưa ra các tài liệu nguồn.

AWS ra mắt công cụ tìm dữ liệu khoa học về COVID-19 dựa trên machine learning - ảnh 2

Ví dụ kết quả tìm kiếm của COVID-19 Search

Ví dụ, câu trả lời về lượng virus cao nhất của COVID-19 sẽ là, "Lượng virus trong nước bọt là cao nhất trong tuần đầu tiên sau khi có triệu chứng khởi phát và giảm dần theo thời gian". Tương tự như vậy, CORD-19 Search sẽ phản hồi về các liệu pháp huyết tương của người đã khỏi bệnh, "khi chưa có vắc-xin để ngăn chặn dịch bệnh, lý tưởng nhất là cân nhắc sử dụng liệu pháp này với những người có nguy cơ bị lây nhiễm hoặc sớm có triệu chứng bệnh (như một biện pháp phòng ngừa)", và đi kèm là các bài báo khoa học liên quan từ các thử nghiệm trước đây trong dịch SARS và Ebola. CORD-19 Search cung cung cấp các chủ đề dựa trên bằng chứng về việc ủ bệnh, truyền nhiễm, chữa bệnh và các yếu tố rủi ro khác. Tính năng này có giá trị o lớn đối với các nhà khoa học, giúp họ có thể nhanh chóng truy vấn, xác thực công trình nghiên cứu và thúc đẩy các nghiên cứu chuyên sâu của họ.

AWS đã xây dựng CORD-19 Search như thế nào?

CORD-19 Search sử dụng các dịch vụ machine learning của AWS để tăng cường các kết quả toàn diện và khả thi. Bộ dữ liệu ban đầu đã được phong phú hơn với Amazon Comprehend Medical, một dịch vụ xử lý ngôn ngữ tự nhiên sử dụng ML để trích xuất các thông tin y tế liên quan từ các dữ liệu text phi cấu trúc về dịch bệnh, điều trị và dòng thời gian. Sau đó dữ liệu này được ánh xạ tới các mô hình điều trị và chủ đề y tế liên quan tới COVID-19, sử dụng một mô hình phân loại đa nhãn và suy luận, chẳng hạn như virus học, miễn dịch học và các thử nghiệm lâm sàng.

AWS ra mắt công cụ tìm dữ liệu khoa học về COVID-19 dựa trên machine learning - ảnh 3

Kiến trúc của COVID-19 Search

Thông tin sau đó được lập chỉ mục trong Amazon Kendra, một dịch vụ tìm kiếm doanh nghiệp có độ chính xác cao dựa trên ML, cung cấp các tính năng truy vấn ngôn ngữ tự nhiên mạnh mẽ giúp tìm kiếm và xếp hạng các bài viết liên quan dễ dàng hơn. Amazon Comprehend Medical giúp làm giàu dữ liệu và tìm kiếm Amazon Kendra được xây dựng từ dữ liệu sẵn có trong hồ dữ liệu AWS COVID-19 công cộng, nơi mọi người có thể thử nghiệm và phân tích các dữ liệu có quản lý liên quan tới dịch bệnh, cũng như chia sẻ các kết quả của họ.

Tiến sĩ Oren Etzioni, giám đốc điều hành của Viện AI Allen, cho biết: "Một trong những ứng dụng tức thời và có ảnh hưởng nhất của AI là khả năng giúp các nhà khoa học, học giả và chuyên gia công nghệ tìm thấy thông tin phù hợp trong vô vàn các tài liệu khoa học để đẩy nhanh quá trình nghiên cứu nhanh hơn. Viện AI Allen, đặc biệt là nhóm Học giả ngôn ngữ, cam kết cung cấp các tài nguyên quan trọng này và hỗ trợ các phương pháp AI liên quan mà cộng đồng đang sử dụng để giải quyết đại dịch này".

TT