Hàng trăm nhà nghiên cứu đã thất bại khi cố gắng đào tạo thuật toán để dự đoán những đặc tính xã hội học của những đứa trẻ mà họ có trong tay dữ liệu về 15 năm cuộc đời của chúng.

Những năm gần đây, các nhà hoạch định chính sách ngày càng tin tưởng vào học máy và cho rằng công nghệ này hứa hẹn sẽ đưa ra những dự đoán chính xác hơn nhiều, chẳng hạn về tỷ lệ tội phạm tái phạm hay nguy cơ một đứa trẻ bị bạo hành. Những mô hình như vậy dựa trên nền tảng của giả định rằng, một thuật toán được cung cấp đủ dữ liệu về một tình huống nhất định sẽ đưa ra dự đoán chính xác hơn so với con người hoặc các phân tích thống kê cơ bản.
Ba nhà xã hội học tại Đại học Princeton nêu nghi vấn về cách tiếp cận này trong nghiên cứu mới được công bố trên Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia Hoa Kỳ.
Họ sử dụng dữ liệu từ một nghiên cứu xã hội học kéo dài 15 năm có tên “Nghiên cứu về các gia đình và trẻ em dễ tổn thương”, do Sara McLanahan, giáo sư xã hội học và các vấn đề công cộng tại Đại học Princeton, chủ trì. Nghiên cứu này thu thập dữ liệu về cuộc sống của những đứa trẻ có bố mẹ chưa kết hôn. Các gia đình được chọn ngẫu nhiên từ những đứa trẻ chào đời ở bệnh viện của các thành phố lớn ở Mỹ trong năm 2000 và sau đó được theo dõi để thu thập dữ liệu ở thời điểm những đứa trẻ lên 1, 3, 5, 9 và 15 tuổi.
McLanahan, cũng là một trong những tác giả chính của nghiên cứu mới, cùng các đồng nghiệp Matthew Salganik và Ian Lundberg thiết kế một thử thách để các nhóm nghiên cứu từ khắp nơi tham gia dự đoán sáu đặc tính quan trọng về mặt xã hội ở những đứa trẻ và gia đình được thu thập dữ liệu. Những nhóm tham gia thử thách chỉ được cung cấp một phần dữ liệu để đào tạo các thuật toán dự đoán của họ, trong khi một số dữ liệu “đáp án” được giữ lại để đánh giá độ chính xác của các dự đoán.
Sau 5 tháng, hàng trăm nhà nghiên cứu, bao gồm các nhà khoa học máy tính, nhà thống kê và nhà xã hội học tính toán, đã đưa ra các kỹ thuật dự đoán tốt nhất của họ.
Cuối cùng, không một nhóm nào dự đoán đúng dù chỉ một đặc tính. “Vấn đề không phải ở một nhà nghiên cứu hoặc kỹ thuật máy học hoặc AI cụ thể nào,” theo giáo sư xã hội học Salganik. Các kỹ thuật học máy phức tạp nhất cũng không chính xác hơn so với các phương pháp dự đoán đơn giản hơn nhiều.
Kết quả này không gây ngạc nhiên với các chuyên gia nghiên cứu về việc sử dụng AI trong xã hội. Ngay cả các thuật toán đánh giá rủi ro chính xác nhất, chẳng hạn trong hệ thống tư pháp hình sự, tối đa cũng chỉ đạt 60-70% – theo Alice Xiang, người đứng đầu nghiên cứu về tính công bằng và trách nhiệm tại Hiệp hội Đối tác phi lợi nhuận về AI. “Nghe có vẻ cao,” bà nói thêm, nhưng chẳng hạn tỷ lệ bị cáo tái phạm vốn có thể thấp hơn 40%, có nghĩa là cứ dự đoán không tái phạm thì cũng đã đạt tỷ lệ chính xác hơn 60%.
Dù kết quả dự đoán không chính xác, điều đó không nhất thiết có nghĩa là các thuật toán dự đoán, dựa trên học máy hay không, sẽ không bao giờ là công cụ hữu ích trong hoạch định chính sách. Một số nhà nghiên cứu phản biện rằng dữ liệu được thu thập cho mục đích nghiên cứu xã hội học khác với dữ liệu được phân tích trong hoạch định chính sách.
Rashida Richardson, giám đốc chính sách của Viện AI Now, chuyên nghiên cứu về tác động xã hội của AI, nêu ra những khúc mắc với đề bài “dự đoán” lần này. Các đặc tính, ví dụ như đứa trẻ có dũng cảm và quyết tâm hay không, là một phán đoán chủ quan, Richardson nói.
Salganik cũng thừa nhận những hạn chế của nghiên cứu nhưng nhấn mạnh rằng nó cho thấy tại sao các nhà hoạch định chính sách nên cẩn thận trong việc đánh giá tính chính xác của các công cụ thuật toán. “Có dữ liệu dồi dào và kỹ thuật học máy phức tạp không đảm bảo rằng dự đoán sẽ chính xác,” Salganik nói thêm. “Các nhà hoạch định chính sách không có nhiều kinh nghiệm làm việc với học máy có thể có những kỳ vọng không thực tế về công nghệ này.”
“Nghiên cứu này thực sự nhắc nhở rằng các công cụ học máy không phải là phép thuật,” Xiang nhận xét.
Hoàng Nam