Các nhà nghiên cứu tạo Học viện kỹ thuật MIT đã thiết kế một hệ thống cho phép robot có thể học các nhiệm vụ mới chỉ bằng cách quan sát con người. Một ngày nào đó tự bạn có thể chỉ cho robot cách làm việc vặt trong nhà hay đào tạo robot như nhân viên mới tại nơi làm việc.

Về cơ bản, hệ thống “Lập kế hoạch với những thông số không xác định” – PunS (Planning with Uncertain Specifications) cho robot khả năng lập kế hoạch như con người, cân nhắc đồng thời nhiều yêu cầu mơ hồ (thận chí có thể mâu thuẫn) để đạt được mục tiêu cuối cùng. Và hệ thống luôn chọn hành động khả dĩ nhất để thực hiện, dựa trên “niềm tin” vào một số thông số có khả năng xảy ra cho nhiệm vụ mà nó được giao thực hiện.

Các nhà nghiên cứu MIT đã biên soạn một bộ những cách bày biện bàn ăn khác nhau với tám vật dụng gồm cốc, ly, thìa, nĩa, dao, đĩa lớn, đĩa nhỏ và bát. Đầu tiên robot được cho quan sát các cách trình bày được chọn ngẫu nhiên do con người thực hiện. Sau đó, robot được giao bày biện bàn ăn tự động theo một thiết lập cụ thể dựa trên những gì nó đã thấy.

Robot phải cân nhắc nhiều thứ tự vị trí có thể, ngay cả khi các vật dụng được cố tình loại bỏ, xếp chồng lên nhau hoặc giấu đi. Thông thường, những việc như vậy sẽ khiến robot bối rối. Nhưng trong nghiên cứu ở đây robot không hề mắc lỗi trong các thử nghiệm thực tế, chỉ mắc một số lỗi trong hàng chục ngàn lần chạy thử mô phỏng.

Mục tiêu nghiên cứu là nhằm đưa việc “lập trình” vào tay các chuyên gia của từng lĩnh vực, những người có thể lập trình robot thông qua cách thức trực quan, thay vì mô tả yêu cầu để kỹ sư để viết mã lệnh. Bằng cách đó, robot sẽ không phải thực hiện các nhiệm vụ được lập trình sẵn nữa. Công nhân nhà máy có thể dạy robot làm nhiều nhiệm vụ lắp ráp phức tạp. Robot trong nhà có thể học cách sắp xếp bát đĩa hoặc dọn bàn ăn.

Robot thường lập kế hoạch tốt với những nhiệm vụ có các “thông số” rõ ràng mô tả công việc cần thực hiện, như các hành động, môi trường và mục tiêu cuối cùng. Việc học cách bày biện bàn ăn bằng cách quan sát có nhiều thông số không xác định. Các vật dụng phải được đặt ở những vị trí nhất định, tùy thuộc vào thực đơn và nơi khách ngồi, và theo những trật tự nhất định, tùy thuộc vào vật dụng có sẵn hoặc quy ước xã hội. Các giải pháp cho việc lập kế hoạch hiện tại không có khả năng đối phó với các thông số không xác định như vậy.

Một cách tiếp cận phổ biến cho việc lập kế hoạch là “học tập củng cố”, một kỹ thuật học máy thử – sai tính thưởng hay phạt cho những hành động mà robot thực hiện để hoàn thành nhiệm vụ. Nhưng đối với các nhiệm vụ có thông số kỹ thuật không xác định, khó xác định rõ ràng khi nào thưởng và khi nào phạt. Vì vậy robot chẳng bao giờ học được đầy đủ từ hành động sai.

Hệ thống PUnS cho phép robot đặt “niềm tin” vào một loạt các thông số có thể xảy ra, và hành động theo niềm tin của nó, thay vì chúng ta cung cấp cho nó thông số rõ ràng.

Hệ thống này được xây dựng trên ngôn ngữ biểu cảm LTL (linear temporal logic) – “logic theo thời gian tuyến tính”, cho phép robot suy luận kết quả hiện tại và tương lai. Các nhà nghiên cứu dùng LTL lập mô hình các điều kiện dựa trên thời gian khác nhau, chẳng hạn như những gì phải xảy ra hiện tại, cuối cùng phải xảy ra và phải xảy ra cho đến khi có điều gì khác xảy ra. 30 cách con người bày biện bàn ăn tạo ra phân phối xác suất cho hơn 25 công thức LTL khác nhau. Mỗi công thức ứng với một sở thích (hay thông số) bày biện bàn ăn hơi khác nhau. Phân phối xác suất đó trở thành chỗ dựa niềm tin của robot.

Mỗi công thức ứng với một thứ gì đó khác nhau, nhưng khi robot xem xét các kết hợp khác nhau của tất cả các mẫu có sẵn và cố gắng thỏa mãn mọi thứ, cuối cùng nó sẽ làm điều đúng đắn.

Các nhà nghiên cứu cũng đã phát triển một số tiêu chí hướng dẫn robot hướng tới việc thỏa mãn hoàn toàn niềm tin đối với các công thức đề cử. Ví dụ, thỏa mãn công thức có khả năng nhất, loại bỏ mọi mẫu khác ngoại trừ mẫu có xác suất cao nhất. Hay cách khác, thỏa mãn số lượng các công thức lớn nhất mà không xem xét xác suất tổng thể, hoặc thỏa mãn một số công thức cho tổng xác suất cao nhất. Một cách khác chỉ đơn giản tối thiểu lỗi, vì vậy hệ thống bỏ qua các công thức có xác suất thất bại cao.

Nhà thiết kế có thể chọn bất kỳ một trong bốn tiêu chí để thiết lập trước khi đào tạo và thử nghiệm. Mỗi tiêu chí đều có sự đánh đổi giữa sự linh hoạt và hạn chế rủi ro. Việc lựa chọn tiêu chí phụ thuộc hoàn toàn vào nhiệm vụ. Ví dụ trong các tình huống quan trọng về an toàn, nhà thiết kế có thể chọn hạn chế khả năng thất bại. Nhưng khi hậu quả của sự thất bại không nghiêm trọng, nhà thiết kế có thể chọn cho phép robot linh hoạt hơn để thử các phương pháp khác nhau.

Với các tiêu chí đã có, các nhà nghiên cứu đã phát triển một thuật toán để chuyển đổi niềm tin của robot – phân phối xác suất chỉ ra công thức mong muốn – thành một vấn đề học tập củng cố tương đương. Mô hình này sẽ tính thưởng hoặc phạt robot cho một hành động mà nó thực hiện, dựa trên thông số mà nó quyết định đi theo.

Trong các mô phỏng yêu cầu robot bày biện bàn theo các thiết lập khác nhau, nó chỉ mắc sáu lỗi trong số 20.000 lần thử. Trong các cuộc biểu diễn trong thế giới thực, nó cho thấy hành vi tương tự như cách con người thực hiện. Ví dụ, nếu ban đầu không có cái nĩa, robot sẽ hoàn thành việc bày biện phần còn lại của bàn ăn mà không có nĩa. Sau đó, khi cái nĩa được đưa ra, nó sẽ đặt cái nĩa ở vị trí thích hợp. Sự linh hoạt là rất quan trọng. Nếu không, nó sẽ bị mắc kẹt khi chờ đợi để đặt cái nĩa và không hoàn thành phần còn lại.

Tiếp theo, các nhà nghiên cứu hy vọng sẽ sửa đổi hệ thống để giúp robot thay đổi hành vi dựa trên hướng dẫn bằng lời nói, sửa sai hoặc đánh giá của người dùng về hiệu suất của robot. Giả sử một người chỉ cho robot cách bày biện bàn ăn tại một vị trí duy nhất. Người đó có thể ra lệnh “làm tương tự cho tất cả các vị trí khác”, hoặc “đặt con dao trước cái nĩa ở đây”. Các nhà nghiên cứu muốn phát triển các phương thức cho phép hệ thống thích nghi một cách tự nhiên để xử lý các lệnh bằng lời nói mà không cần bổ sung các thao tác mẫu.

P.Uyên