Trong tầng hầm của Tòa nhà số 3 của MIT, một robot đang cân nhắc cẩn thận bước đi tiếp theo của nó. Nó nhẹ nhàng chọc vào tháp gỗ của trò chơi Rút Gạch, tìm kiếm khối tốt nhất để rút mà không lật đổ tòa tháp, trong một trò chơi Jenga, nó di chuyển chậm, nhưng xử lý nhanh nhẹn đáng ngạc nhiên.
Robot, được phát triển bởi các kỹ sư MIT, được trang bị bộ kẹp mềm, vòng đeo tay cảm ứng lực và máy ảnh bên ngoài, tất cả đều được sử dụng để nhìn và cảm nhận tòa tháp và các khối riêng lẻ của nó.
Khi robot cẩn thận đẩy vào một khối, một máy tính sẽ nhận được phản hồi trực quan và xúc giác từ máy ảnh và cảm biến của nó, và so sánh các phép đo này với các chuyển động mà robot đã thực hiện trước đó. Nó cũng xem xét kết quả của những động thái đó – cụ thể, cho dù một khối, trong một cấu hình nhất định và được đẩy với một lực nhất định, đã được trích xuất thành công hay không. Trong thời gian thực, robot sau đó “học” xem nên tiếp tục đẩy hay di chuyển sang một khối mới, để giữ cho tòa tháp không bị sụp đổ.
Chi tiết về robot chơi Jenga được công bố trên tạp chí Science Robotics. Alberto Rodriguez, Giáo sư Trợ lý Phát triển Nghề nghiệp Walter Henry Gale thuộc Khoa Cơ khí tại MIT, cho biết robot thể hiện một thứ rất khó để đạt được trong các hệ thống trước đây: khả năng học nhanh cách tốt nhất để thực hiện một nhiệm vụ, không chỉ là từ các tín hiệu thị giác, như nó thường được nghiên cứu ngày nay, mà còn từ các tương tác vật lý, xúc giác.
“Không giống như trong các nhiệm vụ hoặc trò chơi nhận thức thuần túy hơn như cờ vua hoặc cờ vây, chơi trò chơi Jenga cũng đòi hỏi phải thành thạo các kỹ năng thể chất như thăm dò, đẩy, kéo, đặt và sắp xếp các quân cờ. Nó đòi hỏi phải có nhận thức và thao tác tương tác đi và chạm vào tháp để tìm hiểu cách thức và thời điểm di chuyển các khối, “Rodriguez nói. “Điều này rất khó để mô phỏng, vì vậy robot phải học trong thế giới thực, bằng cách tương tác với tháp Jenga thật. Thách thức chính là học từ một số lượng thí nghiệm tương đối nhỏ bằng cách khai thác ý thức chung về các vật thể và vật lý.”
Ông nói rằng hệ thống học tập xúc giác mà các nhà nghiên cứu đã phát triển có thể được sử dụng trong các ứng dụng ngoài Jenga, đặc biệt là trong các nhiệm vụ cần tương tác vật lý cẩn thận, bao gồm tách các vật thể tái chế khỏi thùng rác và lắp ráp các sản phẩm tiêu dùng.
“Trong một dây chuyền lắp ráp điện thoại di động, trong hầu hết mọi bước, cảm giác của một khớp nối nhanh hoặc vít có ren, đến từ lực và chạm chứ không phải tầm nhìn,” Rodriguez nói. “Các mô hình học tập cho những hành động đó là điểm chính cho loại công nghệ này.”
Tác giả chính của bài báo là sinh viên tốt nghiệp MIT Nima Fazeli. Nhóm nghiên cứu cũng bao gồm Miquel Oller, Jiajun Wu, Zheng Wu và Joshua Tenenbaum, giáo sư về khoa học trí tuệ và nhận thức tại MIT.
Đẩy và kéo
Trong trò chơi Jenga – Swilian cho “xây dựng” – 54 khối hình chữ nhật được xếp thành 18 lớp, mỗi tầng ba khối, với các khối trong mỗi lớp được định hướng vuông góc với các khối bên dưới. Mục đích của trò chơi là trích xuất cẩn thận một khối và đặt nó ở đỉnh tháp, do đó sẽ tạo nên tầng tháp mới, mà không lật đổ toàn bộ cấu trúc.
Để lập trình cho robot chơi Jenga, các sơ đồ học máy truyền thống có thể yêu cầu nắm bắt mọi thứ có thể xảy ra giữa một khối, robot và tháp – một nhiệm vụ tính toán đắt tiền cần dữ liệu từ hàng ngàn nếu không phải là hàng chục nghìn lần rút khối gỗ.
Thay vào đó, Rodriguez và các đồng nghiệp đã tìm kiếm một cách hiệu quả hơn cho robot để học chơi Jenga, lấy cảm hứng từ nhận thức của con người và cách chúng ta có thể tiếp cận trò chơi.
Nhóm nghiên cứu đã tùy chỉnh một cánh tay robot ABB IRB 120 tiêu chuẩn của ngành, sau đó thiết lập một tòa tháp Jenga trong tầm với của robot và bắt đầu một thời gian huấn luyện trong đó robot trước tiên chọn một khối ngẫu nhiên và một vị trí trên khối để đẩy. Sau đó, nó đã tác dụng một lực nhỏ trong nỗ lực đẩy khối ra khỏi tòa tháp.
Đối với mỗi lần thử rút khối gỗ, một máy tính đã ghi lại các phép đo lực và hình ảnh liên quan và thử có thành công hay không.
Thay vì thực hiện hàng chục ngàn nỗ lực như vậy (sẽ liên quan đến việc xây dựng lại tòa tháp gần như nhiều lần), robot đã huấn luyện chỉ khoảng 300, với các nỗ lực đo lường và kết quả tương tự được nhóm lại trong các cụm đại diện cho các hành vi khối nhất định. Chẳng hạn, một cụm có thể biểu thị các nỗ lực trên một khối khó di chuyển, so với một cụm dễ di chuyển hơn hoặc lật đổ tòa tháp khi di chuyển. Đối với mỗi cụm dữ liệu, robot đã phát triển một mô hình đơn giản để dự đoán hành vi của một khối dựa trên các phép đo trực quan và xúc giác hiện tại của nó.
Fazeli cho biết kỹ thuật phân cụm này làm tăng đáng kể hiệu quả mà robot có thể học chơi trò chơi và được truyền cảm hứng từ cách tự nhiên mà con người tập hợp hành vi tương tự: “Thay vào đó, robot xây dựng các mô hình cho từng cụm này học một mô hình nắm bắt hoàn toàn mọi thứ có thể xảy ra. “
Xếp chồng lên
Các nhà nghiên cứu đã thử nghiệm phương pháp của họ chống lại các thuật toán học máy hiện đại khác, trong một mô phỏng máy tính của trò chơi bằng cách sử dụng trình giả lập MuJoCo. Những bài học rút ra trong trình giả lập đã thông báo cho các nhà nghiên cứu về cách robot sẽ học trong thế giới thực.
“Chúng tôi cung cấp cho các thuật toán này cùng thông tin mà hệ thống của chúng tôi có được, để xem cách chúng học chơi Jenga ở mức tương tự,” Oller nói. “So với cách tiếp cận của chúng tôi, các thuật toán này cần khám phá các đơn đặt hàng có độ lớn nhiều tháp hơn để tìm hiểu trò chơi.”
Tò mò về cách tiếp cận máy học của họ sắp xếp chống lại những người chơi thực tế, nhóm đã thực hiện một vài thử nghiệm không chính thức với một số tình nguyện viên.
“Chúng tôi đã thấy con người có thể giải nén được bao nhiêu khối trước khi tòa tháp sụp đổ và sự khác biệt không nhiều,” Oller nói.
Nhưng vẫn còn một con đường để đi nếu các nhà nghiên cứu muốn cạnh tranh với robot của họ chống lại một người chơi. Ngoài các tương tác vật lý, Jenga yêu cầu chiến lược, chẳng hạn như rút đúng khối sẽ gây khó khăn cho đối thủ khi rút khối tiếp theo mà không lật đổ tòa tháp.
Hiện tại, nhóm nghiên cứu ít quan tâm đến việc phát triển một nhà vô địch Jenga robot và tập trung hơn vào việc áp dụng các kỹ năng mới của robot vào các lĩnh vực ứng dụng khác.
“Có nhiều nhiệm vụ chúng ta làm bằng tay trong đó cảm giác thực hiện nó” đúng cách “xuất phát từ ngôn ngữ của các lực và các tín hiệu xúc giác,” Rodriguez nói. “Đối với các nhiệm vụ như thế này, một cách tiếp cận tương tự với chúng ta có thể tìm ra nó.”
Nghiên cứu này được hỗ trợ một phần bởi Quỹ khoa học quốc gia thông qua Sáng kiến Robot quốc gia.
Nguồn: sciencedaily