Trang Chủ Công nghệ 5G Tài chính đầu tư Ứng dụng cuộc sống Cơ sở giáo dục thương hiệu xe hơi Trò chơi xã hội sự giải trí Khách sạn Trẻ em Tài chính Lữ đoàn văn hóa Tin tức món ăn Địa ốc Thể thao Sức khỏe thông minh thời trang

Mô hình AI cho phép điều khiển robot bằng lời

2025-05-12 IDOPRESS

Người dùng chỉ cần nhập một hành động,ví dụ như "tiến lên phía trước vài bước rồi rẽ phải",sau đó mô hình sẽ tạo ra những miêu tả chính xác về hành động này để robot hoặc nhân vật kỹ thuật số làm theo. Nhóm nghiên cứu cho biết,tiến bộ lớn nhất của mô hình này là khả năng "phiên dịch" chuyển động giữa nhiều loại robot và nhân vật,Interesting Engineering hôm 9/5 đưa tin.

Mô phỏng robot chuyển động theo hướng dẫn của một bé gái. Ảnh: EvgeniyShkolenko/iStock

Các loại robot như robot hình người hay robot 4 chân di chuyển theo những cách rất khác nhau. Do đó,các mô hình AI gặp khó khăn trong việc khái quát hóa mệnh lệnh cho chúng. MotionGlot xử lý vấn đề này bằng cách coi chuyển động như một loại ngôn ngữ.

"Giống như con người có thể dịch ngôn ngữ,ví dụ từ tiếng Anh sang tiếng Trung Quốc,giờ đây chúng ta có thể dịch các lệnh ngôn ngữ thành hành động tương ứng trên nhiều robot khác nhau. Điều đó mở ra hàng loạt ứng dụng mới",nghiên cứu sinh tiến sĩ Sudarshan Harithas tại Đại học Brown cho biết.

Trong nghiên cứu mới,công bố trên cơ sở dữ liệu arXiv,nhóm chuyên gia lấy cảm hứng từ cách các mô hình ngôn ngữ lớn như ChatGPT hoạt động. Chúng chia văn bản thành nhiều phần nhỏ gọi là token và dự đoán điều xảy ra tiếp theo dựa trên những dạng mẫu học được từ lượng dữ liệu khổng lồ.

Thay vì dự đoán từ tiếp theo trong câu,MotionGlot dự đoán phần tiếp theo của một chuyển động. Để làm được điều này,nhóm nghiên cứu trước tiên chia chuyển động thành từng bước nhỏ,dễ quản lý. Ví dụ,hành động đi bộ bao gồm nhấc một chân,sau đó đến chân còn lại,chuyển trọng tâm,và cứ thế tiếp tục. MotionGlot coi những bước này như các token chuyển động,sau đó dự đoán và ghép chúng lại để tạo ra chuyển động mượt mà,tự nhiên.

Nhóm nhà khoa học sử dụng kết hợp hai bộ dữ liệu QUAD-LOCO,dữ liệu chuyển động từ robot 4 chân giống chó và QUES-CAP,dữ liệu chuyển động của con người gắn với những mô tả phong phú bằng văn bản. Học từ cả hai bộ dữ liệu,MotionGlot hiểu rằng các hành động tương tự (như đi bộ hoặc quay đầu) có thể trông rất khác với từng cơ thể,nhưng vẫn có cùng ý nghĩa.

Với MotionGlot,robot có thể hiểu và làm theo mệnh lệnh bằng ngôn ngữ thường ngày của con người,thúc đẩy sự hợp tác giữa máy móc và con người trong nhà máy,bệnh viện hoặc gia đình. Nhà phát triển game và hoạt hình cũng có thể tạo các chuyển động cho nhân vật chỉ bằng cách nhập lời mô tả,giúp tăng tốc quy trình sáng tạo.

Tuy nhiên,MotionGlot còn nhiều hạn chế. Mô hình mới chỉ thử nghiệm trên các bộ dữ liệu được kiểm soát,và dù có thể xử lý khá tốt những lệnh không quen thuộc,nó vẫn cần nhiều dữ liệu hơn để mở rộng quy mô. Nhóm nghiên cứu dự định công khai mô hình và mã của MotionGlot để những người khác,bao gồm các nhà phát triển và chuyên gia,giúp cải tiến mô hình hơn nữa.

Thu Thảo (Theo Interesting Engineering)

Tuyên bố miễn trừ trách nhiệm: Bài viết này được sao chép từ các phương tiện khác. Mục đích của việc in lại là để truyền tải thêm thông tin. Điều đó không có nghĩa là trang web này đồng ý với quan điểm của nó và chịu trách nhiệm về tính xác thực của nó và không chịu bất kỳ trách nhiệm pháp lý nào. Tất cả tài nguyên trên trang web này được thu thập trên Internet. Mục đích chia sẻ chỉ dành cho việc học và tham khảo của mọi người. Nếu có vi phạm bản quyền hoặc sở hữu trí tuệ, vui lòng để lại tin nhắn cho chúng tôi.
© Bản quyền 2009-2020 Mạng ứng dụng thông minh      Liên lạc với chúng tôi   SiteMap