Giới thiệu
Trong thế giới ngày càng phát triển của trí tuệ nhân tạo và robot, Gemini Robotics-ER 1.5 của Google/DeepMind nổi bật như một mô hình lý tưởng cho các nhà phát triển. Với kho tài nguyên này, bạn sẽ tìm thấy các prompt sẵn sàng sử dụng, hình ảnh tham khảo và cách sử dụng mà bạn có thể áp dụng ngay vào các dự án của mình.
Tóm tắt nội dung
Nếu bạn đang khám phá Gemini Robotics-ER 1.5, kho tài nguyên này tập trung vào những gì mô hình ER 1.5 hiện đang làm tốt—chỉ định/định nghĩa/hộp/đường đi, lập kế hoạch dài hạn, lý luận tạm thời trên video và sử dụng công cụ (ví dụ: Tìm kiếm)—và đề xuất các mẫu prompt thực tiễn cho từng trường hợp. (GitHub)
Tại sao kho tài nguyên này quan trọng
Vào ngày 25 tháng 9 năm 2025, Google thông báo rằng Gemini Robotics-ER 1.5 đã có sẵn cho các nhà phát triển thông qua API Gemini trong Google AI Studio. ER 1.5 hoạt động như một “bộ não cấp cao” cho robot: nó lập kế hoạch cho các nhiệm vụ nhiều bước, thực hiện lý luận không gian/thời gian và có thể gọi công cụ một cách tự nhiên (như Google Search) để hiện thực hóa các kế hoạch của mình. (Google Developers Blog)
Tài liệu chính thức tóm tắt những gì bạn có thể xây dựng ngay bây giờ: tìm kiếm/đánh dấu đối tượng thống nhất (điểm & hộp), lập kế hoạch quỹ đạo, hiểu video và phối hợp các nhiệm vụ dài hạn—với mô hình hiện đang ở tình trạng xem trước. (Google AI for Developers)
Awesome Gemini Robotics tận dụng động lực này bằng cách tập hợp các prompt cụ thể, có thể tái tạo được để bạn không phải bắt đầu từ một trang trống. (GitHub)
Nội dung bên trong kho tài nguyên
Kho này là một bộ sưu tập hơn 10 trường hợp sử dụng (và đang phát triển), mỗi trường hợp đều có hình ảnh và một prompt dễ sao chép. Một số ví dụ bao gồm:
- Chỉ định các đối tượng không xác định/xác định (một hoặc nhiều loại)
- Hộp giới hạn và định vị phần
- Đếm bằng cách chỉ định
- Tạo quỹ đạo (ví dụ: di chuyển bút đến bộ tổ chức, quét hạt)
- Đường đi nhận thức chướng ngại vật
- Phân tích video (phân tích từng bước và theo dõi khung hình)
- Phối hợp nhiệm vụ (ví dụ: “dọn chỗ cho laptop,” “chuẩn bị bữa trưa”)
Mỗi thẻ hiển thị cấu trúc đầu ra mong đợi (tọa độ chuẩn hóa; câu trả lời thân thiện với JSON) để bạn có thể tích hợp vào bộ điều khiển hoặc VLA của mình. (GitHub)
Nó cũng bao gồm mẹo & mẫu—như chuẩn hóa tọa độ điểm/hộp về khoảng 0–1000, điều chỉnh ngân sách tư duy cho độ trễ so với độ chính xác, và xen kẽ văn bản với đầu ra không gian để tạo ra các kế hoạch “có cơ sở không gian”. (GitHub)
Bonus: README có sẵn bằng nhiều ngôn ngữ (JA/KR/VI/ZH/EN), giúp dễ dàng chia sẻ giữa các nhóm toàn cầu. (GitHub)
Cách nó phù hợp với hướng dẫn chính thức
Tổng quan về AI cho các nhà phát triển về robot cho thấy cùng những trụ cột mà kho tài nguyên này tập trung—điểm, hộp, quỹ đạo, video và phối hợp—và cung cấp các đoạn mã tối thiểu cho ER 1.5 (hiện tại là gemini-robotics-er-1.5-preview). Nếu bạn mới bắt đầu, hãy bắt đầu từ đó để kết nối SDK của bạn, sau đó sử dụng các prompt trong kho tài nguyên như các bài kiểm tra tích hợp. (Google AI for Developers)
Blog ra mắt nhấn mạnh vai trò của mô hình như một nhà lập kế hoạch có khả năng có thể gọi công cụ (ví dụ: Tìm kiếm) và tuần tự hóa các API robot của bạn—chính xác là các quy trình làm việc mà nhiều thẻ trong kho tài nguyên này minh họa. (Google Developers Blog)
Nhìn nhanh: một mẫu prompt tái sử dụng
Một mẫu thường thấy trong kho tài nguyên (và tài liệu) là yêu cầu đầu ra không gian có cấu trúc mà bạn có thể đưa vào bộ lập kế hoạch của mình:
Chỉ định không quá N mục trong hình ảnh.
Trả về [{"point":[y,x],"label":"<tên>"}] với y/x chuẩn hóa về 0–1000.
Hình dạng này giữ cho các phản hồi thân thiện với máy và không phụ thuộc vào mô hình, và nó có thể mở rộng cho các phần, hộp hoặc quỹ đạo với những chỉnh sửa tối thiểu. (GitHub)
Ai nên sử dụng điều này
- Nhà nghiên cứu & nhà xây dựng robot đang thử nghiệm vòng lặp cảm nhận-hành động và đánh giá các định dạng prompt
- Nhóm sản phẩm xác thực trải nghiệm người dùng cho các nhiệm vụ robot bằng ngôn ngữ tự nhiên (dọn dẹp, tổ chức, phân loại, v.v.)
- Giáo viên & người đam mê tìm kiếm các ví dụ rõ ràng về lý luận có cơ sở đa phương thức dựa trên đầu ra không gian
Để có bối cảnh sâu hơn về hệ thống hai mô hình (ER 1.5 như là lập kế hoạch + mô hình VLA hướng hành động), hãy xem tổng quan của DeepMind về Gemini Robotics 1.5 và ER 1.5. (Google DeepMind)
Bắt đầu
- Đọc lướt tài liệu chính thức để xác nhận tên mô hình hiện tại, trạng thái xem trước và giới hạn đầu vào. (Google AI for Developers)
- Chạy một cuộc gọi prompt hình ảnh tối thiểu trong môi trường của bạn (Python hoặc REST). (Google AI for Developers)
- Chọn một trường hợp sử dụng từ kho (ví dụ: “hộp giới hạn 2D” hoặc “Lập kế hoạch quỹ đạo đơn giản”) và dán prompt như vậy. (GitHub)
- Kết nối phản hồi (điểm/hộp/đường đi) vào bộ điều khiển hoặc VLA của bạn để thực hiện; tăng ngân sách tư duy cho các nhiệm vụ khó khăn hơn như đếm hoặc lý luận khả năng. (Google AI for Developers)
Đóng góp
Kho tài nguyên hoan nghênh các PR. Thêm một thư mục mới dưới cases/<tên-ngắn>/ với một README ngắn, prompt của bạn và một hình ảnh (hoặc liên kết). Giữ cho các prompt có thể sao chép, thân thiện với JSON, và trích dẫn nguồn chính (tài liệu/blog/video). (GitHub)
Giấy phép & ghi nhận hình ảnh
Văn bản được cấp phép theo MIT. Hình ảnh demo được đánh dấu trong kho tài nguyên tham khảo tài liệu/blog công khai của Google; kiểm tra giấy phép nguồn trước khi phân phối lại và thay thế các chỗ trống bằng các hình ảnh của bạn khi không chắc chắn. (GitHub)
Đọc thêm
- Ra mắt/Hướng dẫn: Xây dựng thế hệ tiếp theo của các tác nhân vật lý với Gemini Robotics-ER 1.5 (tính khả dụng, khả năng, ngân sách tư duy, an toàn). (Google Developers Blog)
- Tài liệu: Tổng quan về Gemini Robotics-ER 1.5 (tìm kiếm đối tượng, quỹ đạo, video, phối hợp; mã ví dụ). (Google AI for Developers)
- Trang mô hình: Gemini Robotics 1.5 và ER 1.5 của DeepMind (vai trò hệ thống, lộ trình, bối cảnh người thử nghiệm đáng tin cậy). (Google DeepMind)
Nếu bạn xây dựng điều gì đó thú vị với các prompt này—mở một PR và chia sẻ nó với cộng đồng! (GitHub)