Giới thiệu

Trợ Lý AI Cấp Cứu Đầu Tiên là một ứng dụng web đa phương thức, được thiết kế để cung cấp hướng dẫn sơ cứu rõ ràng, dễ tiếp cận và ngay lập tức trong những tình huống căng thẳng. Bằng cách tận dụng toàn bộ khả năng đa phương thức của Gemini, ứng dụng này biến điện thoại của người dùng thành một công cụ phản ứng khủng hoảng thông minh. Người dùng có thể mô tả tình huống khẩn cấp bằng văn bản, hình ảnh, video hoặc âm thanh và nhận được một bộ hướng dẫn đầy đủ, dễ hiểu, được tăng cường bằng hình ảnh và video do AI tạo ra.

Vấn đề mà ứng dụng giải quyết

Trong một tình huống khẩn cấp y tế, sự hoảng loạn và không chắc chắn là những rào cản lớn nhất đối với hành động hiệu quả. Người dân thường không biết quy trình chính xác, và việc tìm kiếm thông tin qua công cụ tìm kiếm có thể chậm chạp, gây nhầm lẫn và không thực tế—đặc biệt nếu tay họ đang bận. Thêm vào đó, các hành động y tế phức tạp rất khó hiểu chỉ từ văn bản, và hình ảnh thực tế có thể gây sốc và khó chịu. Rào cản ngôn ngữ cũng có thể ngăn cản cá nhân nhận được sự giúp đỡ cần thiết.

Giải pháp của chúng tôi

Ứng dụng của chúng tôi giải quyết những vấn đề này bằng cách:

Giảm hoảng loạn: Cung cấp một nguồn duy nhất, đáng tin cậy cho hướng dẫn từng bước ngay lập tức.
Phá vỡ sự phức tạp: Sử dụng hình ảnh và video do AI tạo ra để làm cho hướng dẫn trở nên rõ ràng và dễ thực hiện.
Khắc phục rào cản nhập liệu: Cho phép người dùng giao tiếp tình huống theo cách tự nhiên nhất—bằng cách nói, gõ hoặc thể hiện.
Đảm bảo tính khả dụng: Cung cấp hỗ trợ song ngữ (Tiếng Anh/Bồ Đào Nha) và đọc văn bản qua giọng nói để sử dụng tay không.

Trải nghiệm người dùng

Trợ Lý AI Cấp Cứu Đầu Tiên tạo ra trải nghiệm mạnh mẽ và bình tĩnh trong bối cảnh hỗn loạn. Thay vì cảm thấy bất lực, người dùng được hướng dẫn bởi một trợ lý bình tĩnh, đáng tin cậy.

Hành trình của người dùng

Hành trình người dùng được thiết kế để trở nên liền mạch và trực quan:

Nhập liệu đa phương thức: Người dùng đối diện với tình huống khẩn cấp (ví dụ: vết thương sâu, bỏng, hoặc ai đó bị nghẹt thở) có thể ngay lập tức ghi lại tình huống. Họ có thể gõ mô tả ("vết thương sâu trên cánh tay"), chụp ảnh vết thương, ghi lại một video ngắn hoặc ghi âm một tin nhắn mô tả điều đang diễn ra.
Hướng dẫn đa phương thức do AI cung cấp: Ứng dụng xử lý đầu vào đa phương thức và cung cấp phản hồi toàn diện:
- Hướng dẫn cốt lõi: Gemini 2.5 Flash, được hỗ trợ bởi Google Search để đảm bảo độ chính xác, tạo ra hướng dẫn sơ cứu rõ ràng, có số thứ tự và từng bước, được điều chỉnh cho tình huống khẩn cấp cụ thể.
- Hình ảnh minh họa: Đối với mỗi bước, Imagen 4.0 tạo ra một hình minh họa thực tế tùy chỉnh. Hình ảnh này giúp làm rõ hướng dẫn (ví dụ: cách áp lực lên vết thương) mà không hiển thị hình ảnh thực tế gây sốc hoặc khó chịu.
- Video hướng dẫn: Để loại bỏ bất kỳ sự mơ hồ nào, người dùng có thể nhấp vào nút trên bất kỳ bước nào để tạo một video minh họa ngắn, do Veo 2.0 cung cấp. Điều này biến một hướng dẫn tĩnh thành một hướng dẫn hình ảnh động dễ theo dõi, cho thấy chuyển động và kỹ thuật cần thiết.
- Giọng nói đọc hướng dẫn: Bộ hướng dẫn đầy đủ có thể được đọc to qua công cụ chuyển văn bản thành giọng nói của trình duyệt, cho phép người dùng theo dõi mà không cần phải nhìn vào màn hình trong khi họ thực hiện cứu trợ.
- Công cụ khẩn cấp tích hợp: Trải nghiệm không chỉ dừng lại ở hướng dẫn. Giao diện cung cấp quyền truy cập ngay lập tức, chỉ với một chạm, để gọi dịch vụ khẩn cấp địa phương (911 hoặc 192, tùy thuộc vào cài đặt ngôn ngữ) và bản đồ để tìm bệnh viện gần nhất, tạo ra một trung tâm phản ứng khẩn cấp hoàn chỉnh.

Bằng cách tích hợp liền mạch văn bản, hình ảnh, video và âm thanh, Trợ Lý AI Cấp Cứu Đầu Tiên làm rõ quy trình sơ cứu và giúp bất kỳ ai trở thành một nhân viên cứu trợ có khả năng, giúp lấp đầy khoảng trống quan trọng giữa khi một sự cố xảy ra và khi sự giúp đỡ chuyên nghiệp đến.

Demo

Chế độ mặc định của ứng dụng là tiếng Bồ Đào Nha nhưng bạn có thể nhấp vào nút và dịch sang tiếng Anh
[https://first-aid-frontend-496246101066.us-central1.run.app/]

Cách tôi sử dụng Google AI Studio

Các tính năng đa phương thức

Tận dụng Google AI Studio & Khả năng Đa phương thức
Trợ Lý AI Cấp Cứu Đầu Tiên được hình thành từ môi trường phát triển nguyên mẫu nhanh chóng của Google AI Studio. Nền tảng này không chỉ là điểm khởi đầu mà còn là công cụ thiết yếu trong suốt quá trình phát triển, cho phép chúng tôi thiết kế, thử nghiệm và tinh chỉnh logic cốt lõi trước khi viết một dòng mã sản xuất nào. Ứng dụng về cơ bản là đa phương thức, tạo ra một vòng lặp liền mạch từ đầu vào của người dùng dưới bất kỳ định dạng nào đến hướng dẫn do AI tạo ra ở nhiều định dạng khác nhau.

Cách chúng tôi tận dụng Google AI Studio

Google AI Studio là nơi làm việc chính của chúng tôi cho việc tạo mẫu và xác nhận chiến lược đa phương thức của chúng tôi.

Thiết kế nhanh chóng và tạo mẫu: Chúng tôi đã sử dụng giao diện web của AI Studio để tạo ra và kiểm tra các hướng dẫn hệ thống phức tạp cho Gemini 2.5 Flash. Điều này rất quan trọng cho hướng dẫn tạo ra chính, nơi chúng tôi cần mô hình:
- Đóng vai trò như một trợ lý sơ cứu bình tĩnh và đáng tin cậy.
- Sử dụng công cụ Google Search để đảm bảo độ chính xác của tư vấn y tế.
- Đầu ra phản hồi theo định dạng JSON nghiêm ngặt, không thương lượng ({steps: [{step_number, instruction_text}]}). Chúng tôi đã lặp đi lặp lại hàng chục lần trong Studio để hoàn thiện hướng dẫn buộc đầu ra này một cách đáng tin cậy, ngay cả khi một công cụ đang được sử dụng.
Xác thực chiến lược đầu vào đa phương thức: Giả định cốt lõi của ứng dụng là người dùng có thể mô tả một tình huống khẩn cấp theo cách dễ dàng nhất cho họ. Chúng tôi đã sử dụng AI Studio để mô phỏng điều này bằng cách:
- Tải lên nhiều hình ảnh thử nghiệm (ví dụ: ảnh của vết cắt, bỏng, côn trùng cắn) cùng với các văn bản như "Tôi phải làm gì với điều này?"
- Kiểm tra xem Gemini sẽ diễn giải sự kết hợp của văn bản và phương tiện như thế nào để hiểu toàn bộ ngữ cảnh của tình huống khẩn cấp. Điều này giúp chúng tôi tự tin rằng mô hình có thể tổng hợp thông tin từ nhiều nguồn trước khi chúng tôi xây dựng chức năng tải tệp và camera.

Tinh chỉnh các hướng dẫn cho việc tạo ra phương tiện

Chúng tôi đã sử dụng AI Studio để thử nghiệm với các hướng dẫn gửi đến mô hình tạo hình ảnh và video của chúng tôi. Chúng tôi đã xây dựng và thử nghiệm các mẫu hướng dẫn để đảm bảo đầu ra:

Đối với hình ảnh (Imagen 4.0): Rõ ràng, minh họa, thực tế nhưng không gây sốc hoặc kinh dị. Chúng tôi đã chọn công thức như: "Tạo ra một hình minh họa rõ ràng, đơn giản, thực tế cho bước sơ cứu này... Phong cách: hình minh họa sách giáo khoa hiện đại. Không có văn bản hoặc máu me."
Đối với video (Veo 2.0): Tập trung, chuyển động chậm và dễ hiểu. Chúng tôi đã tinh chỉnh các hướng dẫn để nhấn mạnh hành động cốt lõi, chẳng hạn như: "Tạo một video ngắn, rõ ràng, chuyển động chậm mô tả hướng dẫn sơ cứu này. Tập trung vào hành động đã mô tả."

Triển khai khả năng đa phương thức

Ứng dụng của chúng tôi là một trải nghiệm đa phương thức hoàn chỉnh, tận dụng khả năng của Gemini để hiểu và tạo nội dung trên các định dạng khác nhau.

1. Đầu vào đa phương thức: Hiểu tình huống khẩn cấp

Người dùng được trao quyền để giao tiếp tình huống của họ bằng phương pháp trực quan nhất có thể trong một khoảnh khắc căng thẳng. Gemini 2.5 Flash đóng vai trò là trí thông minh trung tâm, kết hợp các đầu vào đa dạng này thành một hiểu biết thống nhất về tình huống khẩn cấp.
Văn bản: Người dùng có thể gõ một mô tả (ví dụ: "bạn tôi ngã và có một vết thương sâu ở cánh tay").
Hình ảnh: Người dùng có thể chụp ảnh bằng máy ảnh của họ hoặc tải lên hình ảnh của vết thương, cung cấp ngữ cảnh hình ảnh quan trọng mà lời nói có thể không diễn đạt được.
Video: Người dùng có thể ghi lại một video ngắn về tình huống, điều này có thể cho thấy mức độ chảy máu, trạng thái của người đó hoặc môi trường.
Âm thanh: Đối với cách tiếp cận không cần tay, người dùng có thể ghi âm một tin nhắn mô tả những gì đã xảy ra.

2. Đầu ra đa phương thức: Cung cấp hướng dẫn có thể thực hiện

Khi tình huống khẩn cấp đã được hiểu, ứng dụng cung cấp một phản hồi toàn diện, đa lớp được thiết kế để tối đa hóa độ rõ ràng và tính khả dụng dưới áp lực.

Hướng dẫn văn bản có nền tảng: Gemini 2.5 Flash, với khả năng lý luận được hỗ trợ bởi công cụ Google Search, tạo ra hướng dẫn chính xác, có số thứ tự và từng bước.
Hình ảnh minh họa được tạo ra: Đối với mỗi hướng dẫn văn bản, chúng tôi gọi Imagen 4.0 để tạo ra hình ảnh thực tế tùy chỉnh. Hình ảnh này giúp làm rõ hành động (ví dụ: cách áp lực lên vết thương, cách đặt một chi đúng cách) mà không có tính chất gây sốc hoặc kinh dị của những bức ảnh thực tế.
Video minh họa được tạo ra: Để loại bỏ tất cả sự mơ hồ cho các hành động phức tạp, người dùng có thể tạo một video ngắn động cho bất kỳ bước nào. Chúng tôi sử dụng hình ảnh minh họa và văn bản hướng dẫn làm đầu vào cho Veo 2.0, điều này tạo ra một video cho thấy kỹ thuật chính xác cần thiết. Điều này biến một hướng dẫn tĩnh thành một video dễ theo dõi.
Âm thanh tổng hợp (Chuyển văn bản thành giọng nói): Ứng dụng sử dụng công cụ tổng hợp giọng nói tích hợp sẵn của trình duyệt để đọc toàn bộ bộ hướng dẫn. Điều này cung cấp một chế độ không cần tay quan trọng, cho phép người dùng lắng nghe và hành động đồng thời mà không cần phải nhìn vào màn hình của họ.

Bằng cách tích hợp toàn bộ phổ đầu vào và đầu ra đa phương thức này, Trợ Lý AI Cấp Cứu Đầu Tiên biến một truy vấn đơn giản thành một bộ hướng dẫn phong phú, tương tác và có thể cứu sống, thực sự thể hiện sức mạnh của hệ sinh thái đa phương thức của Gemini.

Ứng dụng đã được tôi hoàn toàn phát triển với Google AI Studio.

Trợ Lý AI Cấp Cứu Đầu Tiên: Giải Quyết Khẩn Cấp Nhanh Chóng