0
0
Lập trình
Thaycacac
Thaycacac thaycacac

Giải Thích 25 Thuật Ngữ AI và Machine Learning Dễ Hiểu Nhất Dành Cho Người Mới Bắt Đầu

Đăng vào 1 tháng trước

• 5 phút đọc

Chủ đề:

Machine Leaning

1. Trí Tuệ Nhân Tạo (AI) là gì?

Trí tuệ nhân tạo (AI), viết tắt của Artificial Intelligence, là một lĩnh vực nghiên cứu tập trung vào việc phát triển các hệ thống máy tính có khả năng thực hiện những nhiệm vụ thông minh giống như con người. AI không chỉ bao gồm những robot có khả năng hoạt động hay ứng dụng phức tạp như ChatGPT hay Mid Journey. Ngay cả những ứng dụng đơn giản như mô hình dự đoán nhiệt độ hay phân loại bệnh cũng được coi là trí tuệ nhân tạo. Tóm lại, AI không cần phải phức tạp hay thần kỳ, mà chỉ cần thực hiện các tác vụ thông minh.

2. Machine Learning - Học Máy

Học máy (Machine Learning) là một lĩnh vực con của AI, tập trung vào việc giúp máy tính tự học từ dữ liệu mà không cần lập trình cụ thể. Sự khác biệt giữa lập trình cụ thể và không cụ thể nằm ở cách mà hệ thống học hỏi từ dữ liệu. Nếu lập trình cụ thể chỉ dựa vào các quy tắc cố định, thì Machine Learning dựa vào việc phân tích và học từ dữ liệu. Ví dụ, xây dựng mô hình phát hiện giao dịch ngân hàng giả mạo bằng cách học từ các dữ liệu giao dịch đã thu thập là một minh chứng cho học máy.

3. Học Sâu - Deep Learning

Học sâu (Deep Learning) là một lĩnh vực con của Machine Learning, sử dụng các thuật toán mô phỏng cấu trúc và chức năng của não người, còn gọi là Mạng thần kinh nhân tạo (Artificial Neural Networks). Học sâu đã đóng góp nhiều thành tựu cho AI, điển hình như ChatGPT và Mid Journey.

4. Mạng Thần Kinh Nhân Tạo - Neural Network

Mạng thần kinh nhân tạo (Neural Network) là mô hình tính toán lấy cảm hứng từ cấu trúc não người, được xây dựng từ các đơn vị gọi là neuron. Mặc dù hai thuật ngữ Deep Learning và Neural Network thường được dùng thay thế cho nhau, nhưng thực tế, Deep Learning là một lĩnh vực nghiên cứu, trong khi Neural Network là một kiến trúc cụ thể.

5. Dữ Liệu - Data

Dữ liệu (Data) là thông tin thu thập từ nhiều nguồn khác nhau. Dữ liệu có thể ở dạng thô hoặc đã qua xử lý, hiện diện rất nhiều trong cuộc sống hằng ngày. Từ tin nhắn, hoá đơn mua hàng cho đến ảnh chụp, tất cả đều là dữ liệu. Để dữ liệu hữu ích hơn, chúng ta cần tiến hành xử lý.

6. Tập Dữ Liệu - Dataset

Tập dữ liệu (Dataset) là tập hợp có tổ chức của nhiều mẫu dữ liệu, chuẩn bị dành riêng để huấn luyện và đánh giá mô hình học máy. Một ví dụ là tập dữ liệu điểm thi của học sinh, nơi mỗi hàng tương ứng với một học sinh.

7. Đặc Trưng - Feature

Đặc trưng (Feature) là thuộc tính của dữ liệu mà mô hình sử dụng để đưa ra dự đoán. Trong bảng dữ liệu, mỗi cột ngoại trừ cột được dự đoán là một đặc trưng.

8. Nhãn - Label

Nhãn (Label) là thông tin mô tả dữ liệu, kết quả mà mô hình cần dự đoán. Chẳng hạn, trong tập dữ liệu dự đoán nhiệt độ, cột nhiệt độ chính là nhãn mà mô hình cần dự đoán.

9. Mẫu - Sample

Mẫu (Sample) là một điểm dữ liệu cụ thể trong tập dữ liệu, bao gồm các đặc trưng và nhãn tương ứng. Trong dữ liệu dạng bảng, một mẫu thường là một hàng.

10. Mô Hình - Model

Mô hình (Model) là thuật toán học từ dữ liệu để đưa ra dự đoán. Quá trình huấn luyện mô hình mô phỏng cách con người học từ sách vở.

11. Gắn Nhãn Dữ Liệu - Data Labeling

Gắn nhãn dữ liệu (Data Labeling) là quy trình đánh dấu dữ liệu thô để mô hình có thể học và đưa ra dự đoán.

12. Xử Lý Dữ Liệu - Data Wrangling

Xử lý dữ liệu (Data Wrangling) là quá trình thu thập và làm sạch dữ liệu để có dạng cấu trúc dễ sử dụng hơn.

13. Tiền Xử Lý Dữ Liệu - Data Preprocessing

Tiền xử lý dữ liệu (Data Preprocessing) là quy trình chuẩn bị dữ liệu để áp dụng các thuật toán học máy.

14. Tăng Cường Dữ Liệu - Data Augmentation

Tăng cường dữ liệu (Data Augmentation) là quá trình tạo ra dữ liệu mới từ dữ liệu gốc để nâng cao khả năng học của mô hình.

15. Học Có Giám Sát - Supervised Learning

Học có giám sát (Supervised Learning) là nhóm thuật toán sử dụng dữ liệu có nhãn để mô hình hóa mối quan hệ giữa đầu vào và nhãn. Chẳng hạn, dự đoán nhiệt độ hoặc是否一个人感染Covid.

16. Học Không Giám Sát - Unsupervised Learning

Học không giám sát (Unsupervised Learning) sử dụng dữ liệu không có nhãn để tìm hiểu cấu trúc hoặc thông tin ẩn. Phân cụm là một ví dụ điển hình.

17. Học Tăng Cường - Reinforcement Learning

Học tăng cường (Reinforcement Learning) là nhóm thuật toán tương tác với môi trường để điều chỉnh hành vi dựa trên phản hồi từ môi trường. Trong trường hợp này, đối tượng huấn luyện được gọi là tác nhân.

18. Phân Loại - Classification

Phân loại (Classification) là một thuật toán có giám sát, với kết quả đầu ra là giá trị rời rạc. Ví dụ, mô hình phân loại email xác định xem email có phải là spam hay không.

19. Hồi Quy - Regression

Hồi quy (Regression) là một thuật toán có giám sát, với đầu ra là giá trị liên tục. Ví dụ, dự đoán giá nhà dựa trên các đặc điểm khác nhau.

20. Quá Khớp - Overfitting

Quá khớp (Overfitting) xảy ra khi mô hình học quá nhiều từ dữ liệu huấn luyện, dẫn đến kết quả tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.

21. Chưa Khớp - Underfitting

Chưa khớp (Underfitting) là hiện tượng mô hình quá đơn giản, không thể nắm bắt các đặc trưng quan trọng, dẫn đến hiệu suất kém trên cả dữ liệu huấn luyện và dữ liệu mới.

22. Tập Dữ Liệu Mất Cân Bằng - Imbalance Dataset

Tập dữ liệu mất cân bằng (Imbalance Dataset) là tập dữ liệu use cho phân loại mà số lượng mẫu giữa các lớp không đều, ví dụ có 99% mẫu khỏe mạnh và chỉ 1% mẫu ung thư.

23. Tăng Cường Mẫu - Oversampling

Tăng cường mẫu (Oversampling) là quá trình tăng số lượng mẫu của lớp thiểu số bằng cách tạo thêm bản sao hoặc mẫu tổng hợp.

24. Giảm Mẫu - Undersampling

Giảm mẫu (Undersampling) là quá trình giảm số lượng mẫu của lớp đa số bằng cách loại bỏ một số mẫu.

25. Lớp hay Loại - Class hoặc Category

Lớp (Class) hay loại (Category) dùng để phân loại. Ví dụ, trong bài toán phân loại email, ta có hai lớp: email bình thường và email spam.
source: viblo

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào