Chào các bạn,
Tiếp tục hành trình của chúng ta trong series bài viết về chinh phục Python, Data & Automation. Sau khi hoàn thành Chặng 1.2: Python, Vượt Thử Thách Hackerank, mình đã thấy các nền tảng học tập trực tuyến như Hackerank và Viblo cực kỳ hữu ích để ôn luyện kỹ năng và kiểm tra năng lực. Các bài test dạng challenge rất thú vị và giúp chúng ta tự đánh giá được khả năng của mình cũng như phát hiện những điểm cần cải thiện.
Chặng 1.3 này, chúng ta sẽ tiếp tục với 4/10 mục tiêu còn lại tập trung vào: Pandas, và việc đọc/ghi dữ liệu từ các định dạng như: CSV, Excel, JSON. Chúng ta cũng sẽ khám phá một số công cụ đi kèm như: Jupyter, Matplotlib, và Seaborn.
May mắn thay, mình đã có thời gian làm quen với pandas và Jupyter, nên phần này sẽ không quá khó khăn. Đây là những nội dung trọng tâm mà chúng ta sẽ cùng nhau khám phá:
No. | Từ khóa | Liên kết bài kiểm tra | Độ khó | Độ phổ biến | Ghi chú |
---|---|---|---|---|---|
3 | Pandas CSV/Excel | Pandas Exercises, 101 Pandas Exercises for Data Analysis | Trung bình | 75% | Các bài tập giúp làm quen với việc đọc/ghi và xử lý dữ liệu bằng Pandas. |
4 | Jupyter Notebook | Trung bình | 70% | Hướng dẫn cách sử dụng Jupyter Notebook để phân tích dữ liệu. | |
6 | Data Cleaning | Trung bình | 65% | Thực hành làm sạch dữ liệu, một kỹ năng quan trọng trong phân tích dữ liệu. | |
8 | Data Visualization | Trung bình | 70% | Học cách tạo biểu đồ cơ bản với Matplotlib và Seaborn. |
Tổng quan, mục tiêu 3, 4, 6, 8 khá thực tế. Bạn có thể tìm kiếm tư liệu để cập nhật và nâng cao kỹ năng của mình. Tuy nhiên, cũng như ở chặng 1.2, trợ lý AI của mình đã đưa ra một số liên kết không chính xác. Vì vậy, mình sẽ hướng dẫn những liên kết và thử thách phù hợp hơn cho các bạn.
1.3.1 Thử Thách "Dự Đoán Sự Cố Máy Công Nghiệp" Trên Datacamp
Mình đã tìm kiếm một số nền tảng cung cấp bài test/thử thách liên quan đến Pandas và Jupyter giúp vừa học vừa ôn luyện. Hai nền tảng nổi bật nhất mà mình thấy là Kaggle và Datacamp. Cả hai đều rất tốt để luyện kỹ năng.
Giới Thiệu Về Kaggle
Kaggle nổi tiếng với cộng đồng lớn mạnh, các cuộc thi phân tích dữ liệu hấp dẫn và kho dữ liệu khổng lồ. Lợi thế của Kaggle là khả năng kết nối cộng đồng, nơi mọi người chia sẻ mã nguồn và kiến thức. Đây cũng là nơi lý tưởng để rèn luyện kỹ năng thực tế và xây dựng hồ sơ.
Giới Thiệu Về DataCamp
DataCamp tập trung vào việc cung cấp các khóa học trực tuyến về khoa học dữ liệu, phân tích và lập trình. Đây là nền tảng thân thiện cho người mới bắt đầu với bài học tương tác và lộ trình học tập cụ thể.
Mình đã trải nghiệm Kaggle trong một khóa học ngắn hạn. Còn về DataCamp, mặc dù chưa có cơ hội, nhưng mình đã thấy giao diện và thiết kế của họ rất hấp dẫn. Mục tiêu của mình trong chặng này là thử thách phức hợp mà họ cung cấp.
Tiêu Chí Chọn Bài Test/Thử Thách
Mục tiêu là tìm những bài test phức hợp, giúp bạn làm quen với nhiều kỹ năng, tiếp cận các topic đã nêu. Các bài competitions trên DataCamp đều khá phù hợp.
Mình quyết định chọn bài thử thách "Dự Đoán Sự Cố Máy Công Nghiệp" với file dữ liệu CSV chứa các thông số máy đo như nhiệt độ, tốc độ và thời gian chết máy. Thử thách này nhằm nghiên cứu khi nào máy xảy ra sự cố để có kế hoạch bảo trì hợp lý.
Kỹ Năng Và Kinh Nghiệm Học Được
Khi truy cập thử thách, bạn sẽ được đưa đến một trang WorkBook trực tuyến. WorkBook này chuẩn như một IDE cho phép bạn code, chạy và báo cáo trực tiếp trên nền tảng. Một số điểm nổi bật bao gồm:
- Jupyter: Môi trường rất dễ sử dụng cho việc lập trình và báo cáo.
- Pandas: Dễ dàng đọc/ghi dữ liệu từ CSV và các định dạng khác chỉ với một dòng code.
- Visualizations: Học cách làm báo cáo qua việc vẽ biểu đồ với matplotlib và seaborn.
Mục tiêu cuối cùng là biết cách làm một báo cáo phân tích dữ liệu chuẩn chỉnh và hoàn thành thử thách theo tiêu chí đã đề ra.
1.3.2 Khảo Sát 3 Bài Có Votes Cao Nhất
Vì thử thách không bị áp lực thời gian, mình quyết định khảo sát các bài có vote cao để học hỏi cách tiếp cận giải quyết bài toán này.
Bài Số 1
Đúng nghĩa là bài này tập trung hoàn thành yêu cầu, không chú trọng đến tiêu chí đánh giá nhưng phù hợp cho người mới.
Bài Số 2
Bài này có bố cục rõ ràng, nhiều quan sát và đề xuất thú vị, mặc dù chưa chặt chẽ.
Bài Số 3
Bài này chuyên nghiệp và thể hiện ý tưởng tốt với nhiều biểu đồ nhưng chưa sâu sắc.
Học Được Gì Từ 3 Bài Này
Khi khảo sát, bạn sẽ nhận ra rằng những yêu cầu đặt ra đơn giản nhưng để thỏa mãn các tiêu chí đề ra như đề xuất hành động hay mạch lạc trong storytelling rất quan trọng. Qua đó, các bạn có thể học hỏi và nâng cao kỹ năng phân tích dữ liệu của mình.
1.3.3 Hoàn Thành Thử Thách
Cuối cùng, sau khi hoàn thành, bạn hãy luyện tập thêm các kỹ năng còn thiếu từ ba bài trên. Hy vọng rằng, qua các thử thách này các bạn sẽ trở nên tự tin hơn trong việc sử dụng Pandas và Jupyter cho phân tích dữ liệu.
Hãy bắt đầu hành trình khám phá và chinh phục thế giới dữ liệu cùng nhau nhé!
source: viblo