Ghi chú từ PyData Berlin 2025: Những điểm nổi bật
Sau một khoảng thời gian dài, cuối cùng tôi cũng đã tham dự lại hội nghị PyData Berlin 2025 và thật tuyệt vời! Trong bài viết này, tôi sẽ liệt kê các buổi nói chuyện mà tôi đã tham gia và chia sẻ một số điểm nổi bật. Sau đó, tôi sẽ viết thêm về những điều cụ thể hơn.
Tổng quan về các buổi nói chuyện
1. Khám Phá Hành Trình Người Dùng Phi Tuyến Bằng Python
Diễn giả: Yaseen Esmaeelpour
Yaseen đã trình bày một dự án thú vị mang tên funnelius, giúp hình dung các hành trình người dùng phi tuyến tính. Công cụ này sử dụng pandas, Graphviz và Streamlit, cho ra kết quả rất hữu ích! Để bắt đầu, chỉ cần một bộ dữ liệu đơn giản như sau:
| user_id | action | action_start | answer |
|---|---|---|---|
| 1 | 1st question | 2025-04-10 12:04:15.00 | Yes |
| 1 | 2nd question | 2025-04-10 12:05:17.00 | No |
| 2 | 2nd question | 2025-04-10 12:05:17.00 | Yes |
| 2 | 3rd question | 2025-04-10 12:08:27.00 | Yes |
Công cụ sẽ xây dựng các hành trình dựa trên user_id và các dấu thời gian.
2. Hình Ảnh Dữ Liệu Tiếp Cận Được
Diễn giả: Maris Nieuwenhuis
Với Luật Truy Cập Châu Âu sắp tới và tiêu chuẩn liên quan EN 301 549, vấn đề về khả năng tiếp cận sẽ được chú ý nhiều hơn. Trong buổi nói chuyện, Maris đã trình bày một hệ thống thiết kế nhằm hướng tới khả năng tiếp cận. Tôi thấy việc sử dụng các mẫu cùng với màu sắc rất hấp dẫn.
3. Dữ Liệu Pipelines Với DuckDB
Diễn giả: Mehdi OUAZZA
Buổi workshop này rất thú vị, nhưng tôi cần nhiều thời gian để “xử lý sau”.
💡 Trong hội nghị, DuckDB được nhắc đến rất nhiều và tôi đã thử nghiệm một chút. Tuy nhiên, tôi vẫn chưa hiểu rõ cách sử dụng nó trong nhiều trường hợp thực tế. Cuối cùng, dữ liệu cần được tải vào máy nơi duckdb đang chạy. Nó hoạt động như thế nào? Liệu hỗ trợ WASM có thực sự hữu ích không?
4. Dữ Liệu AI Sẵn Sàng Trong Thực Tế: Tạo Điều Kiện Cho Các Tác Nhân Thông Minh
Diễn giả: Violetta Mishechkina và Chang She
Buổi workshop này đã đề cập đến nhiều tài liệu và hai công cụ mà tôi chưa từng sử dụng trước đây: dlthub và lancedb. Tôi chắc chắn sẽ tìm hiểu sâu hơn về những công cụ này. Workshop theo tài liệu notebook này.
5. Narwhals: Hỗ Trợ Khung Dữ Liệu Toàn Cầu
Diễn giả: Marco Gorelli
Trong buổi nói chuyện, Marco đã:
- Trình bày gói
Narwhals - Chia sẻ những hiểu biết về quản lý một dự án mã nguồn mở. Một số điểm quan trọng:
- Không thể thương lượng:
- Hướng dẫn đóng góp rõ ràng
- Quy tắc ứng xử
- Những điều tốt nên có:
- Giao tiếp không áp lực (như Discord)
- Cuộc gọi cộng đồng mở
- Công nhận các nhà đóng góp bằng cách nâng cao quyền hạn của họ (nhưng hãy cẩn thận!)
- Có tầm nhìn rõ ràng, đừng dân chủ hóa quyết định quá sớm
- Chia sẻ lộ trình và ưu tiên
- Không thể thương lượng:
6. Tầm Quan Trọng Và Tính Thanh Lịch Của Biểu Thức Polars
Diễn giả: Jeroen Janssens
Đầu tiên, tôi không có kinh nghiệm với polars, nhưng bạn nên xem buổi nói chuyện này. Có thể tôi sẽ thảo luận thêm về nó trong bài viết khác, nhưng tôi đã có một cuộc thảo luận thú vị với Jeroen. Chúng tôi đã đồng ý rằng việc đóng gói biểu thức trong các hàm với tên cột được tham số hóa là một ý tưởng tốt.
7. Xây Dựng Ứng Dụng Dữ Liệu Phản Ứng Với Shinylive Và WebAssembly
Diễn giả: Christoph Scheuch
Một giải pháp thú vị để cung cấp dữ liệu trực tiếp cho người dùng trong trình duyệt. Tuy nhiên, tôi nghi ngờ rằng thách thức chính là khâu cuối cùng: xác thực. Đặc biệt, việc sử dụng thông tin xác thực một cách an toàn để truy cập các nguồn dữ liệu là một thách thức lớn.
8. Thảo Luận Sâu Về SDK Dữ Liệu Tổng Hợp
Diễn giả: Tobias Hann
Trong workshop này, Tobias đã trình bày SDK Dữ Liệu Tổng Hợp giúp tạo ra dữ liệu tổng hợp dựa trên các bộ dữ liệu có sẵn. Tài liệu Colab sau đây đã được chia sẻ và bao gồm:
- Khả năng cốt lõi của SDK
- Quyền riêng tư khác biệt
- Tạo có điều kiện
- Tổng hợp nhiều bảng
- Dữ liệu tổng hợp công bằng
9. Quên Đi Đám Mây: Xây Dựng Pipelines Nhanh Gọn Từ Dòng TCP Với Python Và DuckDB
Diễn giả: Orell Garten
Tôi rất thích câu hỏi của Orell ở đầu buổi nói chuyện: “AI XỬ LÝ ÍT HƠN 100 GB DỮ LIỆU MỖI NGÀY?”. Trong quá nhiều trường hợp, các nền tảng đám mây như Databricks thường quá tải. Cách tiếp cận nhẹ nhàng mà Orell trình bày rất đáng để tìm hiểu thêm.
10. Tạm Biệt Câu Hỏi Rối Rắm: Viết Các Câu Hỏi Bạn Thực Sự Hiểu Bằng Cú Pháp SQL Pipelines
Diễn giả: Tobias Lampert
Tôi nghĩ đây là buổi nói chuyện thực tế nhất mà tôi tham gia. Có một cú pháp mới: SQL Pipeline Syntax! Khác với SQL truyền thống, cú pháp này đảm bảo rằng những dòng đầu tiên của câu lệnh SQL luôn hợp lệ.
11. Docling: Chuẩn Bị Tài Liệu Của Bạn Cho Gen AI
Diễn giả: Christoph Auer
Một công cụ hữu ích có tên docling, giúp trích xuất các tệp sẵn sàng cho AI từ nhiều loại tài liệu khác nhau như PDF, PPT, v.v. Công cụ này rất dễ sử dụng và tôi sẽ tìm hiểu thêm về khả năng của nó trong tương lai.
12. Phân Tích Di Chuyển Đô Thị: Phân Tích Về Chia Sẻ Xe Tại Berlin
Diễn giả: Florian König
Trong buổi nói chuyện này, Florian đã trình bày nỗ lực của mình trong việc tối ưu hóa vị trí (không) của xe trong một đội xe chia sẻ. Tôi thật sự thích cách tiếp cận của anh ấy. Mặc dù anh ấy chưa thể tìm ra bí mật, nhưng tôi tin rằng với dữ liệu đáng tin cậy hơn, anh ấy có thể giúp ích rất nhiều trong lĩnh vực này!
Kết luận
Hội nghị PyData Berlin 2025 đã mang lại nhiều thông tin và công cụ mới cho những ai làm việc trong lĩnh vực dữ liệu và phân tích. Nếu bạn chưa tham gia, hãy cân nhắc tham dự vào năm sau! Đừng quên theo dõi các tài liệu và công cụ mà các diễn giả đã chia sẻ.
Câu hỏi thường gặp (FAQ)
- Các công cụ nào được nhắc đến nhiều nhất tại hội nghị?
DuckDBvàdlthublà hai công cụ nổi bật được đề cập nhiều.
- Có thể tìm tài liệu nào từ hội nghị không?
- Có, nhiều diễn giả đã chia sẻ tài liệu trên GitHub và các nền tảng khác.
- Hội nghị có tổ chức hàng năm không?
- Có, hội nghị PyData thường tổ chức hàng năm ở nhiều nơi trên thế giới.