Ghi chú từ PyData Berlin 2025: Những điểm nổi bật

Sau một khoảng thời gian dài, cuối cùng tôi cũng đã tham dự lại hội nghị PyData Berlin 2025 và thật tuyệt vời! Trong bài viết này, tôi sẽ liệt kê các buổi nói chuyện mà tôi đã tham gia và chia sẻ một số điểm nổi bật. Sau đó, tôi sẽ viết thêm về những điều cụ thể hơn.

Tổng quan về các buổi nói chuyện

1. Khám Phá Hành Trình Người Dùng Phi Tuyến Bằng Python

Diễn giả: Yaseen Esmaeelpour

Yaseen đã trình bày một dự án thú vị mang tên funnelius, giúp hình dung các hành trình người dùng phi tuyến tính. Công cụ này sử dụng pandas, Graphviz và Streamlit, cho ra kết quả rất hữu ích! Để bắt đầu, chỉ cần một bộ dữ liệu đơn giản như sau:

user_id	action	action_start	answer
1	1st question	2025-04-10 12:04:15.00	Yes
1	2nd question	2025-04-10 12:05:17.00	No
2	2nd question	2025-04-10 12:05:17.00	Yes
2	3rd question	2025-04-10 12:08:27.00	Yes

Công cụ sẽ xây dựng các hành trình dựa trên user_id và các dấu thời gian.

2. Hình Ảnh Dữ Liệu Tiếp Cận Được

Diễn giả: Maris Nieuwenhuis

Với Luật Truy Cập Châu Âu sắp tới và tiêu chuẩn liên quan EN 301 549, vấn đề về khả năng tiếp cận sẽ được chú ý nhiều hơn. Trong buổi nói chuyện, Maris đã trình bày một hệ thống thiết kế nhằm hướng tới khả năng tiếp cận. Tôi thấy việc sử dụng các mẫu cùng với màu sắc rất hấp dẫn.

3. Dữ Liệu Pipelines Với DuckDB

Diễn giả: Mehdi OUAZZA

Buổi workshop này rất thú vị, nhưng tôi cần nhiều thời gian để “xử lý sau”.

💡 Trong hội nghị, DuckDB được nhắc đến rất nhiều và tôi đã thử nghiệm một chút. Tuy nhiên, tôi vẫn chưa hiểu rõ cách sử dụng nó trong nhiều trường hợp thực tế. Cuối cùng, dữ liệu cần được tải vào máy nơi duckdb đang chạy. Nó hoạt động như thế nào? Liệu hỗ trợ WASM có thực sự hữu ích không?

4. Dữ Liệu AI Sẵn Sàng Trong Thực Tế: Tạo Điều Kiện Cho Các Tác Nhân Thông Minh

Diễn giả: Violetta Mishechkina và Chang She

Buổi workshop này đã đề cập đến nhiều tài liệu và hai công cụ mà tôi chưa từng sử dụng trước đây: dlthub và lancedb. Tôi chắc chắn sẽ tìm hiểu sâu hơn về những công cụ này. Workshop theo tài liệu notebook này.

5. Narwhals: Hỗ Trợ Khung Dữ Liệu Toàn Cầu

Diễn giả: Marco Gorelli

Trong buổi nói chuyện, Marco đã:

Trình bày gói Narwhals
Chia sẻ những hiểu biết về quản lý một dự án mã nguồn mở. Một số điểm quan trọng:
- Không thể thương lượng:
  - Hướng dẫn đóng góp rõ ràng
  - Quy tắc ứng xử
- Những điều tốt nên có:
  - Giao tiếp không áp lực (như Discord)
  - Cuộc gọi cộng đồng mở
  - Công nhận các nhà đóng góp bằng cách nâng cao quyền hạn của họ (nhưng hãy cẩn thận!)
  - Có tầm nhìn rõ ràng, đừng dân chủ hóa quyết định quá sớm
  - Chia sẻ lộ trình và ưu tiên

6. Tầm Quan Trọng Và Tính Thanh Lịch Của Biểu Thức Polars

Diễn giả: Jeroen Janssens

Đầu tiên, tôi không có kinh nghiệm với polars, nhưng bạn nên xem buổi nói chuyện này. Có thể tôi sẽ thảo luận thêm về nó trong bài viết khác, nhưng tôi đã có một cuộc thảo luận thú vị với Jeroen. Chúng tôi đã đồng ý rằng việc đóng gói biểu thức trong các hàm với tên cột được tham số hóa là một ý tưởng tốt.

7. Xây Dựng Ứng Dụng Dữ Liệu Phản Ứng Với Shinylive Và WebAssembly

Diễn giả: Christoph Scheuch

Một giải pháp thú vị để cung cấp dữ liệu trực tiếp cho người dùng trong trình duyệt. Tuy nhiên, tôi nghi ngờ rằng thách thức chính là khâu cuối cùng: xác thực. Đặc biệt, việc sử dụng thông tin xác thực một cách an toàn để truy cập các nguồn dữ liệu là một thách thức lớn.

8. Thảo Luận Sâu Về SDK Dữ Liệu Tổng Hợp

Diễn giả: Tobias Hann

Trong workshop này, Tobias đã trình bày SDK Dữ Liệu Tổng Hợp giúp tạo ra dữ liệu tổng hợp dựa trên các bộ dữ liệu có sẵn. Tài liệu Colab sau đây đã được chia sẻ và bao gồm:

Khả năng cốt lõi của SDK
Quyền riêng tư khác biệt
Tạo có điều kiện
Tổng hợp nhiều bảng
Dữ liệu tổng hợp công bằng

9. Quên Đi Đám Mây: Xây Dựng Pipelines Nhanh Gọn Từ Dòng TCP Với Python Và DuckDB

Diễn giả: Orell Garten

Tôi rất thích câu hỏi của Orell ở đầu buổi nói chuyện: “AI XỬ LÝ ÍT HƠN 100 GB DỮ LIỆU MỖI NGÀY?”. Trong quá nhiều trường hợp, các nền tảng đám mây như Databricks thường quá tải. Cách tiếp cận nhẹ nhàng mà Orell trình bày rất đáng để tìm hiểu thêm.

10. Tạm Biệt Câu Hỏi Rối Rắm: Viết Các Câu Hỏi Bạn Thực Sự Hiểu Bằng Cú Pháp SQL Pipelines

Diễn giả: Tobias Lampert

Tôi nghĩ đây là buổi nói chuyện thực tế nhất mà tôi tham gia. Có một cú pháp mới: SQL Pipeline Syntax! Khác với SQL truyền thống, cú pháp này đảm bảo rằng những dòng đầu tiên của câu lệnh SQL luôn hợp lệ.

11. Docling: Chuẩn Bị Tài Liệu Của Bạn Cho Gen AI

Diễn giả: Christoph Auer

Một công cụ hữu ích có tên docling, giúp trích xuất các tệp sẵn sàng cho AI từ nhiều loại tài liệu khác nhau như PDF, PPT, v.v. Công cụ này rất dễ sử dụng và tôi sẽ tìm hiểu thêm về khả năng của nó trong tương lai.

12. Phân Tích Di Chuyển Đô Thị: Phân Tích Về Chia Sẻ Xe Tại Berlin

Diễn giả: Florian König

Trong buổi nói chuyện này, Florian đã trình bày nỗ lực của mình trong việc tối ưu hóa vị trí (không) của xe trong một đội xe chia sẻ. Tôi thật sự thích cách tiếp cận của anh ấy. Mặc dù anh ấy chưa thể tìm ra bí mật, nhưng tôi tin rằng với dữ liệu đáng tin cậy hơn, anh ấy có thể giúp ích rất nhiều trong lĩnh vực này!

Kết luận

Hội nghị PyData Berlin 2025 đã mang lại nhiều thông tin và công cụ mới cho những ai làm việc trong lĩnh vực dữ liệu và phân tích. Nếu bạn chưa tham gia, hãy cân nhắc tham dự vào năm sau! Đừng quên theo dõi các tài liệu và công cụ mà các diễn giả đã chia sẻ.

Câu hỏi thường gặp (FAQ)

Các công cụ nào được nhắc đến nhiều nhất tại hội nghị?
- DuckDB và dlthub là hai công cụ nổi bật được đề cập nhiều.
Có thể tìm tài liệu nào từ hội nghị không?
- Có, nhiều diễn giả đã chia sẻ tài liệu trên GitHub và các nền tảng khác.
Hội nghị có tổ chức hàng năm không?
- Có, hội nghị PyData thường tổ chức hàng năm ở nhiều nơi trên thế giới.

Ghi chú từ PyData Berlin 2025: Những điểm nổi bật

Ghi chú từ PyData Berlin 2025: Những điểm nổi bật

Tổng quan về các buổi nói chuyện

1. Khám Phá Hành Trình Người Dùng Phi Tuyến Bằng Python

2. Hình Ảnh Dữ Liệu Tiếp Cận Được

3. Dữ Liệu Pipelines Với DuckDB

4. Dữ Liệu AI Sẵn Sàng Trong Thực Tế: Tạo Điều Kiện Cho Các Tác Nhân Thông Minh

5. Narwhals: Hỗ Trợ Khung Dữ Liệu Toàn Cầu

6. Tầm Quan Trọng Và Tính Thanh Lịch Của Biểu Thức Polars

7. Xây Dựng Ứng Dụng Dữ Liệu Phản Ứng Với Shinylive Và WebAssembly

8. Thảo Luận Sâu Về SDK Dữ Liệu Tổng Hợp

9. Quên Đi Đám Mây: Xây Dựng Pipelines Nhanh Gọn Từ Dòng TCP Với Python Và DuckDB

10. Tạm Biệt Câu Hỏi Rối Rắm: Viết Các Câu Hỏi Bạn Thực Sự Hiểu Bằng Cú Pháp SQL Pipelines

11. Docling: Chuẩn Bị Tài Liệu Của Bạn Cho Gen AI

12. Phân Tích Di Chuyển Đô Thị: Phân Tích Về Chia Sẻ Xe Tại Berlin

Kết luận

Câu hỏi thường gặp (FAQ)

Bình luận