Tin Tức Tuần Về Dữ Liệu và AI
( AI, Dữ Liệu, NiFi, Iceberg, Polaris, Streamlit, Flink, Kafka, Python, Java, SQL, MCP, LLM, RAG, Cortex AI, AISQL, Tìm kiếm, Dữ Liệu Không Cấu Trúc )
#207: 15 Tháng 9 2025
NiFi + AI + AI Data Cloud + Iceberg.
Reddit - Dữ liệu Kỹ thuật cho AI
Sự kiện hàng tháng tại NYC và Youtube
Các Dự Án Mã và Mở Nguồn
AWS New York Summit
GitHub - AWS New York Summit
Hex + Snowflake Hackathon
GitHub - Hex + Snowflake Hackathon
Apache NiFi + AI Agents + Cortex AI + Snowflake AISQL
Lời Chào
Phiên bản này là một phiên bản đặc biệt, vì chúng tôi sẽ làm nổi bật sự kiện Community Over Code 2025, nơi tôi có cơ hội trình bày ba bài nói chuyện. Đây là một cơ hội tuyệt vời để kết nối với cộng đồng mã nguồn mở và chia sẻ những hiểu biết về nhiều chủ đề, từ Apache NiFi đến tối ưu hóa dữ liệu thời gian thực.
Dưới đây, bạn sẽ tìm thấy một bản tóm tắt về các bài nói chuyện, cùng với các cập nhật quan trọng khác từ thế giới kỹ thuật dữ liệu và AI.
Khám Phá Sâu Về Community Over Code 2025
Tôi rất vui mừng khi trình bày ba bài nói chuyện tại COC25. Đối với những ai đã bỏ lỡ hoặc muốn xem lại tài liệu, bạn có thể tìm thấy các slide và tài nguyên liên quan dưới đây:
- NiFi Man: Chúng Tôi Đã Đến, Nhưng Có Nên Đến Không? Bài nói chuyện này khám phá các cân nhắc thực tiễn và các tác động thực tế của việc triển khai Apache NiFi. Chúng tôi không chỉ nói về "cách làm" mà còn đi sâu vào "tại sao" và "khi nào" sử dụng công cụ dòng dữ liệu mạnh mẽ này.
- Slides: NiFi Man
- Video: NiFi Man Video
- Sử Dụng Dữ Liệu Giao Thông Thời Gian Thực Để Tối Ưu Hóa Du Lịch Bài nói chuyện này trình bày cách tận dụng các luồng dữ liệu giao thông thời gian thực để xây dựng các giải pháp tối ưu hóa du lịch thông minh. Chúng tôi đã thảo luận về kiến trúc, xử lý dữ liệu và lợi ích của một hệ thống như vậy.
- Slides: Real-Time Transit Data
- Cải Thiện Apache NiFi 2.x Với Các Bộ Xử Lý Python Đối với khán giả kỹ thuật hơn, bài nói chuyện này trình bày cách mở rộng chức năng của Apache NiFi bằng cách sử dụng các bộ xử lý Python tùy chỉnh. Đây là một cách tuyệt vời để tích hợp logic và thư viện chuyên biệt trực tiếp vào các dòng dữ liệu của bạn.
- Slides: Enhancing Apache NiFi 2.x
- Video: Enhancing Video
Tất cả mã và tài liệu cho các bài trình bày này có thể được tìm thấy trong kho GitHub công cộng của tôi cho hội nghị:
- GitHub: Community Over Code 2025
Cập Nhật Ngành Và Đối Tác Khác
Dưới đây là cái nhìn nhanh về các phát triển và phát hành đáng chú ý khác trong tuần qua:
- Apache Iceberg: Một bài viết mới từ The New Stack nhằm mục đích xua tan những hiểu lầm phổ biến về độ phức tạp của các framework mã nguồn mở như Apache Iceberg. Ngoài ra, blog Kỹ thuật Snowflake đã phát hành một bài viết chi tiết về các tính năng và sửa lỗi mới trong Apache Iceberg 1.1.0.
- Xua Tan Mối Nguy: Dispelling Myths of Open Source Complexity with Apache Iceberg
- Iceberg 1.10: New Features and Fixes
- Snowflake: Snowflake đã công bố khả năng sử dụng chung của Workspaces, một tính năng được thiết kế để nâng cao sự hợp tác và tổ chức. Chúng tôi cũng đã thấy một số bài viết tuyệt vời về việc sử dụng Snowflake Cortex Agents thông qua REST API và nâng cấp máy chủ MCP mã nguồn mở cho Snowflake.
- Workspaces GA: Snowflake Workspaces GA
- Hướng Dẫn REST API: Snowflake Cortex Agents: A REST API Guide
- Máy Chủ MCP: Open Source MCP Server for Snowflake Upgraded
Cập Nhật Tuần Về Đại Lý
Điểm Nhấn: CA Open Data AI Agent
Liên kết Dự án: CA Open Data AI Agent
Tóm tắt: Trong tuần này, chúng tôi sẽ xem xét California Open Data AI Agent. Được xây dựng chỉ trong 60 phút bằng Snowflake, đại lý này chứng minh cách tạo ra một quy trình làm việc RAG (Retrieval-Augmented Generation) thời gian thực trên dữ liệu chính phủ trực tiếp mà không cần thiết lập máy chủ mới. Nó thể hiện sức mạnh của AI agent trong việc tổng hợp câu trả lời từ hàng ngàn bộ dữ liệu với trích dẫn rõ ràng.
Điểm Chính: Dự án này làm nổi bật tính thực tiễn và tốc độ triển khai các giải pháp đại lý không máy chủ sẵn sàng cho sản xuất để giải quyết các thách thức về dữ liệu thực tế.
Framework & Công Cụ Của Tuần: Agentscope
Liên kết GitHub: Agentscope
Tóm tắt: Agentscope là một thư viện lập trình định hướng đại lý giúp dễ dàng xây dựng các ứng dụng LLM. Nó được thiết kế để "hướng tới nhà phát triển" với các tính năng như thực thi bất đồng bộ, gọi công cụ song song và điều khiển thời gian thực. Nó cung cấp một cách tiếp cận minh bạch nơi việc thiết kế prompt và gọi API hoàn toàn có thể nhìn thấy và kiểm soát.
Tại sao nó quan trọng: Agentscope, cùng với các thư viện liên quan như agentscope-runtime và agentscope-studio, cung cấp một bộ công cụ toàn diện không chỉ cho việc phát triển mà còn cho việc triển khai và trực quan hóa các ứng dụng dựa trên đại lý.
Phân Tích Kỹ Thuật Sâu: Snowflake Cortex Agents API
Liên kết bài viết: Snowflake Cortex Agents: A REST API Guide
Tóm tắt: Snowflake Cortex Agent là một trợ lý AI dữ liệu mạnh mẽ tự động hóa các quy trình dữ liệu phức tạp. Hướng dẫn này giải thích cách sử dụng REST API của nó để xây dựng các ứng dụng có thể điều phối giữa cả dữ liệu có cấu trúc (sử dụng Cortex Analyst) và dữ liệu không có cấu trúc (sử dụng Cortex Search). Nó được thiết kế để an toàn, với các biện pháp an ninh hiện có của Snowflake áp dụng tự động.
Khái Niệm Chính:
- Lập Kế Hoạch: Đại lý phân tích yêu cầu và tạo ra một kế hoạch toàn diện.
- Sử Dụng Công Cụ: Nó chọn các công cụ phù hợp (Cortex Analyst cho SQL, Cortex Search cho văn bản).
- Phản Chiếu: Nó đánh giá kết quả và tinh chỉnh cách tiếp cận của mình.
Theo Dõi Mô Hình: Google VaultGemma-1B
Liên kết Hugging Face: VaultGemma-1B
Tóm tắt: VaultGemma là một biến thể của gia đình mô hình mở Gemma từ Google, nhưng với một điểm khác biệt chính: nó được huấn luyện từ đầu bằng cách sử dụng Bảo Mật Phân Biệt (DP). Điều này cung cấp các đảm bảo bảo mật mạnh mẽ và có cơ sở toán học cho dữ liệu huấn luyện của nó, làm cho nó trở thành một sự lựa chọn tuyệt vời cho các ứng dụng mà bảo mật dữ liệu là một mối quan tâm quan trọng.
Lưu ý: Mặc dù nó có thể có một sự đánh đổi về tiện ích so với các mô hình không riêng tư, nhưng lợi ích chính của nó là cung cấp quyền riêng tư theo thiết kế, biến nó thành một bước tiến quan trọng trong AI bảo mật.
Video & Hội Thảo Web 🎥
- Xây Dựng Cortex Agents Trên Snowflake: Tại Sao Nó Quan Trọng và Các Thực Tiễn Tốt Nhất: Xây Dựng Cortex Agents Trên Snowflake
Cảm Ơn
© 2020-2025 Tim Spann Youtube Channel