0
0
Lập trình
Admin Team
Admin Teamtechmely

Tin Tức Tuần Về Dữ Liệu và AI #207: 15 Tháng 9 2025

Đăng vào 1 tháng trước

• 6 phút đọc

Tin Tức Tuần Về Dữ Liệu và AI

#207: 15 Tháng 9 2025

Đường dẫn đến trang cá nhân

NiFi + AI + AI Data Cloud + Iceberg.

Reddit - Dữ liệu Kỹ thuật cho AI

Sự kiện hàng tháng tại NYC và Youtube

Thông tin về sự kiện

Các Dự Án Mã và Mở Nguồn

AWS New York Summit
GitHub - AWS New York Summit

Hex + Snowflake Hackathon
GitHub - Hex + Snowflake Hackathon

Apache NiFi + AI Agents + Cortex AI + Snowflake AISQL

GitHub - Traffic AI Agents

GitHub - Transit Ridership

GitHub - Conferences

GitHub - Hackathons

Lời Chào

Phiên bản này là một phiên bản đặc biệt, vì chúng tôi sẽ làm nổi bật sự kiện Community Over Code 2025, nơi tôi có cơ hội trình bày ba bài nói chuyện. Đây là một cơ hội tuyệt vời để kết nối với cộng đồng mã nguồn mở và chia sẻ những hiểu biết về nhiều chủ đề, từ Apache NiFi đến tối ưu hóa dữ liệu thời gian thực.

Dưới đây, bạn sẽ tìm thấy một bản tóm tắt về các bài nói chuyện, cùng với các cập nhật quan trọng khác từ thế giới kỹ thuật dữ liệu và AI.

Khám Phá Sâu Về Community Over Code 2025

Tôi rất vui mừng khi trình bày ba bài nói chuyện tại COC25. Đối với những ai đã bỏ lỡ hoặc muốn xem lại tài liệu, bạn có thể tìm thấy các slide và tài nguyên liên quan dưới đây:

  • NiFi Man: Chúng Tôi Đã Đến, Nhưng Có Nên Đến Không? Bài nói chuyện này khám phá các cân nhắc thực tiễn và các tác động thực tế của việc triển khai Apache NiFi. Chúng tôi không chỉ nói về "cách làm" mà còn đi sâu vào "tại sao" và "khi nào" sử dụng công cụ dòng dữ liệu mạnh mẽ này.
  • Sử Dụng Dữ Liệu Giao Thông Thời Gian Thực Để Tối Ưu Hóa Du Lịch Bài nói chuyện này trình bày cách tận dụng các luồng dữ liệu giao thông thời gian thực để xây dựng các giải pháp tối ưu hóa du lịch thông minh. Chúng tôi đã thảo luận về kiến trúc, xử lý dữ liệu và lợi ích của một hệ thống như vậy.
  • Cải Thiện Apache NiFi 2.x Với Các Bộ Xử Lý Python Đối với khán giả kỹ thuật hơn, bài nói chuyện này trình bày cách mở rộng chức năng của Apache NiFi bằng cách sử dụng các bộ xử lý Python tùy chỉnh. Đây là một cách tuyệt vời để tích hợp logic và thư viện chuyên biệt trực tiếp vào các dòng dữ liệu của bạn.

Tất cả mã và tài liệu cho các bài trình bày này có thể được tìm thấy trong kho GitHub công cộng của tôi cho hội nghị:

Cập Nhật Ngành Và Đối Tác Khác

Dưới đây là cái nhìn nhanh về các phát triển và phát hành đáng chú ý khác trong tuần qua:

  • Apache Iceberg: Một bài viết mới từ The New Stack nhằm mục đích xua tan những hiểu lầm phổ biến về độ phức tạp của các framework mã nguồn mở như Apache Iceberg. Ngoài ra, blog Kỹ thuật Snowflake đã phát hành một bài viết chi tiết về các tính năng và sửa lỗi mới trong Apache Iceberg 1.1.0.
  • Snowflake: Snowflake đã công bố khả năng sử dụng chung của Workspaces, một tính năng được thiết kế để nâng cao sự hợp tác và tổ chức. Chúng tôi cũng đã thấy một số bài viết tuyệt vời về việc sử dụng Snowflake Cortex Agents thông qua REST API và nâng cấp máy chủ MCP mã nguồn mở cho Snowflake.

Cập Nhật Tuần Về Đại Lý

Điểm Nhấn: CA Open Data AI Agent

Liên kết Dự án: CA Open Data AI Agent

Tóm tắt: Trong tuần này, chúng tôi sẽ xem xét California Open Data AI Agent. Được xây dựng chỉ trong 60 phút bằng Snowflake, đại lý này chứng minh cách tạo ra một quy trình làm việc RAG (Retrieval-Augmented Generation) thời gian thực trên dữ liệu chính phủ trực tiếp mà không cần thiết lập máy chủ mới. Nó thể hiện sức mạnh của AI agent trong việc tổng hợp câu trả lời từ hàng ngàn bộ dữ liệu với trích dẫn rõ ràng.

Điểm Chính: Dự án này làm nổi bật tính thực tiễn và tốc độ triển khai các giải pháp đại lý không máy chủ sẵn sàng cho sản xuất để giải quyết các thách thức về dữ liệu thực tế.

Framework & Công Cụ Của Tuần: Agentscope

Liên kết GitHub: Agentscope

Tóm tắt: Agentscope là một thư viện lập trình định hướng đại lý giúp dễ dàng xây dựng các ứng dụng LLM. Nó được thiết kế để "hướng tới nhà phát triển" với các tính năng như thực thi bất đồng bộ, gọi công cụ song song và điều khiển thời gian thực. Nó cung cấp một cách tiếp cận minh bạch nơi việc thiết kế prompt và gọi API hoàn toàn có thể nhìn thấy và kiểm soát.

Tại sao nó quan trọng: Agentscope, cùng với các thư viện liên quan như agentscope-runtime và agentscope-studio, cung cấp một bộ công cụ toàn diện không chỉ cho việc phát triển mà còn cho việc triển khai và trực quan hóa các ứng dụng dựa trên đại lý.

Phân Tích Kỹ Thuật Sâu: Snowflake Cortex Agents API

Liên kết bài viết: Snowflake Cortex Agents: A REST API Guide

Tóm tắt: Snowflake Cortex Agent là một trợ lý AI dữ liệu mạnh mẽ tự động hóa các quy trình dữ liệu phức tạp. Hướng dẫn này giải thích cách sử dụng REST API của nó để xây dựng các ứng dụng có thể điều phối giữa cả dữ liệu có cấu trúc (sử dụng Cortex Analyst) và dữ liệu không có cấu trúc (sử dụng Cortex Search). Nó được thiết kế để an toàn, với các biện pháp an ninh hiện có của Snowflake áp dụng tự động.

Khái Niệm Chính:

  • Lập Kế Hoạch: Đại lý phân tích yêu cầu và tạo ra một kế hoạch toàn diện.
  • Sử Dụng Công Cụ: Nó chọn các công cụ phù hợp (Cortex Analyst cho SQL, Cortex Search cho văn bản).
  • Phản Chiếu: Nó đánh giá kết quả và tinh chỉnh cách tiếp cận của mình.

Theo Dõi Mô Hình: Google VaultGemma-1B

Liên kết Hugging Face: VaultGemma-1B

Tóm tắt: VaultGemma là một biến thể của gia đình mô hình mở Gemma từ Google, nhưng với một điểm khác biệt chính: nó được huấn luyện từ đầu bằng cách sử dụng Bảo Mật Phân Biệt (DP). Điều này cung cấp các đảm bảo bảo mật mạnh mẽ và có cơ sở toán học cho dữ liệu huấn luyện của nó, làm cho nó trở thành một sự lựa chọn tuyệt vời cho các ứng dụng mà bảo mật dữ liệu là một mối quan tâm quan trọng.

Lưu ý: Mặc dù nó có thể có một sự đánh đổi về tiện ích so với các mô hình không riêng tư, nhưng lợi ích chính của nó là cung cấp quyền riêng tư theo thiết kế, biến nó thành một bước tiến quan trọng trong AI bảo mật.

Video & Hội Thảo Web 🎥

Cảm Ơn

Sessionize

GitHub

© 2020-2025 Tim Spann Youtube Channel

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào