Giới Thiệu

Trong khóa học OSD600, tôi đã được giao nhiệm vụ xây dựng một công cụ dòng lệnh (CLI). Nhiệm vụ này đã giúp tôi giải quyết một vấn đề mà tôi - và có lẽ nhiều lập trình viên khác - thường gặp phải. Bạn có biết cảm giác khi cần trợ giúp từ một LLM như ChatGPT nhưng phải sao chép hàng tá tệp khác nhau? Điều đó thật rắc rối. Bạn sẽ mất cấu trúc dự án, và AI không thể hiểu được cách mà main.js liên quan đến utils/helper.js. Công cụ của tôi giải quyết vấn đề này bằng cách đóng gói toàn bộ ngữ cảnh của một kho lưu trữ vào một tệp văn bản sạch sẽ.

Tôi quyết định xây dựng công cụ này bằng Python. Là một sinh viên chuyên ngành Lập trình và Phân tích, Python cảm thấy là công cụ phù hợp nhất cho nhiệm vụ này. Thêm vào đó, tôi đang học Machine Learning với Python nên tôi cảm thấy thoải mái hơn khi làm việc với nó. Python có những thư viện tuyệt vời cho các thao tác với hệ thống tệp (os) và phân tích các đối số dòng lệnh (argparse), cho phép tôi bắt đầu nhanh chóng mà không phải vật lộn với nhiều phụ thuộc.

Các Tính Năng Chính

Các tính năng cốt lõi được hình thành từng bước một:

Đối Số CLI

Thư viện argparse thực sự là một cứu tinh. Việc thiết lập các cờ --version và --help, cũng như việc chấp nhận các đường dẫn tệp, rất đơn giản. Nó xử lý tất cả việc xác thực đầu vào của người dùng, điều này thật tuyệt vời.

Khám Phá Tệp

Logic chính xoay quanh os.walk(). Tôi đã lập trình nó để đệ quy qua các thư mục, lấy tất cả các tệp. Tôi đã thêm một quy tắc đơn giản để bỏ qua các tệp ẩn và các thư mục phát triển phổ biến như venv để giữ cho đầu ra tập trung và sạch sẽ.

Tích Hợp Git

Đây là phần thú vị. Tôi đã sử dụng mô-đun subprocess của Python để chạy các lệnh git thực tế như git rev-parse HEAD. Bằng cách này, công cụ có thể lấy mã hash commit mới nhất, tên nhánh, tác giả và ngày. Tôi cũng đã bao bọc nó trong một khối try...except để nó không bị lỗi nếu bạn chạy nó trên một thư mục không phải là kho git. Nó chỉ đơn giản thông báo "Không phải là kho git."

Định Dạng Đầu Ra

Tôi muốn đầu ra dễ đọc nhất có thể cho cả con người và AI. Tôi đã dành nhiều thời gian để tạo ra một cấu trúc cây đẹp để hình dung bố cục thư mục. Đây là một chi tiết nhỏ, nhưng việc thấy rằng ├── và └── tạo ra sự khác biệt lớn. Đối với mã nguồn, tôi đã sử dụng thư viện pygments để đoán ngôn ngữ của từng tệp, cho phép tôi thêm các gợi ý tô sáng cú pháp vào các khối mã markdown.

Các Tính Năng Tùy Chọn

Tôi đã chọn hai tính năng mà tôi biết tôi sẽ thường xuyên sử dụng:

Xuất Ra Tệp (-o hoặc --output)

Mặc dù việc in ra console là mặc định, đôi khi bạn chỉ muốn lưu lại ngữ cảnh đó vào một tệp để sử dụng sau. Tính năng này làm cho công cụ trở nên linh hoạt hơn nhiều.

Đếm Token (--tokens)

Là một người quan tâm đến Machine Learning, tôi luôn chú ý đến giới hạn cửa sổ ngữ cảnh của các LLM. Cờ này cung cấp một ước tính sơ bộ về số lượng token. Thật tiện lợi khi biết ngữ cảnh của bạn có vừa vặn trước khi thử dán nó vào.

Thực Hành Tốt Nhất

Tối ưu hóa hiệu suất: Hãy chắc chắn rằng bạn kiểm tra hiệu suất của công cụ trong các tình huống thực tế để đảm bảo không gặp phải các vấn đề về tốc độ.
Thêm tài liệu: Cung cấp tài liệu đầy đủ cho người dùng giúp họ dễ dàng sử dụng công cụ hơn.
Cập nhật thường xuyên: Đảm bảo rằng công cụ của bạn luôn được cập nhật với các tính năng và sửa lỗi mới nhất.

Những Cái Bẫy Thường Gặp

Khó khăn trong việc phân tích lỗi: Đảm bảo rằng bạn có đủ thông tin để người dùng có thể phát hiện lỗi khi sử dụng công cụ.
Thiếu tính năng: Luôn lắng nghe phản hồi từ người dùng để cải thiện công cụ của bạn.

Mẹo Tăng Hiệu Suất

Sử dụng bộ nhớ cache: Nếu công cụ của bạn thực hiện nhiều thao tác lặp lại, hãy cân nhắc sử dụng bộ nhớ cache để tăng tốc độ xử lý.
Tối ưu hóa mã: Đảm bảo mã của bạn được tối ưu hóa, tránh các phép toán không cần thiết.

Giải Quyết Vấn Đề

Nếu bạn gặp phải lỗi khi chạy công cụ, hãy làm theo các bước sau:

Kiểm tra đường dẫn tệp có chính xác hay không.
Đảm bảo rằng thư mục bạn đang làm việc là một kho git nếu bạn đang sử dụng tính năng tích hợp git.
Xem lại mã nguồn để tìm lỗi cú pháp.

Kết Luận

Dự án này là một trải nghiệm tuyệt vời. Nó thực sự nhấn mạnh tầm quan trọng của những chi tiết nhỏ. Không chỉ là làm cho mã hoạt động, mà còn là làm cho nó hoạt động theo cách mà người dùng có thể dự đoán và hữu ích. Tôi thực sự tự hào về những gì tôi đã xây dựng. Đó là một công cụ đơn giản, nhưng nó giải quyết một vấn đề thực sự phiền toái mà tôi phải đối mặt hàng ngày.

Câu Hỏi Thường Gặp

1. Công cụ này có dễ sử dụng không?
Có, công cụ được thiết kế để dễ dàng sử dụng với các hướng dẫn rõ ràng.

2. Tôi có thể sử dụng công cụ này cho các dự án lớn không?
Có, công cụ có thể xử lý các kho lưu trữ lớn mà không gặp vấn đề gì.

3. Công cụ có hỗ trợ nhiều ngôn ngữ lập trình không?
Có, công cụ có thể nhận diện nhiều ngôn ngữ khác nhau thông qua thư viện pygments.

Repo: Code-Packager

Xây Dựng Công Cụ CLI Riêng: Chia Sẻ Mã Hiệu Quả Hơn với LLM