0
0
Lập trình
Admin Team
Admin Teamtechmely

Phá Vỡ Văn Hóa Anh Hùng: Giải Pháp cho Tăng Trưởng MyCoCo

Đăng vào 6 ngày trước

• 9 phút đọc

Phá Vỡ Văn Hóa Anh Hùng: Giải Pháp cho Tăng Trưởng MyCoCo

Khi kỹ sư tốt nhất của bạn trở thành điểm nghẽn lớn nhất, sự phát triển của công ty sẽ bị đình trệ và kiến thức quan trọng trở nên tập trung một cách nguy hiểm. MyCoCo đã học được bài học này khi "anh hùng DevOps" Sam – người mà một mình duy trì hạ tầng – đã bị kiệt sức trong giai đoạn phát triển quan trọng. Bằng cách phá vỡ văn hóa anh hùng và xây dựng các thực hành bền vững trong đội ngũ, họ đã chuyển mình từ một hoạt động dễ bị tổn thương sang một tổ chức kỹ thuật có khả năng mở rộng thực sự.

Tóm tắt

Vấn đề: Sam, kỹ sư DevOps đầu tiên của MyCoCo, đã trở thành điểm thất bại duy nhất – làm việc 70 giờ mỗi tuần, là người duy nhất nắm giữ kiến thức về hạ tầng, và là người duy nhất có thể sửa chữa các vấn đề sản xuất.

Khủng hoảng: Sự kiệt sức của Sam trong một giai đoạn ra mắt sản phẩm lớn đã khiến MyCoCo không thể triển khai các bản sửa lỗi trong 4 ngày, gần như mất khách hàng doanh nghiệp lớn nhất của họ.

Giải pháp: Phân phối kiến thức có hệ thống thông qua yêu cầu tài liệu, bắt buộc luân phiên trách nhiệm, và thay đổi văn hóa từ việc tôn vinh anh hùng sang xây dựng đội ngũ kiên cường.

Tác động: Thời gian giải quyết sự cố giảm 60%, loại bỏ điểm thất bại duy nhất, và Sam thực sự đã có kỳ nghỉ đầu tiên trong 3 năm.

Tóm lại: Nếu sự vắng mặt của một người có thể làm tê liệt hoạt động của bạn, bạn không đang xây dựng một công ty – bạn đang xây dựng một ngôi nhà thẻ bài.

Thách thức: Vị trí Không Thể Thực Hiện của Sam

Đến cuối năm 2023, Sam đã trở thành siêu anh hùng của MyCoCo. Là nhân viên thứ 3 và là "người DevOps" đầu tiên, anh đã xây dựng mọi phần của hạ tầng từ đầu. Anh biết lý do vì sao một cron job kỳ lạ chạy vào lúc 3:47 AM (để tránh vấn đề giới hạn tốc độ từ năm 2021). Anh hiểu điệu nhảy phức tạp của các microservices mà bằng cách nào đó đã giữ cho MyCoCo Support hoạt động dù quyết định kiến trúc mà mọi người hiện tại đều hối tiếc.

"Sam sẽ biết" trở thành phương châm của công ty. Vấn đề sản xuất bí ẩn? Sam sửa nó. Triển khai thất bại? Sam có giải pháp thay thế. Nhu cầu hạ tầng riêng của khách hàng? Sam sẽ xử lý vào cuối tuần.

Các dấu hiệu cảnh báo rất rõ ràng khi nhìn lại. Trạng thái Slack của Sam luôn hiển thị 🔥. Anh trả lời các câu hỏi về hạ tầng lúc 11 PM trong khi rõ ràng đang xem Netflix. Các "sửa chữa nhanh" của anh đã tích lũy thành một hệ thống phức tạp mà chỉ mình anh hiểu. Ngày nghỉ của anh thì kéo dài qua từng năm, không sử dụng vì "cái gì sẽ xảy ra nếu có điều gì đó hỏng?"

Maya (Kỹ sư An ninh) đã nhận thấy điều này trong khi chuẩn bị cho cuộc kiểm tra an ninh của mình:

"Sam, ai khác biết cách xoay vòng những chứng chỉ này?" cô hỏi. Sự im lặng của anh nói lên tất cả. "Tôi đã có ý định ghi lại điều đó..."

Alex (VP Kỹ thuật) đã thấy điều này trong kế hoạch sprint. Mỗi nhiệm vụ hạ tầng đều mang tên Sam:

"Chúng ta không thể thực hiện song song nếu mọi thứ đều đi qua một người," anh chỉ ra. Phản ứng của Sam: "Nó nhanh hơn nếu tôi tự làm hơn là giải thích toàn bộ lịch sử."

Rồi đến Black Friday 2023. Sự kiện bán hàng lớn nhất của MyCoCo. Sam đã làm việc 16 giờ mỗi ngày để chuẩn bị. Vào tối thứ Năm, kiệt sức và mắc lỗi, anh đã đẩy một thay đổi cấu hình làm hỏng việc triển khai sản xuất. Sau đó, laptop của anh chết. Thiết bị thay thế sẽ không đến được cho đến thứ Hai.

Trong bốn ngày, MyCoCo không thể triển khai các bản sửa lỗi. Các vé của khách hàng chất đống. Khách hàng doanh nghiệp lớn nhất của họ đe dọa sẽ rời đi. Jordan (Kỹ sư Nền tảng) và đội ngũ nền tảng đã cố gắng giúp đỡ nhưng không thể giải mã mạng lưới phức tạp của các bash script, biến môi trường, và các giải pháp "tạm thời" của Sam.

Drew (CTO) cuối cùng đã gọi một cuộc họp khẩn cấp với lãnh đạo:

"Chúng ta đã xây dựng toàn bộ hạ tầng của mình dựa trên trí não của một người. Điều này không bền vững – nó là thiếu trách nhiệm."

Giải pháp: Phá Vỡ Văn Hóa Anh Hùng

Sự chuyển mình bắt đầu với một sự thật khó chịu: MyCoCo đã thưởng cho hành vi sai trái. Họ đã tôn vinh sự anh dũng của Sam trong các cuộc họp toàn công ty. Họ đã ca ngợi công việc cuối tuần của anh. Họ đã vô tình tạo ra một văn hóa mà trong đó việc trở nên không thể thiếu được coi trọng hơn việc xây dựng các hệ thống bền vững.

Giai đoạn 1: Chuyển Giao Kiến Thức Ngay Lập Tức (Tuần 1-2)

Alex đã thiết lập "các buổi theo dõi Sam." Mọi nhiệm vụ mà Sam chạm vào, ai đó đã quan sát và ghi lại. Không phải tài liệu chi tiết – chỉ đủ để ngăn chặn sự bất lực hoàn toàn. Jordan đã hợp tác với Sam trong mọi sửa chữa sản xuất, hỏi "tại sao" ở mỗi bước.

Giai đoạn 2: Phân Phối Bắt Buộc (Tuần 3-8)

Sự thay đổi khó khăn nhất: Sam bị cấm trở thành người phản hồi đầu tiên. Khi các vấn đề sản xuất xảy ra, người khác phải thử trước. Sam có thể tư vấn nhưng không thể chạm vào bàn phím. Tuần đầu tiên rất đau đớn – một sửa chữa nhanh của Sam mất 15 phút trở thành một nỗ lực tập thể kéo dài 2 giờ. Nhưng mỗi sự cố đã xây dựng kiến thức cho đội ngũ.

Họ đã thiết lập "hoạt động dựa trên tài liệu" – nếu nó không được ghi lại, nó không tồn tại. Không còn "Sam biết" hay "hỏi Sam." Mỗi hệ thống cần một runbook mà một kỹ sư mới có thể theo dõi.

Giai đoạn 3: Đặt Lại Văn Hóa (Tuần 9-16)

Drew đã thay đổi cách họ công nhận công việc. Thay vì tôn vinh các anh hùng cuối tuần, họ đã tôn vinh việc chia sẻ kiến thức. Giải thưởng MVP hàng tháng được trao cho ai đã phân phối tốt nhất kiến thức của mình. Các ca trực trở nên bắt buộc – mọi người, bao gồm cả Alex, đều phải tham gia.

Họ đã thực hiện "các ngày hỗn loạn" – những thành viên trong đội ngũ được chọn ngẫu nhiên phải xử lý các nhiệm vụ hạ tầng mà họ chưa từng làm trước đó, chỉ với tài liệu làm hướng dẫn. Các khoảng trống kiến thức trở nên rõ ràng và có thể khắc phục trước khi trở thành khủng hoảng.

Điều quan trọng nhất, họ đã bình thường hóa các ranh giới. Sam được yêu cầu nghỉ phép – một kỳ nghỉ thực sự, không mang theo laptop về nhà. Lần đầu tiên, anh đã kiểm tra Slack mỗi giờ. Đến kỳ nghỉ thứ ba, anh thực sự đã thư giãn.

Kết quả: Từ Dễ Bị Tổn Thương đến Kiên Cường

Sau sáu tháng, văn hóa hạ tầng của MyCoCo đã chuyển mình:

Phản hồi Sự cố: Thời gian trung bình để giải quyết giảm từ 2 giờ xuống 45 phút – vì năm người có thể điều tra song song thay vì chờ đợi Sam.

Tốc độ Triển khai: Tốc độ giao hàng tăng 40% khi công việc hạ tầng không còn bị chặn bởi một người.

Tăng trưởng Đội ngũ: Họ đã thành công trong việc onboard ba kỹ sư nền tảng mới và họ đã trở nên hiệu quả trong vòng vài tuần, không phải vài tháng.

Yếu tố Sam: Sam đã phát hiện lại lý do tại sao anh yêu công nghệ. Thay vì phải chiến đấu với các sự cố, anh đã dẫn dắt các cải tiến kiến trúc. Mức độ căng thẳng của anh giảm xuống. Anh đã có một kỳ nghỉ hai tuần để thăm gia đình ở Đức – và sản xuất thậm chí không bị gián đoạn.

Bài kiểm tra thực sự đến trong quá trình thẩm định Series B của họ. Khi các nhà đầu tư hỏi về yếu tố bus hạ tầng, Drew có thể tự tin nói:

"Bất kỳ ba trong số tám kỹ sư nền tảng của chúng tôi đều có thể xây dựng lại toàn bộ hệ thống của chúng tôi từ tài liệu."

Những Bài Học Quan Trọng

  1. Văn Hóa Anh Hùng là Nợ Tổ Chức: Mỗi lần bạn tôn vinh ai đó làm việc cuối tuần để cứu ngày, bạn đang vay mượn vào sự kiên cường trong tương lai của mình.

  2. Giữ Kiến Thức Không Phải Là An Ninh Công Việc: Sam nghĩ rằng việc trở nên không thể thiếu khiến anh có giá trị. Thực tế, nó đã giam giữ anh trong công việc vận hành thay vì phát triển chiến lược.

  3. Tốc độ Bền Vững Tốt Hơn Những Lần Tăng Tốc Anh Hùng: MyCoCo giờ đây giao hàng nhiều hơn mà không ai phải làm việc vào cuối tuần so với khi Sam làm việc 70 giờ mỗi tuần.

  4. Tài Liệu Rẻ Hơn So Với Kiệt Sức: Thời gian đầu tư vào runbooks và chia sẻ kiến thức đã được đền đáp ngay lần đầu tiên ai đó ngoài Sam giải quyết một vấn đề sản xuất.

  5. Sự Kiên Cường Cần Có Sự Dư Thừa: Nếu tổ chức của bạn không thể sống sót qua kỳ nghỉ hai tuần của một người nào đó, bạn không đang xây dựng một công ty – bạn đang quản lý một cuộc khủng hoảng đang chờ xảy ra.

Kết Luận

Phá vỡ văn hóa anh hùng không phải là giảm giá trị đóng góp cá nhân – mà là xây dựng các hệ thống làm tăng cường tác động của mọi người. Sam không trở nên kém giá trị khi kiến thức được phân phối; anh đã được tự do làm việc vào những vấn đề thực sự cần đến chuyên môn của mình.

Sẵn sàng để phá vỡ văn hóa anh hùng của riêng bạn? Bắt đầu bằng cách xác định các silo kiến thức quan trọng của bạn và thực hiện yêu cầu tài liệu cho mọi nhiệm vụ vận hành. Các "anh hùng" của bạn sẽ cảm ơn bạn, và doanh nghiệp của bạn sẽ trở nên thực sự kiên cường.


Bạn đã có kinh nghiệm gì với văn hóa anh hùng tại công ty bạn? Bạn đã giải quyết các silo kiến thức như thế nào? Chia sẻ suy nghĩ của bạn trong phần bình luận bên dưới!

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào