0
0
Lập trình
Thaycacac
Thaycacac thaycacac

Chi phí ẩn của dữ liệu kém: Tại sao dữ liệu sạch quý giá hơn vàng

Đăng vào 1 tháng trước

• 12 phút đọc

Khi số liệu sai, doanh nghiệp gặp nguy hiểm

Unity Technologies đã mất 110 triệu đô la trong vòng ba tháng. Nguyên nhân không phải do tấn công mạng hay ra mắt sản phẩm thất bại, mà là do dữ liệu đào tạo bị hỏng đã làm hỏng các thuật toán nhắm mục tiêu quảng cáo của họ. Các mô hình học máy của họ đã đưa ra quyết định dựa trên thông tin không chính xác, và không ai nhận ra điều này cho đến khi lợi nhuận hàng quý của họ giảm đáng kể.

Dữ liệu sạch không chỉ là một từ khoá công nghệ khác. Nó là sự khác biệt giữa việc tạo ra sản phẩm thành công và mất khách hàng vào tay đối thủ trong khi bạn phải xử lý các thảm họa sản xuất.

Vấn đề thực sự mà không ai nói đến

Dự đoán cho năm 2025: các tổ chức sẽ chìm trong nợ nần chất lượng dữ liệu, và hầu hết sẽ không nhận ra điều đó. Trong khi mọi người đều say mê với AI và học máy, họ đang cung cấp cho các hệ thống này thông tin độc hại, làm trầm trọng thêm vấn đề.

Vấn đề này rất phổ biến. Các nhà phát triển thừa hưởng các API hỏng. Các nhà khoa học dữ liệu dành 60% thời gian để làm sạch các tập dữ liệu thay vì xây dựng mô hình. Đội ngũ hỗ trợ khách hàng xử lý các khiếu nại phát sinh từ lỗi thuật toán. Các nhà điều hành đưa ra quyết định chiến lược dựa trên các bảng điều khiển hiển thị các con số không chính xác.

Hầu hết các công ty nghĩ rằng chỉ cần đổ thêm AI vào vấn đề sẽ giải quyết được nó. Sai lầm. AI khuếch đại dữ liệu rác một cách đáng kể. Một ví dụ đào tạo sai có thể làm hỏng toàn bộ mô hình, ảnh hưởng đến hàng triệu người dùng. Nó giống như việc cung cấp cho một tay đua xe những công cụ sai lệch và tự hỏi tại sao họ liên tục gặp tai nạn.

Phần tồi tệ nhất? Những thất bại này xảy ra từ từ. Sự hài lòng của khách hàng giảm dần. Các chiến dịch tiếp thị trở nên kém hiệu quả theo thời gian. Dự báo doanh thu không đạt chỉ tiêu ngày càng lớn hơn mỗi quý. Đến khi ai đó nhận ra điều gì đang xảy ra, hàng triệu đô la đã bị mất.

Giá của việc phớt lờ thực tế

Tiền đổ xuống cống

Trung bình, các tổ chức mất 12,9 triệu đô la hàng năm do các vấn đề về chất lượng dữ liệu. Đây không chỉ là một sự lãng phí ngân sách kế toán hoặc tiếp thị. Đó là tiền thật đang biến mất vì các hệ thống đưa ra quyết định sai lầm dựa trên thông tin không chính xác.

Quy tắc 1x10x100 minh họa cách mà điều này có thể trở nên tốn kém nhanh chóng. Sửa một lỗi dữ liệu ngay khi nhập vào và nó tốn 1 đô la; sửa sau khi nó đã vào hệ thống của bạn tốn 10 đô la. Sửa sau khi khách hàng nhìn thấy: 100 đô la. Unity đã học điều này theo cách khó khăn khi dữ liệu đào tạo bị hỏng của họ đã ảnh hưởng đến hàng triệu quảng cáo.

Ngành dịch vụ tài chính bị ảnh hưởng nặng nề nhất. Các ngân hàng báo cáo mức thiệt hại trung bình hàng năm là 15 triệu đô la chỉ từ các vấn đề về chất lượng dữ liệu, chưa kể đến các khoản phạt quy định khi hệ thống tuân thủ đưa ra quyết định dựa trên thông tin không chính xác. Khi Equifax gửi các điểm tín dụng sai cho các bên cho vay trong ba tuần, Cơ quan Bảo vệ Tài chính Người tiêu dùng đã phạt họ 15 triệu đô la. Chi phí ẩn? Hàng nghìn người tiêu dùng đã được đề nghị các điều khoản vay tồi tệ hơn vì các thuật toán đã đưa ra quyết định dựa trên dữ liệu bị hỏng.

Quyết định trong bóng tối

Thông tin sai không chỉ tốn kém. Nó làm suy yếu chính nền tảng mà các doanh nghiệp hiện đại hoạt động. Chưa đến 0,5% dữ liệu được thu thập được phân tích, nhưng khi ngay cả một phần nhỏ trong số đó không chính xác, toàn bộ tổ chức đưa ra những quyết định tồi tệ.

Xem xét sự cố của Amazon vào năm 2017. Một lỗi chính tả trong một lệnh bảo trì đã khiến các dịch vụ web lớn gặp sự cố trong bốn giờ, làm mất 150 triệu đô la doanh thu. Một ký tự. Bốn giờ. 150 triệu đô la biến mất.

Học máy khiến điều này trở nên tồi tệ hơn một cách đáng kể. Các lỗi phần mềm truyền thống ảnh hưởng đến các tính năng cụ thể. Tuy nhiên, các mô hình học máy được đào tạo trên dữ liệu bị hỏng sẽ tạo ra lỗi hệ thống trên quy mô lớn. Ngành công nghiệp xe tự hành đã học điều này theo cách khó khăn khi các tập dữ liệu đào tạo thiên lệch dẫn đến hiệu suất kém trong mưa và tuyết.

Cơn ác mộng trải nghiệm khách hàng

Với 71% dữ liệu của người tiêu dùng chứa lỗi, mỗi tương tác của khách hàng trở thành một thảm họa tiềm ẩn. Tên sai trong email. Khuyến nghị sản phẩm không liên quan. Giá cả không nhất quán trên các kênh khác nhau. Khách hàng không đổ lỗi cho dữ liệu, nhưng họ đổ lỗi cho thương hiệu của bạn.

Các lỗi lập trình của Equifax đã ảnh hưởng đến những người thực, chẳng hạn như Nydia Jenkins, một cư dân Florida. Do những sai sót trong thuật toán, khoản thanh toán vay xe của cô đã tăng từ 350 đô la mỗi tháng lên 272 đô la hai tuần một lần, khiến cô phải trả thêm 2.352 đô la mỗi năm. Cô không quan tâm đến các khuôn khổ chất lượng dữ liệu hay quy tắc xác thực. Cô chỉ biết rằng ngân hàng của mình đã mắc sai lầm.

Những trải nghiệm đa kênh chịu ảnh hưởng nhiều nhất. Khách hàng mong đợi những tương tác liền mạch trên tất cả các điểm tiếp xúc. Khi các ứng dụng di động hiển thị một giá, trang web hiển thị một giá khác và dịch vụ khách hàng báo giá một giá thứ ba, lòng tin lập tức biến mất.

Lạc hậu so với đối thủ

Các công ty có dữ liệu sạch trải qua tăng trưởng doanh thu cao hơn 62% so với những công ty đang phải vật lộn với các vấn đề chất lượng. Đây không chỉ là một mối tương quan. Dữ liệu tốt cho phép ra quyết định tốt hơn, từ đó tạo ra nhiều dữ liệu tốt hơn, tạo thành một chu kỳ tích cực mà đối thủ không thể tiếp cận.

Hoạt động kinh doanh theo thời gian thực biến điều này thành một vũ khí cạnh tranh. Trong khi thuật toán định giá của bạn mất hàng giờ để phản ứng với biến động thị trường do các vấn đề về dữ liệu, những đối thủ có đường ống sạch có thể phản ứng trong mili giây và chiếm lĩnh một phần lớn thị trường.

Sự đổi mới chịu ảnh hưởng khi các đội kỹ thuật dành 27% thời gian để sửa chữa các vấn đề về dữ liệu thay vì phát triển các tính năng mới. Những giờ này tích lũy lại. Trong khi các nhà phát triển của bạn đang sửa lỗi trong các đường ống dữ liệu, các đối thủ đang ra mắt sản phẩm làm hài lòng khách hàng và tạo ra các nguồn doanh thu mới.

Cách khắc phục trước khi nó giết chết bạn

Ngăn chặn rác từ nguồn

Thực hiện các quy tắc xác thực để kiểm tra dữ liệu trước khi nó vào hệ thống của bạn. Các công cụ như Great Expectations và Soda Core cung cấp các khuôn khổ để định nghĩa các quy tắc kinh doanh và yêu cầu định dạng.

Tập trung vào các trường trực tiếp ảnh hưởng đến doanh thu hoặc trải nghiệm khách hàng. Xác thực định dạng email trong thời gian thực. Kiểm tra mẫu số điện thoại. Thực hiện kiểm tra phạm vi cho các giao dịch tài chính. Làm cho việc xác thực trở nên vô hình với người dùng trong khi ngăn chặn sự hỏng hóc ngay từ đầu.

Đi xa hơn những kiểm tra định dạng đơn giản. Thực hiện xác thực ngữ nghĩa mà hiểu bối cảnh kinh doanh. Ví dụ, một ngày sinh trong tương lai về mặt kỹ thuật là hợp lệ, nhưng về mặt logic thì không thể. Kiểm tra chéo giữa các trường đảm bảo tính nhất quán giữa các điểm dữ liệu liên quan.

Theo dõi mọi thứ trong thời gian thực

Duy trì chất lượng dữ liệu yêu cầu giám sát liên tục. Thiết lập các hệ thống giám sát liên tục theo dõi các chỉ số chất lượng và cảnh báo đội ngũ khi có vấn đề phát sinh. Các công cụ như Monte Carlo và Bigeye cung cấp các nền tảng quan sát có thể tự động phát hiện bất thường.

Thiết lập cảnh báo phân cấp dựa trên tác động kinh doanh. Các vấn đề nghiêm trọng ảnh hưởng đến hệ thống khách hàng nên báo động cho kỹ sư ngay lập tức. Các vấn đề ít nghiêm trọng hơn có thể tạo ra vé cho ngày làm việc tiếp theo. Mục tiêu là phát hiện các vấn đề trước khi chúng đến tay khách hàng.

Thiết lập các chỉ số chất lượng cơ bản cho mỗi tập dữ liệu và theo dõi xu hướng theo thời gian. Sự giảm sút đột ngột trong đầy đủ hoặc sự gia tăng đột biến trong các giá trị null thường chỉ ra vấn đề xa hơn trong chuỗi. Xu hướng lịch sử giúp phân biệt sự biến động bình thường với các vấn đề thực sự.

Xây dựng chất lượng vào phát triển

Cũng như bạn sẽ tích hợp kiểm tra mã vào quy trình CI/CD của mình, bạn cũng nên tích hợp kiểm tra chất lượng dữ liệu. Mỗi lần triển khai nên bao gồm các kiểm tra tự động để xác minh các sơ đồ, xác thực các quy tắc kinh doanh và kiểm tra các điểm tích hợp.

Định nghĩa các yêu cầu chất lượng như một phần của "định nghĩa hoàn thành". Mỗi trường dữ liệu mới yêu cầu các quy tắc xác thực, cảnh báo theo dõi và tài liệu chi tiết định dạng mong đợi. Điều này sẽ ngăn chặn việc tích lũy nợ kỹ thuật.

Thiết lập hợp đồng giữa các đội để xác định các mong đợi về chất lượng, tần suất cập nhật và quy trình thang máy. Khi bộ phận tiếp thị sử dụng dữ liệu sản phẩm, cả hai bên nên đồng ý về định dạng, yêu cầu đầy đủ và độ trễ chấp nhận.

Tự động hóa những việc nhàm chán

Sử dụng các công cụ liên tục phân tích dữ liệu để hiểu các đặc điểm của nó và xác định các vấn đề chất lượng. Tự động hóa các chuyển đổi khối lượng lớn, rủi ro thấp như chuẩn hóa địa chỉ và định dạng số điện thoại.

Đối với các quy tắc kinh doanh phức tạp, triển khai phát hiện tự động bên cạnh quy trình phê duyệt của con người. Cách tiếp cận này tạo ra sự cân bằng giữa hiệu quả và độ chính xác, thúc đẩy sự tự tin trong các hệ thống tự động.

Tạo các vòng phản hồi để cải thiện quy trình tự động theo thời gian. Khi con người chỉnh sửa các gợi ý tự động, hãy ghi lại phản hồi đó để cải thiện các gợi ý trong tương lai.

Làm cho mọi người quan tâm

Chất lượng dữ liệu không chỉ là một vấn đề kỹ thuật. Rõ ràng xác định quyền sở hữu giữa các đội, chỉ định các cá nhân cụ thể để theo dõi và duy trì các tiêu chuẩn. Tạo ra các động lực thưởng cho sự cải thiện chất lượng.

Cung cấp đào tạo để giúp tất cả các thành viên trong đội hiểu tác động của công việc của họ đến chất lượng dữ liệu. Các nhà phát triển nên làm quen với các thực hành xác thực tốt nhất. Các nhà quản lý sản phẩm nên xem xét các yêu cầu chất lượng khi thiết kế các tính năng.

Đo lường và truyền đạt các chỉ số chất lượng ở cấp độ tổ chức. Bao gồm các KPI về chất lượng dữ liệu trong bảng điều khiển điều hành và đánh giá hiệu suất đội ngũ. Khi chất lượng trở thành một chỉ số kinh doanh rõ ràng, các đội sẽ tự nhiên ưu tiên nó.

Những gì sẽ đến tiếp theo

Các hệ thống làm sạch dữ liệu dựa trên AI đang phát triển vượt ra ngoài xác thực dựa trên quy tắc đơn giản để hiểu ngữ cảnh ngữ nghĩa và logic kinh doanh. Dự đoán rằng, đến năm 2026, 70% ứng dụng mới sẽ tích hợp khả năng chất lượng dữ liệu thông minh.

Điện toán biên đang định hình lại các yêu cầu chất lượng khi xử lý chuyển gần hơn đến nguồn dữ liệu. Khi 75% dữ liệu doanh nghiệp dự kiến sẽ được xử lý bên ngoài các trung tâm dữ liệu truyền thống vào năm 2025, các tổ chức sẽ cần khả năng chất lượng phân tán.

Sự tiến hóa của các quy định về chất lượng dữ liệu đang tăng tốc. Đạo luật Dữ liệu của Vương quốc Anh năm 2025, ví dụ, giới thiệu các yêu cầu mới cho các hệ thống ra quyết định tự động. Các tổ chức đang phải đối mặt với trách nhiệm pháp lý ngày càng tăng đối với các quyết định được đưa ra dựa trên dữ liệu không chính xác, có nghĩa là chất lượng đã trở thành một yêu cầu tuân thủ.

Sự xuất hiện của các hợp đồng dữ liệu đánh dấu một sự chuyển mình trong việc coi chất lượng như một đặc điểm sản phẩm vốn có chứ không phải là một suy nghĩ sau khi kỹ thuật. Các tổ chức đang triển khai các SLA chất lượng giữa các đội, thiết lập các cam kết có thể đo lường về độ chính xác, tính đầy đủ và tính kịp thời.

Đến lượt bạn

Mặc dù các vấn đề về chất lượng dữ liệu là phổ quát, nhưng các giải pháp không phải vậy. Mỗi hệ thống có các mẫu lỗi và hồ sơ rủi ro riêng. Chìa khóa là bắt đầu từ đâu đó thay vì chờ đợi giải pháp hoàn hảo.

Sẵn sàng đi sâu vào độ tin cậy của dữ liệu? Kết nối với tôi trên LinkedIn hoặc qua hezronokwach@gmail.com. Các công ty nắm bắt được chất lượng dữ liệu vào năm 2025 sẽ chiếm ưu thế trên thị trường vào năm 2030.

Gợi ý câu hỏi phỏng vấn
Không có dữ liệu

Không có dữ liệu

Bài viết được đề xuất
Bài viết cùng tác giả

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào