Chỉ khoảng 9:45 sáng giờ Thái Bình Dương ngày 28 tháng 2 năm 2017, các trang web như Slack, Business Insider, Quora và các điểm đến nổi tiếng khác đã không thể truy cập được. Đối với hàng triệu người, internet dường như bị hỏng.
Hóa ra Amazon Web Services đã bị ngừng hoạt động lớn liên quan đến việc lưu trữ S3 trong trung tâm dữ liệu Bắc Virginia của mình, một vấn đề tạo ra tác động xếp tầng và lên đến đỉnh điểm trong một lần mất điện kéo dài bốn giờ đau đớn.
Amazon cuối cùng đã tìm ra nó, nhưng bạn chỉ có thể tưởng tượng mức độ căng thẳng của các đội kỹ thuật đã dành hàng giờ để theo dõi nguyên nhân ngừng hoạt động để họ có thể khôi phục dịch vụ. Vài ngày sau, công ty đã đưa ra một khám nghiệm tử thi công khai giải thích những gì đã sai và những bước họ đã thực hiện để đảm bảo rằng vấn đề cụ thể đã xảy ra một lần nữa. Hầu hết các công ty cố gắng lường trước các loại tình huống này và thực hiện các bước để giữ cho chúng không bao giờ xảy ra. Trên thực tế, Netflix đã đưa ra khái niệm về kỹ thuật hỗn loạn, nơi các hệ thống được kiểm tra các điểm yếu trước khi chúng bị ngừng hoạt động.
Thật không may, không có công cụ nào có thể lường trước mọi kết quả.
Nó rất có thể công ty của bạn sẽ gặp phải một vấn đề có tỷ lệ lớn như Amazon mà năm 2017 phải đối mặt. Nó là điều mà mọi nhà sáng lập khởi nghiệp và CEO Fortune 500 lo lắng – hoặc ít nhất là họ nên lo lắng. Điều gì sẽ xác định bạn là một tổ chức và cách khách hàng sẽ cảm nhận bạn tiến về phía trước, sẽ là cách bạn xử lý nó và những gì bạn học được.
Chúng tôi đã nói chuyện với một nhóm các chuyên gia thảm họa được đào tạo chuyên sâu để tìm hiểu thêm về việc ngăn chặn những loại khoảnh khắc này có tác động tiêu cực sâu sắc đến doanh nghiệp của bạn.
Nó luôn luôn nói về khách hàng của bạn
Độ tin cậy và thời gian hoạt động rất cần thiết đối với các doanh nghiệp kỹ thuật số hiện nay, các công ty doanh nghiệp đã phát triển một vai trò mới, Kỹ sư Độ tin cậy Trang web (SRE), để duy trì hoạt động của tài sản CNTT của họ.
Tammy Butow, SRE chính tại Gremlin, một công ty khởi nghiệp sản xuất các công cụ kỹ thuật hỗn loạn, cho biết vai trò chính của SRE là giữ cho khách hàng hài lòng. Nếu trang web đang hoạt động, thì nói chung đó là chìa khóa của hạnh phúc. Nói chung, SRE tập trung nhiều hơn vào tác động của khách hàng, đặc biệt là về tính khả dụng, thời gian hoạt động và mất dữ liệu, cô nói.
Các công ty đo thời gian hoạt động theo cái gọi là Năm năm, có sẵn hoặc 99,999 phần trăm, nhưng kỹ sư phần mềm Nora Jones, người gần đây nhất đã lãnh đạo Chaos Engineering and Human Factors tại Slack, nói rằng thường có quá nhiều sự nhấn mạnh vào con số này. Theo Jones, trọng tâm nên tập trung vào khách hàng và tác động của sự sẵn có đối với nhận thức của họ về bạn với tư cách là một công ty và dòng dưới cùng của doanh nghiệp của bạn.
Ai đó cần bình tĩnh và cứ tiếp tục hỏi đúng câu hỏi.
Đổi nó Tiền vào cuối ngày, nhưng cũng theo thời gian, tâm lý người dùng có thể thay đổi [if your site is having issues]cô nói. Họ nghĩ về bạn như thế nào, cách họ nói về sản phẩm của bạn khi họ nói chuyện với bạn bè, khi họ nói chuyện với các thành viên trong gia đình họ. Các dây leo không phải là bắt giữ bất cứ thứ gì.
Robert Ross, người sáng lập và Giám đốc điều hành tại FireHydrant, một nền tảng dịch vụ của SRE, nói rằng có lẽ đã đến lúc phải suy nghĩ lại về ý tưởng của các dây. Có lẽ chúng ta cần thay đổi thuật ngữ đó. Có lẽ chúng ta có thể phổ biến một cái gì đó như mục tiêu mức độ hạnh phúc, hay thỏa thuận cấp độ hạnh phúc. Bằng cách đó, trọng tâm là các sản phẩm của chúng tôi.
Khi mọi thứ đi sai
Các công ty đã nỗ lực hết sức để ngăn chặn thảm họa để tránh làm khách hàng thất vọng và thường phải đối mặt với các tình huống bất ngờ, nhưng đôi khi, dù họ có kế hoạch tốt đến đâu, các cuộc khủng hoảng có thể vượt khỏi tầm kiểm soát. Khi điều đó xảy ra, các SRE cũng cần phải thực thi, cũng cần lập kế hoạch; biết phải làm gì khi gặp khó khăn.