«Беспрецедентное» событие Google Cloud уничтожает учетную запись клиента и ее резервные копии

«Беспрецедентное» событие Google Cloud уничтожает учетную запись клиента и ее резервные копии


«Беспрецедентное» событие Google Cloud уничтожает учетную запись клиента и ее резервные копии

Как исследователь, имеющий опыт в области облачных вычислений и управления данными, я нахожу инцидент с UniSuper в Google Cloud глубоко тревожным. Случайное удаление такой большой учетной записи клиента, включая все резервные копии, является беспрецедентным событием, которого никогда не должно было произойти.


На мероприятии Google I/O на этой неделе выявилась одна из наиболее значительных ошибок Google Cloud: по ошибке Google непреднамеренно удалил существенную учетную запись клиента у своего конкурента Amazon Web Services, в результате чего UniSuper, австралийский пенсионный фонд, управляющий 135 миллиардами долларов и обслуживающий 647 000 человек. члены, без каких-либо данных. К сожалению, UniSuper сохранил несколько резервных копий у другого поставщика услуг и успешно восстановил их информацию. Однако журнал инцидентов показывает, что услуги были отключены со 2 мая, а полное восстановление было достигнуто только 15 мая.

Веб-сайт UniSuper теперь заполнен важной информацией об административной ошибке, которая привела к серьезным сбоям. Первая новость, опубликованная 8 мая, представляет собой заявление генерального директора UniSuper Питера Чуна и генерального директора Google Cloud Томаса Куриана. В этом заявлении они объясняют, что перерыв был вызван непреднамеренной ошибкой конфигурации во время процесса установки служб частного облака UniSuper в Google Cloud. Этот инцидент описывается как уникальный случай, которого никогда раньше не случалось ни с одним клиентом Google Cloud во всем мире. Участвующие стороны признают, что этого не должно было произойти, и определили первопричину, приняв меры для предотвращения повторения такого события в будущем.

В следующем сегменте, озаглавленном «Почему отключение продолжалось в течение такого длительного периода?», в совместном заявлении объясняется, что UniSuper реплицировала данные в двух разных местах в качестве защиты от сбоев. Однако когда UniSuper случайно удалил свою подписку на Google Cloud, это привело к удалению обоих этих сайтов. Хотя облачные сервисы сохраняют резервные копии на случай чрезвычайных ситуаций, оказывается, что наиболее неблагоприятным сценарием является не взлом или физическое повреждение вашей инфраструктуры, а скорее «закрытие вашей учетной записи Google», подразумевающее, что все данные резервных копий также будут удалены. Ожидалось, что в Google Cloud будут предусмотрены меры, предотвращающие удаление учетной записи; однако эти меры предосторожности оказались неэффективными, и у UniSuper не осталось иного выбора, кроме как восстановиться с другой облачной платформы (спасибо команде UniSuper за выбор многооблачной стратегии).

UniSuper — крупный австралийский пенсионный фонд, аналогичный 401(k) в США. Этот фонд является обязательным для работающих лиц, и работодатели вносят в него часть своей зарплаты. В Австралии этот взнос требуется по закону. UniSuper с активами на общую сумму 135 миллиардов долларов является солидной организацией, что позволяет ей защищать высокопоставленных руководителей, таких как генеральный директор Google Cloud, в случае возникновения проблем, вместо того, чтобы иметь дело с представителями службы поддержки клиентов.

В пресс-объявлении от июня 2023 года UniSuper подчеркнула свой успешный переход на Google Cloud, а Сэм Купер, руководитель отдела архитектуры UniSuper, заявил: «Google Cloud VMware Engine упрощает и ускоряет наш процесс миграции в облако. Это сводится к повышению эффективности, позволяющей нам предоставлять очень конкурентоспособные гонорары для наших участников».

Как аналитик, я бы перефразировал это так: поскольку от сервиса зависит множество сторон, восстановление после сбоя не ограничивается просто восстановлением резервных копий. Вместо этого он включал управление потоком ожидающих запросов и обработку причитающихся платежей в течение двухнедельного периода простоя.

Основные моменты из графика простоев

Как исследователь, изучающий эту ситуацию, я хотел бы подчеркнуть, что ключевым документом в этом повествовании является страница обновлений о сбоях, состоящая из двенадцати заявлений, подробно описывающих реакцию облачной команды на кризис. Первая запись от 2 мая сообщает о первоначальной осведомленности о проблеме в системах UniSuper и подтверждает: «Возможно, вы заметили сбой в работе наших служб». UniSuper быстро определил источник, заявив: «Основная причина была связана с одним из наших внешних поставщиков услуг. Мы тесно сотрудничаем с ними, чтобы исправить эту ситуацию». 3 мая Google Cloud официально присоединилась к диалогу, опубликовав совместное заявление, в котором разъяснилось, что сбой не был вызван кибератакой.

Как исследователь, изучающий события, приведшие к длительному простою 6 мая, я обнаружил некоторые интригующие детали. В первоначальном утреннем заявлении говорилось, что обе команды работали круглосуточно, начиная с предыдущих выходных, над решением проблемы. Однако два последующих обновления на странице отключения были более обширными и подписаны Чуном.

Как пользователь Google Cloud и страстный поклонник обновлений UniSuper, я был рад услышать заявление генерального директора 7 мая. Хотя тщательное расследование для установления точной причины все еще продолжается, Google Cloud заверил нас, что эта проблема уникальна и ранее не встречалась. Они принимают срочные меры для предотвращения подобных случаев в будущем. Кроме того, наличие вторичного облачного провайдера поможет свести к минимуму любую потенциальную потерю данных. 7 мая генеральный директор еще раз подчеркнул, что основная причина кроется в сервисе Google Cloud, и выразил искренние извинения за сбой.

Через семь дней после отключения электроэнергии 2 мая UniSuper начал проявлять признаки восстановления 9 мая. Хотя онлайн-вход в учетные записи работал, балансы счетов отображали неполную информацию из-за необработанных транзакций из-за сбоя. Первоначальный прогноз предполагал откат данных по балансам 29 апреля. В течение последующих семи дней в обновлениях подробно описывалось постепенное восстановление различных функций веб-сайта и приложения. 13 мая мобильное приложение снова заработало, но балансы на счетах по-прежнему не были текущими. В последнем обновлении от 15 мая было объявлено, что все службы обслуживания участников UniSuper были полностью восстановлены, включая пенсионные калькуляторы.

Как страстный пользователь сервисов Google Cloud, я внимательно следил за недавним сбоем и последующим совместным заявлением Google и UniSuper. Однако в заявлении не содержится четкого технического объяснения того, что произошло во время инцидента. В то время как Google PR подтвердил свое участие в подготовке сообщения, разработчик программного обеспечения Дэниел Комптон выражает обоснованную обеспокоенность по поводу использованного неточного языка, который кажется несовместимым с терминологией Google Cloud.

В любом случае, не кладите все яйца в одну корзину.

Смотрите также

2024-05-18 00:26