22.08 2011

Выявлены причины сбоя в системе Яндекса

Автор: Просцевичене Елена | Категории: Поисковые системы

Выявлены причины сбоя в системе ЯндексаК вечеру 19 августа наконец были выявлены причины сбоя в сети Яндекса, о чем в своем блоге сообщил Владимир Иванов, заместитель руководителя департамента эксплуатации компании. В момент публикации поста проблема уже была решена, но и представители поисковика, и пользователи беспокоились о возможной утрате части пользовательских данных, как это имело место после ряда сбоев, имевших место в последнее время на различных ресурсах.

В связи с этим Владимир Иванов разъяснил, что причина сбоя носила чисто внутренний характер, она не была связана ни с хакерскими атаками, ни с нарушениями работы дата-центров, ни с другими внешними факторами. Поэтому пользовательские данные не могли быть потеряны или оказаться доступными для злоумышленников.

По словам Иванова, произошло следующее. В новом дата-центре компании, расположенном в Амстердаме, произошла ошибка программного обеспечения на маршрутизаторе. Из-за ошибки данные, касающиеся внешней маршрутизации, попали в протоколы внутренней маршрутизации — а это втрое больше информации, чем обычно. В результате у них просто кончилась память, маршрутизаторы перестали работать, и Яндекс оказался недоступен буквально за несколько минут.

Выявление этой проблемы потребовало много времени, потому что внутренняя сеть тоже не работала, таким образом инженерам Яндекса пришлось добираться до источника сбоя пошагово. После того, как проблема была выявлена, специалисты разделили сеть на части, снизив тем самым нагрузку на остальные маршрутизаторы, а когда вследствие этого трафик сократился, маршрутизаторы сами восстановили связность сети.

Напомним, как развивались события 19 августа. В середине дня, примерно в 17 часов, все сервисы Яндекса перестали работать, даже поисковая служба. Они были недоступны и по команде ping. Представители компании констатировали, что имеет место сбой в работе, но не указали причины, поскольку они еще не были установлены.

На установление источника сбоя и ликвидацию последствий специалисты компании потратили около 5 часов.