Этот вопрос проверяет понимание наблюдаемости распределённых систем: умение использовать логи, трассировку и корреляционные идентификаторы, чтобы найти, где именно в цепочке микросервисов произошёл сбой.
Короткий ответ
Главный инструмент для определения этапа сбоя — сквозная корреляция запросов через все сервисы. Для этого каждому запросу назначают trace_id/request_id и передают его в заголовках между сервисами, записывая в логах и метриках.
Далее, используя систему логирования или трассировки (например, Jaeger, Zipkin, OpenTelemetry), можно просмотреть цепочку вызовов и увидеть, на каком сервисе появилась ошибка или аномально выросла задержка.
Дополнительно помогают метрики (ошибки, латентность, количество запросов) и алерты: по ним видно, какой сервис “краснеет” в момент проблемы.
В итоге точка сбоя находится по комбинации: корреляционный ID + логи + трассировка + метрики.
Длинный ответ
Зарегистрироваться
Развернутый ответ доступен только зарегистрированным пользователям.