Какие настройки retention существуют у топиков Kafka и как они влияют на хранение данных?

Question

Retention в Kafka определяет, как долго и в каком объёме хранятся сообщения в топике. Данные могут удаляться по времени или по размеру. Также retention зависит от того, используется ли log compaction. Эти настройки напрямую влияют на использование диска и возможность перечитывать старые данные. Неправильные значения могут привести либо к потере данных, либо к переполнению дисков.

YeaHub · Accepted Answer

Kafka по умолчанию не удаляет сообщения после чтения. Вместо этого она хранит данные согласно правилам retention, которые настраиваются для каждого топика.ОпределениеRetention policy — это набор правил, по которым Kafka определяет, какие данные можно удалить из топика.1. Retention по времениСамый распространённый вариант.1.1. retention.msОпределяет:сколько времени сообщения хранятся в топике;после какого срока они могут быть удалены.Пример:retention.ms = 7 days — сообщения хранятся примерно неделю.Важно:удаление происходит сегментами, а не по одному сообщению;фактическое время хранения может быть чуть больше заданного.1.2. Когда использоватьПодходит для:event-логов;аналитики;возможности переобработки данных за фиксированный период.2. Retention по размеруЭтот механизм ограничивает объём данных на диске.2.1. retention.bytesОпределяет:максимальный размер данных для топика или партиции.Когда лимит превышен:Kafka удаляет самые старые сегменты.2.2. Когда использоватьПолезно, если:диск ограничен;поток данных неравномерный;важнее контролировать размер, чем точное время хранения.3. Комбинация времени и размераKafka применяет правило:удалить данные, если выполнено хотя бы одно условие.То есть:если данные старые илиесли превышен размер.Это даёт гибкость, но требует аккуратной настройки.4. Retention и log compactionЕсли у топика включён cleanup.policy=compact:retention по времени работает иначе;Kafka гарантирует сохранение последнего сообщения по ключу.Возможные варианты:compact — только актуальные значения;delete — классическое удаление;compact,delete — гибридный режим.5. Практические ошибкиЧастые проблемы в продакшене:слишком маленький retention → нельзя восстановить данные;слишком большой retention → заканчивается диск;одинаковые настройки для всех топиков без учёта их смысла.6. Краткий выводRetention-настройки определяют, сколько данных Kafka может «помнить». Их нужно подбирать исходя из бизнес-требований, возможностей диска и необходимости переобработки данных. Универсальных значений не существует.

Какие настройки retention существуют у топиков Kafka и как они влияют на хранение данных?

Короткий ответ

Длинный ответ

Определение

1. Retention по времени

1.1. `retention.ms`

1.2. Когда использовать

2. Retention по размеру

2.1. `retention.bytes`

2.2. Когда использовать

3. Комбинация времени и размера

4. Retention и log compaction

5. Практические ошибки

6. Краткий вывод

Какие настройки retention существуют у топиков Kafka и как они влияют на хранение данных?

Короткий ответ

Длинный ответ

Определение

1. Retention по времени

1.1. `retention.ms`

1.2. Когда использовать

2. Retention по размеру

2.1. `retention.bytes`

2.2. Когда использовать

3. Комбинация времени и размера

4. Retention и log compaction

5. Практические ошибки

6. Краткий вывод