DevHype

Но на это приключения не закончились

185 views20:20

This media is not supported in your browser

191 views20:20

Всё продолжилось на следующий день.
Когда мы изначально планировали платформу - у нас было в 6 раз меньше пользователей, а максимальный их рост планировался в три раза. Т.е. план по росту пользователей перевыполнен на 100%. Цифры не точные, тут интересен порядок.
Мы наивно полагали, что подавляющее большинство учеников(70-75% по нашим прикидкам) будут смотреть прямые трансляции.
Чтобы прямые трансляции работали без сбоев и на полную катушку мы написали свой демон для раздачи видео сегментов. Демон этот хитрый - он закодированное видео клал напрямую в оперативку и периодически от туда уже сбрасывал на диск.
Почему именно так - потому что готовый nginx-rtmp-module не выдержал нашей нагрузки, ибо полагался он на дисковый кеш, который в linux кстати не очень то и эффективно работает, как я уже сейчас понимаю(во FreeBSD более глубокая настройка, но на фряхе не работает докер).
В итоге, наш демон работает как часы и прекрасно выполняет свою функцию. Задержка отдачи видео сегментов прямого эфира просто минимальна.

Где же закрался подвох?
А суровая реальность оказалась полностью противоположной нашим ожиданиям. Вместо 70% просмотров прямого эфира - 80-90% смотрели записи.
И тут есть тоже свои интересные особенности.
Если бы на сервере у нас было бы очень много оперативки(скажем так под терабайт) - всё было бы неплохо, поскольку сработал бы дисковый кеш. Но всё равно было бы туго на входящем пике, когда разом куча людей пришли смотреть видосики.
Но у нас оперативки мало, да и ещё в добавок всего лишь 4 обычных HDD. И это тоже работало нормально, когда у нас был марафон. Даже в записи дети смотрели примерно одни и те же записи, поэтому они отдавались преимущественно из кеша. Синхронизированные дети - хорошо работающий кеш.

И тут у нас приходит 2 тысячи человек смотреть различные записи.
Это приводит к так называемому "длинному хвосту". Это когда у нас есть несколько сотен видео, каждое из которых смотрит только 1 зритель.
На физическом уровне это означает, что жестким дискам надо постоянно быстро туда-сюда считывающей головкой по блинам - куча людей запрашивают разные вещи ведь. В результате вместо больше похожей на последовательное считывание нагрузки на винты - мы получаем полный random read, который ещё и не кешируется(потому что нельзя в 64 Гб RAM впихать _столько_ терабайт видео).

И вот и получается - прямые эфиры мы могли спокойно отдавать на 2.5 гигабита/сек, а вот записи уже не можем даже на 1 гигабит отдать, потому что упираемся в винты.

208 views20:32