Forwarded from Серебряное дело маленького городка (Данил)
This media is not supported in your browser
VIEW IN TELEGRAM
❤1
Forwarded from Эхо Телеги
В MAX встроена нейросеть, которая слушает ваши звонки 📞
VK модифицировали WebRTC – технологию, через которую работают звонки – и встроили туда систему распознавания ключевых слов. Та же технология, что «Привет, Алиса». Только здесь она работает на вашем микрофоне во время звонка, а вы об этом не знаете.
Когда вы звоните в MAX, нейросеть режет аудио с микрофона на куски по 10 миллисекунд и на каждом решает – произнесено ключевое слово или нет. Модель BC-ResNet, 1.17 МБ, ~300 тысяч параметров, streaming mode. Сейчас обучена на фразу «не слышу» – якобы для определения плохой связи. На данный момент выключена на сервере.
Но вот в чем дело. Модель не зашита в код приложения. Она лежит на публичном CDN – st.okcdn.ru и скачивается по ссылке из серверного конфига. При запуске MAX получает от сервера JSON с тремя полями: URL модели, MD5 и флаг use. Скачал, проверил хэш, загрузил в движок. Все.
Приложение вообще не проверяет, что модель распознает. Нет списка допустимых слов. Нет whitelist. VK кладет на CDN новый файл, меняет URL в конфиге – и при следующем звонке ваш телефон уже ищет не «не слышу», а что угодно. Без обновления в сторе и уведомления. Можно включить для одного конкретного userId.
При срабатывании отчет улетает на api.ok.ru. Внутри метрика bad_call_detected_by_audio_spotter, строка «не слышу», уровень уверенности от 0 до 1, привязка к userId и call_id. VK видит: в таком-то звонке у такого-то пользователя сработал детектор. Название метрики зашито в код – даже если модель заменят, отчет все равно уйдет как «не слышу». Удобно.
Модель рабочая. Побрутили CDN, перебрали 200+ путей – других моделей пока нет. Три версии SDK, во всех одна и та же модель с одинаковым MD5.
Теперь про звонки. P2P-соединений в MAX нет. Все медиаданные идут через TURN-сервер VK. Шифрование DTLS-SRTP есть – но от вас до сервера, а не от вас до собеседника. На relay-сервере шифрование заканчивается. Ключи у VK. То есть VK технически имеет доступ к аудио всех звонков.
И вишенка. В коде есть серверный флаг calls-sdk-log-audio – если VK его включит, аудио звонка пишется в файл. Плюс JNI-методы для дампа raw-аудио в файловый дескриптор. Все управляется с сервера.
Разница между детектором плохой связи и прослушкой – один URL в конфиге. Код, процесс, отправка на сервер – все одно и то же. Меняется только файл на CDN🙃
Полный разбор по ссылке.
@echo_telegi
VK модифицировали WebRTC – технологию, через которую работают звонки – и встроили туда систему распознавания ключевых слов. Та же технология, что «Привет, Алиса». Только здесь она работает на вашем микрофоне во время звонка, а вы об этом не знаете.
Когда вы звоните в MAX, нейросеть режет аудио с микрофона на куски по 10 миллисекунд и на каждом решает – произнесено ключевое слово или нет. Модель BC-ResNet, 1.17 МБ, ~300 тысяч параметров, streaming mode. Сейчас обучена на фразу «не слышу» – якобы для определения плохой связи. На данный момент выключена на сервере.
Но вот в чем дело. Модель не зашита в код приложения. Она лежит на публичном CDN – st.okcdn.ru и скачивается по ссылке из серверного конфига. При запуске MAX получает от сервера JSON с тремя полями: URL модели, MD5 и флаг use. Скачал, проверил хэш, загрузил в движок. Все.
Приложение вообще не проверяет, что модель распознает. Нет списка допустимых слов. Нет whitelist. VK кладет на CDN новый файл, меняет URL в конфиге – и при следующем звонке ваш телефон уже ищет не «не слышу», а что угодно. Без обновления в сторе и уведомления. Можно включить для одного конкретного userId.
При срабатывании отчет улетает на api.ok.ru. Внутри метрика bad_call_detected_by_audio_spotter, строка «не слышу», уровень уверенности от 0 до 1, привязка к userId и call_id. VK видит: в таком-то звонке у такого-то пользователя сработал детектор. Название метрики зашито в код – даже если модель заменят, отчет все равно уйдет как «не слышу». Удобно.
Модель рабочая. Побрутили CDN, перебрали 200+ путей – других моделей пока нет. Три версии SDK, во всех одна и та же модель с одинаковым MD5.
Теперь про звонки. P2P-соединений в MAX нет. Все медиаданные идут через TURN-сервер VK. Шифрование DTLS-SRTP есть – но от вас до сервера, а не от вас до собеседника. На relay-сервере шифрование заканчивается. Ключи у VK. То есть VK технически имеет доступ к аудио всех звонков.
И вишенка. В коде есть серверный флаг calls-sdk-log-audio – если VK его включит, аудио звонка пишется в файл. Плюс JNI-методы для дампа raw-аудио в файловый дескриптор. Все управляется с сервера.
Разница между детектором плохой связи и прослушкой – один URL в конфиге. Код, процесс, отправка на сервер – все одно и то же. Меняется только файл на CDN
Полный разбор по ссылке.
@echo_telegi
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Мониторинг телевизионной залупы
Канал: Шансон ТВ
Дата: 13.04.2026
Время: 12:22:00 UTC+3
Дата: 13.04.2026
Время: 12:22:00 UTC+3
❤4
Forwarded from уроборос [rest] (Олег)
В моё время фанаты Канье Веста называли его вежливо и просто — долбаеб
❤5
Forwarded from уроборос [rest] (Олег)
This media is not supported in your browser
VIEW IN TELEGRAM
❤1