г дэ – Telegram

❤1

200 viewsМ, 06:39

г дэ

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

208 viewsМ, 06:46

г дэ

Forwarded from Эхо Телеги

В MAX встроена нейросеть, которая слушает ваши звонки

📞

VK модифицировали WebRTC – технологию, через которую работают звонки – и встроили туда систему распознавания ключевых слов. Та же технология, что «Привет, Алиса». Только здесь она работает на вашем микрофоне во время звонка, а вы об этом не знаете.

Когда вы звоните в MAX, нейросеть режет аудио с микрофона на куски по 10 миллисекунд и на каждом решает – произнесено ключевое слово или нет. Модель BC-ResNet, 1.17 МБ, ~300 тысяч параметров, streaming mode. Сейчас обучена на фразу «не слышу» – якобы для определения плохой связи. На данный момент выключена на сервере.

Но вот в чем дело. Модель не зашита в код приложения. Она лежит на публичном CDN – st.okcdn.ru и скачивается по ссылке из серверного конфига. При запуске MAX получает от сервера JSON с тремя полями: URL модели, MD5 и флаг use. Скачал, проверил хэш, загрузил в движок. Все.

Приложение вообще не проверяет, что модель распознает. Нет списка допустимых слов. Нет whitelist. VK кладет на CDN новый файл, меняет URL в конфиге – и при следующем звонке ваш телефон уже ищет не «не слышу», а что угодно. Без обновления в сторе и уведомления. Можно включить для одного конкретного userId.

При срабатывании отчет улетает на api.ok.ru. Внутри метрика bad_call_detected_by_audio_spotter, строка «не слышу», уровень уверенности от 0 до 1, привязка к userId и call_id. VK видит: в таком-то звонке у такого-то пользователя сработал детектор. Название метрики зашито в код – даже если модель заменят, отчет все равно уйдет как «не слышу». Удобно.

Модель рабочая. Побрутили CDN, перебрали 200+ путей – других моделей пока нет. Три версии SDK, во всех одна и та же модель с одинаковым MD5.

Теперь про звонки. P2P-соединений в MAX нет. Все медиаданные идут через TURN-сервер VK. Шифрование DTLS-SRTP есть – но от вас до сервера, а не от вас до собеседника. На relay-сервере шифрование заканчивается. Ключи у VK. То есть VK технически имеет доступ к аудио всех звонков.

И вишенка. В коде есть серверный флаг calls-sdk-log-audio – если VK его включит, аудио звонка пишется в файл. Плюс JNI-методы для дампа raw-аудио в файловый дескриптор. Все управляется с сервера.

Разница между детектором плохой связи и прослушкой – один URL в конфиге. Код, процесс, отправка на сервер – все одно и то же. Меняется только файл на CDN 🙃

Полный разбор по ссылке.

@echo_telegi

Please open Telegram to view this post

VIEW IN TELEGRAM

232 viewsМ, 06:57

г дэ

238 viewsМ, 07:01

г дэ

❤4

214 viewsМ, 10:30

г дэ

💯1

230 viewsМ, 10:46

г дэ