Анализ данных (Data analysis)

🧠 Почему Alexa от Amazon не стала лучшим разговорным ИИ на планете
—
Несколько недель назад OpenAI выпустила GPT-4o, открыв новый стандарт для общения с ИИ.

Один из бывших сотрудников Amazon - Михаил Эрик , работавших над Alexa написал крутой пост, в котором Анализирует почему Alexa стала жертвой собственного успеха и не возглавила рынок голосовых помощников. Децентрализованная империя, в которой слишком много бюрократии и слишком мало заботы о развитии ИИ.

В начале 2019 года присоединился к Alexa AI в качестве научного сотрудника. К тому времени устройства с Alexa существовали уже 5 лет и было установлено более чем в 100 миллионах домов по всему миру.

В 2019 году Alexa переживала период бурного роста. Каждый квартал появлялись десятки новых команд разработчиков, инвестировались огромные финансовые ресурсы, и руководство Amazon давало понять, что Alexa станет одной из главных целей в будущем.

У Amazon были все ресурсы, таланты и импульс, чтобы стать бесспорным лидером на рынке разговорного искусственного интеллекта. Но большая часть этих технологий так и не увидела свет и не получила сколько-нибудь заметной огласки в прессе.

Почему?
Реальность такова, что проект Alexa AI был пронизан техническими и бюрократическими проблемами.

Плохой технический процесс
–
Amazon уделяет огромное внимание защите данных клиентов, устанавливая ограничения на ИИ для предотвращения утечки данных и доступа к ним. Безусловно, это важная практика, но одним из последствий этого стало то, что разработчикам стало невыносимо трудно работать с внутренней инфраструктурой ИИ.

Нужно было пройти бюррократический ад, чтобы получить доступ к любым внутренним данным для анализа или экспериментов. А все данные были плохо аннотированы. Документация по многим функциям либо отсутствовала, либо была устаревшей, получение нужного обурудования требовало большого количества согласований.

*Эксперименты приходилось проводить с ограниченными вычислительными ресурсов.

Представьте, что вы пытаетесь обучить модель transformer, когда все, что вам выделяют это несколько срдених CPU.

Это неприемлемо для такой огромной компании.
Однажды команда исследователей провела анализ, продемонстрировавший, что аннотация для части данных была сделана совершенно неправильной и это привело к неправильным разметкам данных.

Это означало, что в течение нескольких месяцев одна из внутренних команд Amazon по аннотированию данных ежедневно неправильно маркировала тысячи точек данных. Когда его команда попыталась заставить эту команду изменить аннотаций, то обнаружили, что им нужно было ввести в курс дела руководителя команды, затем их менеджера, затем отправить предварительный запрос на изменение, а затем получить одобрение (процесс длился несколько месяцев от начала до конца).

Поскольку это не входило в обязанности команды и не стоило затраченных усилий, было решено закрыть глаза на эту проболему.

Михаил пишет, что Amazon и по сей день используют эту неправльную аннотацию.

Читайте полный пост здесь, очень интересное чтиво у Amazon были все шансы, выпустить свой Amazon ChatGPT (задолго до того, как был выпущен ChatGPT) и они его упустили.

@data_analysis_ml

👍26🔥5❤2

5.72K viewsedited 23:41

Анализ данных (Data analysis)

🌟

scikit-learn-intelex — расширение от Intel для ускорения Scikit-learn

— pip install scikit-learn-intelex

Scikit-learn-intelex позволяет ускорить существующий код scikit-learn за счёт использования более оптимизированных реализаций алгоритмов.
В зависимости от приложения ускорение может быть от 10 до 100 раз.

🖥

GitHub

🟡

Ноутбук с примерами использования scikit-learn-intelex

@data_analysis_ml

Please open Telegram to view this post