Machine Learning | Нейронные сети, ИИ, Big Data
7.54K subscribers
630 photos
48 videos
14 files
736 links
Всё о Machine Learning простым языком.

Сотрудничество: @max_excel
Download Telegram
Media is too big
VIEW IN TELEGRAM
Машинное обучение без навыков программирования

Существует множество инструментов для работы с моделями машинного обучения. Самыми популярными являются Python, R, TensorFlow, Keras, PyTorch. Но все они подразумевают навыки программирования.

Тем не менее, существуют и инструменты, позволяющие строить и обучать модели машинного обучения без знаний программирования. Их можно использовать для проверки гипотез, в образовательных целях или для лучшего понимания, как работает машинное обучение на практике.

В этом видео автор познакомит вас с некоторыми из таких инструментов:

00:45 Orange
04:19 KNIME
04:42 Weka
06:45 Playgroung.Tensorflow
10:03 Teachable Machine

Смотреть это видео на youtube: youtu.be/RM8-NwtJ6eg

Machine Learning
ОПРОС📍 Какого вы пола?
Anonymous Poll
81%
Мужского
19%
Женского
Новые методы сжатия больших языковых моделей от Яндекса и IST Austria

Яндекс выложил в опенсорс новые методы сжатия больших языковых моделей, с помощью которых размер нейросети можно уменьшить до 8 раз, сохранив при этом качество ответов на 95%.

Решение представлено двумя инструментами: благодаря первому происходит само сжатие нейросети, где снижается потребление памяти, нужной для работы модели. Второй исправляет ошибки, которые возникают в процессе уменьшения моделей.

Статья о новом решении включена в программу конференции ICML.

Machine Learning
Как устроена Nemotron-4 340b от NVIDIA?

NLP-специалисты подробно разобрали одну из самых крупных открытых LLM моделей. Выясним, как проходили её обучения и тестирования и можно ли её поставить в один ряд с OpenAI GPT-4.

Machine Learning
Исследователи обучили нейросеть распознавать spina bifida — редкую патологию плода развития при беременности

Эксперты Yandex Cloud создали нейросеть, благодаря которой врачи смогут своевременно обнаружить патологию развития плода при ранних сроках беременности — spina bifida. Для обучения модели использовали датасет из шести тысяч обезличенных снимков УЗИ беременных женщин. Идею проекта предложил фонд "Спина бифида" при поддержке врачей из НМИЦ Кулакова.


При создании технологии специалисты обучили сразу несколько моделей. YOLOv10 отвечала за поиск зоны интереса и категоризацию плоскости. А две модели DenseNet121 использовались для определения корректности изображения и поиска патологии отдельно для аксиальной и сагиттальной плоскости. Весь процесс, включая инференс и интерпретацию результатов через GradCAM был реализован с помощью библиотеки MONAI.

Команда проекта выложила код в открытый доступ: любой заинтересованный IT-специалист может принять участие в развитии проекта. Кроме того, технология открывает возможности для создания новых медицинских сервисов.
🛠 Неисправность вентиляторов в суперкомпьютерах

В Яндексе рассказали про необычную поломку во владимирском дата-центре, из-за которой охлаждающие видеокарты вентиляторы стали выходить из строя один за другим. Единственным решением в итоге была их полная замена.

Machine Learning
🌤 OmniCast — технология, которая повышает точность прогноза температуры с помощью пользовательских метеостанций

Нейросетевая технология OmniCast появилась у Яндекс Погоды. Она учитывает температурные данные не только профессиональных, но и любительских метеостанций. За счёт этого сведения приходят в 36 раз чаще и прогноз для каждого квартала города выходит более точным.

Machine Learning
Годовой дайджест по аналитике и ML за 2023

В этом мегадайджесте автор собрал для вас лучшие материалы по итогам 2023 года. Читайте и сохраняйте в закладки: пригодится всем, кто хочет быть в курсе новостей и актуальных технологий из мира AI, ML и дата-аналитики.

Machine Learning
🧠 Программа конференции Practical ML Conf, где эксперты делятся опытом о практическом применении ML

Несколько докладов экспертов Яндекса:
– «Человек и LLM. Как оценивать качество моделей и строить их метрики качества».
– «Адаптация VLM под продуктовые требования — как сервис Нейро делали мультимодальным».
– «AI-инструмент для разработчика: как мы обучали LLM работе с кодом».
– «Синтез выразительной речи для аудиокниг, прошлое, настоящее и будущее — как GPT и диффузионные модели произвели революции в синтезе речи и как мы это используем».
– «Как улучшить знакомые подходы для рекомендации незнакомого — как умная система рекомендаций помогает пользователям Яндекс Музыки открывать новые треки и артистов».

Мероприятие пройдет 14 сентября, его можно посетить офлайн или посмотреть доклады онлайн.

Machine Learning
📎 HyperFormer от DeepMind: как выучить выразительные представления для sparse-фичей

Разбор метода, который помогает выучивать информативные эмбеддинги в том числе и для редких значений с помощью гиперграфа. Узнаем, что такое тяжелый хвост признаков и как работает message passing в два этапа.

Machine Learning
🚘 Нейронные сети для планирования движения беспилотных автомобилей

В этой статье разработчик Яндекса знакомит нас с тем, как применяют нейросети для предсказания других участников дорожного движения и для планирования движение беспилотного транспорта. Внутри много формул для расчёта вероятных траекторий машин и пешеходов — с объяснением. Плюс можно почитать, в чём проблемы Behavioral Cloning и как их решать.

Machine Learning
🔎 Исследование ИТМО: тренды Open Source в ML/Data в России

Выяснилось, что по количеству проектов и их использованию лидируют Яндекс, Сбер и Т-банк. Исследование показало, что компании-разработчики открытых решений нацелены на международный рынок и все чаще рассматривают вклад в опенсорс как инструмент развития отрасли.

Лидер рейтинга, Яндекс, предоставляет 120 открытых решений. Среди них выделяются CatBoost — библиотека градиентного бустинга, YTsaurus — платформа для обработки больших данных, и YDB — распределенная SQL база данных.

Machine Learning
🤖 Нейроредактор в Яндекс Браузере: как «прокачали» LLM-модель семейства YandexGPT для работы с текстом

Яндекс Браузер усовершенствовал нейроредактор на базе YandexGPT — теперь это отдельный ИИ-инструмент для создания текстов с нуля и улучшения готовых (исправление ошибок, переписывание в определенном стиле и формате). Это один из самых масштабных нейросетевых проектов Браузера, объединивший усилия команд фронтенда, бэкенда, менеджмента и ML-специалистов.

Для оценки разницы в версиях использовалась диффалка на Go, работающая на основе алгоритма поиска наибольшей общей подпоследовательности (LCS). Сравнивая результат модели с корректным вариантом от редактора, диффалка считает количество не исправленных ошибок и позволяет проверять гипотезы о качестве.

Эксперименты с обучением моделей для нейроредактора (переход к архитектуре Encoder-Decoder, curriculum learning с постепенным усложнением примеров, предобучение на "грязном" датасете с искусственными ошибками) дали ускорение генерации в 2 раза без потери качества и в среднем +10% качества на открытых датасетах. Нейроредактор также получил надежную поддержку Маркдауна благодаря обучению на размеченных текстах, восстановлению пропущенных символов разметки и переобучению.

Machine Learning
This media is not supported in your browser
VIEW IN TELEGRAM
ТОП 5 мест с бесплатными данными для машинного обучения и нейросетей

В этом видео автор подробно разбирает 5 лучших мест, где можно найти готовые датасеты или просто данные для ваших проектов в Data Science.

00:00 Зачем искать готовые данные
00:30 Google for datasets
02:12 Kaggle datasets
03:24 Ищем в ODS. ai
04:02 Сайты с подборками датасетов
04:33 Ищем датасеты в статьях
06:15 Лицензии на датасеты

Смотреть это видео на youtube: youtu.be/dGjgTflGdps

Machine Learning
🤖 Как Яндекс создавал мультимодальную нейросеть для поиска по картинкам в Нейро

Команда Яндекса разработала VLM, значительно улучшив возможности поиска по изображениям. Теперь пользователи могут не только узнать, что изображено на картинке, но и задать вопросы о конкретных деталях.

На Хабре появилась подробная статья от ML-разработчика Яндекса, раскрывающая суть визуально-текстовых мультимодальных моделей. Автор детально описывает их трехкомпонентную архитектуру, состоящую из LLM, картиночного энкодера и адаптера, а также освещает сложный процесс обучения, включающий этапы pretraining и alignment: SFT + RL (опционально).

В статье есть наглядное сравнение старого и нового пайплайнов Нейро. Разработчиком пришлось существенно доработать инфраструктуру, чтобы сделать весь пайплайн вычислительно эффективным.

Machine Learning
🤔 Специалисты разобрали работу Self-Rewarding Language Models

NLP-инженеры Яндекса опубликовали в своем канале обзор языковой модели, которая сама создает инструкции, генерирует ответы и оценивает их качество. Они рассказали, чем ее обучение отличается от традиционных подходов и какие результаты в тестах она показала.

Machine Learning
YandexGPT 4: что умеет новая линейка нейросетей Яндекса?

Более мощная YandexGPT 4 Pro и облегченная YandexGPT 4 Lite уже доступны на сайте Yandex Cloud. Модель Pro в 70% случаев лучше своей прошлой версии справляется с запросами. А благодаря увеличенной обработке до 32 тысяч токенов модели лучше работают с длинными запросами и внешними источниками в RAG-сценариях, а еще анализируют большие объемы данных. Про обучение YandexGPT 4 и ее отличия от предыдущих версий разработчики рассказали в статье на Хабре.

Machine Learning
🥇 Yandex ML Prize: премию в области машинного обучения вручили 14 лауреатам

Совет ежегодной премии выбирал наиболее перспективные и значимые работы в области генеративных моделей, обработки естественного языка, компьютерного зрения, информационного поиска, распознавания и синтеза речи и когнитивной робототехники. Яндекс проводит премию уже не первый год и поддерживает молодых ученых в создании передовых и прикладных ML-технологий.

Machine Learning
Диффузионные модели для рекомендации слейтов

Исследование Spotify показало, что генеративный подход (диффузионные модели) может выдавать лучшие результаты, чем RL-like подходы, для решения в сфере рекомендаций слейтов. ML-щики из Яндекса разобрали, что такое слейт и чем так хороши диффузионки.

Machine Learning