Библиотека data scientist’а | Data Science, Machine learning, анализ данных, машинное обучение
18.5K subscribers
1.04K photos
44 videos
59 files
3.7K links
Все самое полезное для дата сайентиста в одном канале.

Список наших каналов: https://t.me/proglibrary/8353
Учиться у нас: https://proglib.io/w/907158ab

Обратная связь: @proglibrary_feedback_bot

По рекламе: @proglib_adv
Прайс: @proglib_advertising
Download Telegram
🔥 Вышла новая версия языка Mojo

Речь о майском релизе Mojo 24.3. Это первый крупный релиз после публичного запуска.

Mojo — это язык программирования, ориентированный на разработку в сфере машинного обучения.

Что изменилось:

🔘Модули для работы с коллекциями (List, Dict, Set и Tuple) стали более похожими на модули из Python. Например, у List появились методы pop(index), resize(new_size) и insert(index, value).

🔘Добавлены новые функции для работы с коллекциями, такие как reversed().

🔘Появились параметрические индексы в методах __getitem__() и __setitem__()

🔗 Прочесть о релизе подробнее можно по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 «Нейросетевой словарик» для начинающих

Перечислим основные термины и понятия, которые важны для понимания процесса обучения нейросети.

🔸 Веса (Weights) — параметры модели, которые определяют силу связи между входами и выходами нейронов. В процессе обучения эти веса корректируются для минимизации ошибки.

🔸 Эпоха (Epoch) — так называют одну итерацию, за которую модель обновляет веса у всего обучающего набора данных целиком.

🔸 Функция потерь (Loss function) — используется для оценки того, насколько результаты модели хорошо согласуются с реальными значениями.

🔸 Кросс-энтропия (Cross-entropy loss) — функция потерь, которая применяется в задаче бинарной классификации. Измеряет разницу между двумя вероятностными распределениями: предсказанным и истинным.

🔸Метод обратного распространения ошибки (Backpropagation) — позволяет минимизировать функцию потерь путём коррекции весов. Вычисляет производную по каждому весу 𝑤 с использованием цепного правила.

🔸 Скорость обучения (Learning rate) — параметр, определяющий величину шага обновления весов во время обучения. Слишком большая скорость может привести к нестабильному обучению, а слишком маленькая — к замедлению процесса и застреванию в локальных минимумах.
🔥 Вышла AlphaFold 3

Это новое поколение революционной модели, которая способна предсказывать пространственную структуру и взаимодействия белков. AlphaFold 3 как минимум на 50% лучше предыдущей версии в предсказаниях взаимодействий белков с другими молекулами.

Как это работает

AlphaFold 3 на вход подают список молекул, а на выход модель отдаёт их объединённую 3D-структуру. Она может моделировать крупные биомолекулы, такие как белки, ДНК и РНК, а также маленькие, лиганды, к которым относятся многие лекарства.

В основе модели лежит архитектура Evoformer. После обработки входных данных AlphaFold 3 компонует прогнозы с использованием диффузионной сети, подобной тем, что применяются в генераторах изображений. Процесс диффузии начинается с облака атомов и постепенно сходится к окончательной молекулярной структуре.

🚀 Исследователи надеются, что AlphaFold 3 поможет в открытии новых лекарств. Учёные могут получить доступ к большинству возможностей модели бесплатно через AlphaFold Server.
Исследователи представили новую архитектуру xLSTM

xLSTM расшифровывается как Extended Long Short-Term Memory. Как можно догадаться, это улучшение для традиционных LSTM сетей.

xLSTM внедряет:

🔸Экспоненциальный гейтинг.
🔸Новую структуру памяти: теперь она состоит из sLSTM и mLSTM. Первая включает механизм смешивания памяти. Вторая использует матрицы, чтобы лучше хранить информацию и параллелить обучение.

В статье утверждается, что xLSTM превосходит стандартные LSTM и трансформеры за счёт улучшенной архитектуры и способности эффективно работать с последовательностями большой длины.

🔗 Читать исследовательскую статью
В магазине сделаны следующие покупки: клиент1 — хлеб, молоко; клиент2 — хлеб, молоко, печенье; клиент3 — печенье, чай; клиент4 — хлеб, чай; клиент5 — чай, конфеты. Чему равна значимость (conf) правила (хлеб -> молоко)?
Anonymous Quiz
3%
0
28%
1/3
62%
2/3
7%
1
🧑‍💻 Deep Learning Models

Репозиторий с коллекцией моделей и архитектур глубокого обучения. Все они представлены в Jupyter Notebook.

Репо охватывает модели:

▫️Перцептрон;
▫️Многослойный перцептрон;
▫️Свёрточные нейронные сети (AlexNet, LeNet и др.);
▫️Transformers;
▫️Генеративно-состязательные сети (GAN);
▫️Графовые нейронные сети.

🔗 Ссылка на репозиторий
👥 Лучшие практики создания рекомендательных систем

Recommenders — это репозиторий, в котором собраны Jupyter-блокноты с примерами рекомендательных систем. Они охватывают подготовку данных, построение моделей, оценку, а также внедрение в продакшн с помощью Azure.

Репозиторий может стать хорошей подсказкой для тех, кто начинает знакомство с этой областью применения машинного обучения.

🔗 Ссылка на репозиторий
🧠 Прокачай свои знания о Data Science! X5 Tech запускает хакатон X5 Tech AI Hack – узнай на практике больше об алгоритмах маскирования данных и избавлении нейросетей от галлюцинаций. Призовой фонд – 2 000 000 рублей.

🔔 Старт ML-соревнования – 17 мая. Не жди дедлайна, регистрируйся прямо сейчас: https://cnrlink.com/x5techaihackdslib

Приглашаем на хакатон Python-разработчиков и специалистов по машинному обучению вне зависимости от их опыта. На выбор – один из двух треков:

1️⃣ Маскирование. Предстоит разработать алгоритм, который будет заменять чувствительные данные в датасете без потери смысла. Ты научишься решать задачу Named Entity Recognition и обучать модели обработки естественного языка.
2️⃣ Детекция галлюцинаций. Задача конкурсантов – создать систему, которая сможет эффективно выявлять аномалии в тексте, сгенерированном нейросетью. Решение поможет лучше понять, как работают языковые модели, разобраться, как анализировать и классифицировать большие данные.

Хакатон продлится 10 дней. У тебя будет шанс получить советы от крутых ML-экспертов и специалистов по Data Science, обсудить задачи соревнования с единомышленниками, узнать больше о проектах X5 Tech.

28-29 мая 5 лучших команд в каждом треке получат приглашение на финал в Москве. Церемония награждения пройдет 30 мая на X5 Future Night, где ты сможешь вживую пообщаться с представителями компании и коллегами по Data Science.

🔥 Участвуй в X5 Tech AI Hack и внеси свой вклад в развитие ML-технологий: https://cnrlink.com/x5techaihackdslib

Реклама. ООО «ИТ ИКС 5 Технологии». ИНН 1615014289. erid: LjN8JwKac
📄 Если вы любите читать исследовательские статьи по ML, то есть удобный способ их отслеживать

В репозитории ML Papers of The Week каждую неделю публикуют подборку самых интересных и значимых статей.

Вот, например, подборка статей недели с 29 апреля по 5 мая:
▫️Kolmogorov-Arnold Networks
▫️Better and Faster LLMs via Multi-token Prediction
▫️Med-Gemini
▫️When to Retrieve?
▫️A Survey on Retrieval-Augmented Language Models
▫️An Open-source LM Specialized in Evaluating Other LMs
▫️Self-Play Preference Optimization
▫️Inner Workings of Transformer Language Models
▫️Multimodal LLM Hallucinations
▫️In-Context Learning with Long-Context Models

🔗 Ссылка на репозиторий
Самые полезные каналы для программистов в одной подборке!

Сохраняйте себе, чтобы не потерять 💾

🔥Для всех

Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
Proglib Academy — тут мы рассказываем про обучение и курсы

🤖Про нейросети
Библиотека робототехники и беспилотников | Роботы, ИИ, интернет вещей
Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
Библиотека нейротекста | ChatGPT, Gemini, Bing
Библиотека нейровидео | Sora AI, Runway ML, дипфейки
Библиотека нейрокартинок | Midjourney, DALL-E, Stable Diffusion

#️⃣C#

Книги для шарпистов | C#, .NET, F#
Библиотека шарписта — полезные статьи, новости и обучающие материалы по C#
Библиотека задач по C# — код, квизы и тесты
Библиотека собеса по C# — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Вакансии по C#, .NET, Unity Вакансии по PHP, Symfony, Laravel

☁️DevOps

Библиотека devops’а — полезные статьи, новости и обучающие материалы по DevOps
Вакансии по DevOps & SRE
Библиотека задач по DevOps — код, квизы и тесты
Библиотека собеса по DevOps — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования

🐘PHP

Библиотека пхпшника — полезные статьи, новости и обучающие материалы по PHP
Вакансии по PHP, Symfony, Laravel
Библиотека PHP для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по PHP — код, квизы и тесты

🐍Python

Библиотека питониста — полезные статьи, новости и обучающие материалы по Python
Вакансии по питону, Django, Flask
Библиотека Python для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Python — код, квизы и тесты

Java

Книги для джавистов | Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков

👾Data Science

Книги для дата сайентистов | Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы по Data Science
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту

🦫Go

Книги для Go разработчиков
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go

🧠C++

Книги для C/C++ разработчиков
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++

💻Другие каналы

Библиотека фронтендера
Библиотека мобильного разработчика
Библиотека хакера
Библиотека тестировщика
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности

📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈

Также у нас есть боты:
Бот с IT-вакансиями
Бот с мероприятиями в сфере IT

Мы в других соцсетях:
🔸VK
🔸YouTube
🔸Дзен
🔸Facebook *
🔸Instagram *

* Организация Meta запрещена на территории РФ
👀 Отличные визуальные объяснения основных концепций и алгоритмов машинного обучения

MLU-Explain — это инициатива Amazon, направленная на помощь в изучении теории и практики машинного обучения.

Каждая из тема ниже сопровождается понятными объяснениями и интерактивными графиками.
🔸Нейронные сети
🔸Equality of odds
🔸Логистическая регрессия
🔸Линейная регрессия
🔸Обучение с подкреплением
🔸Случайный лес и др.

🔗 Ссылка на сайт
Чем отличаются друг от друга Transfer learning, Fine-tuning и Multi-task learning?

▫️Transfer learning
Эта техника позволяет использовать накопленный при решении одной задачи опыт для решения другой, аналогичной проблемы. Мы берём предобученную на большом наборе данных нейросеть, её последние несколько слоёв заменяются на нужную архитектуру, а затем только эти слои дообучаются на целевом датасете.

▫️Fine-tuning
Идея похожа на Transfer learning, однако Fine-tuning подразумевает корректировку параметров предобученной модели по всем слоям или по какой-то их части. Для корректировки используется новый набор данных, подходящий для вашей конкретной задачи.

▫️Multi-task learning
Этот подход предполагает одновременное обучение модели для решения нескольких задачах. Это позволяет улучшить обобщающую способность за счёт совместного извлечения признаков.

#вопросы_с_собеседований
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
📊CADE — интересный способ поиска аномалий в многомерных данных

Статья рассказывает о CADE (Classifier Adjusted Density Estimation). Это метод приближения плотности распределения, который хорошо справляется с большими размерностями и неинформативными признаками. Автор даёт пример кода, который реализует поиск аномалий с помощью этого метода.

🔗 Читать статью
🕛📄Two Minute Papers — полезный YouTube-канал с объяснениями ML-технологий

Two Minute Papers посвящён обзору последних исследований, в том числе в области искусственного интеллекта и машинного обучения. Многие выпуски на канале кратко рассказывают содержание новых научных статей. Вот последние интересные ролики:
▫️Про новую AlphaFold 3
▫️NVIDIA’s New Tech: Master of Illusions!
▫️DeepMind’s New AI Saw 15,000,000,000 Chess Boards!

🔗 Ссылка на канал
⬆️ Методы оптимизации в машинном и глубоком обучении. От простого к сложному

Новая статья (в отличной серии статей о машинном обучении) рассказывает о:

🔹классическом градиентном спуске;
🔹momentum-оптимизации;
🔹AdaGrad;
🔹RMSProp;
🔹и др. модификациях алгоритмов оптимизации.

🔗 Ссылка на статью
Yandex приглашает поучаствовать в Practical ML Conf 14 сентября!

На конференции поговорим о том, как применять ML-технологии в бизнесе и реальных продуктах. Регистрируйтесь уже сейчас — те, кто сделает это раньше всех, попадут на закрытый мини-ивент в июле.

А если хотите поделиться своим опытом в ML, станьте спикером, оставив заявку. Ключевые темы конференции — CV, RecSys, MLOps, NLP, Speech и Analytics. После подачи программный комитет рассмотрит заявки и примет решение об участии каждого претендента.

🔹 Сбор заявок завершится 13 июля.

Реклама. ООО "Яндекс", ИНН 7736207543.
А вам интересно следить за деятельностью OpenAI?

Вчера компания провела презентацию, на которой представила новую мультимодальную модель GPT-4o, голосового ассистента с эмоциями, а также десктопное приложение ChatGPT с распознаванием изображений. Теперь, кажется, весь интернет обсуждает это. Каково ваше отношение?

❤️ — интересно, слежу за новостями
👍 — иногда почитываю, что у них там
👾 — в целом, всё равно

#интерактив