Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
👾 Карточки по мотивам наших вопросов с собеседований DS

Наш подписчик сделал колоду карточек ANKI из пар вопрос-ответ, опубликованных в канале Библиотека собеса по Data Science. Всего в наборе 203 карточки.

Чтобы смотреть их в удобной форме, нужно:
▪️Завести аккаунт на AnkiWeb;
▪️Скачать десктопное приложение ANKI;
▪️Скачать карточки;
▪️Открыть их в приложении.

❤️ Если вы тоже делали карточки, шпаргалки или инструкции по нашим материалам, то обязательно присылайте нашему боту
5
👀 Amazon провалила ИИ-проект с автоматизированными магазинами

Компания отказалась от Just Walk Out в своих магазинах Amazon Go. Предполагалось, что технология будет автоматизировать работу касс с помощью компьютерного зрения. Однако, как оказалось, работает она плохо.

👉 По задумке, Just Walk Out должна была позволять покупателю взять любые товары и уйти из магазина, не проведя их через кассу. Amazon хотела, чтобы ИИ-система через камеры отслеживала, что забрали клиенты, и списывала деньги с них позже.

Журналисты выяснили, что на проект Amazon работали более 1000 человек из Индии, которые вручную размечали видео для обучения моделей, а также перепроверяли их результаты. И если ручная разметка — это нормальное явление, то постоянная перепроверка оказалась слишком накладной и свела преимущества технологии на нет.

🤔 Теперь Amazon перейдёт на более разумный формат работы: в магазинах будут использоваться тележки со встроенными экранами и сканерами для оплаты.
👍7😁31
📊 Периодическая таблица методов визуализации

Забавная версия таблицы Менделеева, в которой собраны разные методы визуализации данных и концептов.

Помогает освежить всё в памяти.

🔗 Ссылка на таблицу
9
💬 У нас есть вопрос

Расскажите, пожалуйста, на какие статьи вы переходили или какие последние ссылки открывали из Telegram? Речь идёт не только о наших статьях и ссылках, а о любых.

👇 Пишите ответы в комментариях в стиле «был пост со статьёй такой-то, я её открыл и почитал». Будем благодарны обратной связи!
👍3
🐍 Хэш-карты: незаменимый инструмент для Python-разработчика

Хэш-карты представляют собой одну из наиболее распространенных реализаций хэширования. Они хранят пары ключ-значение в списке, доступ к которому осуществляется через его индекс.

О том, как работать с хэш-картами в Python, читайте в нашей новой статье.

🔗 Ссылка
🔗 Зеркало
👍2😁2
Свежий #дайджест материалов по ИИ, Data Science и машинному обучению

▪️Синтетическое генерирование данных (SMOTE)
SMOTE используется для решения проблемы несбалансированности классов в обучающих данных.
▪️Propensity score matching: как оценивать маркетинговые кампании, если невозможно провести A/B тесты
Propensity Score Matching (PSM) — это статистический метод, позволяющий оценить эффект вмешательства, сравнивая группы с похожим распределением ключевых характеристик, за исключением самого вмешательства.
▪️Логистическая и Softmax-регрессии. Основная идея и реализация с нуля на Python
Очень подробная статья с формулами и кодом.
▪️Ускорение инференса LLM
ML-разработчик из команды YandexGPT разобрал задачу ускорения инференса больших языковых моделей.
▪️What's next for AI agentic workflows ft. Andrew Ng of AI Fund
Эндрю Ын рассказывает о том, что будет дальше с ИИ-агентами.
🔥5👍2
🤖👾 Как злоумышленники взламывают LLM: 7 ключевых стратегий

Чат-боты на основе ИИ все чаще становятся мишенью для хакеров. Какие уязвимости позволяют злоумышленникам взламывать ИИ-системы и как защитить свои приложения от атак? Рассказываем о 7 ключевых стратегиях.

👉 Читать статью
👉 Зеркало
6
This media is not supported in your browser
VIEW IN TELEGRAM
👾 LLM сразились между собой в турнире по Street Fighter III

Разработчики придумали бенчмарк LLM Colosseum, который предлагает совершенно новый способ оценки больших языковых моделей (LLM). Воспользоваться им может каждый желающий — исходный код открыт.

😎 На прикреплённом к посту видео сражаются модели OpenAI и Mistral. В это битве победителем вышла Mistral. Но как это работает?

Все действия персонажей определяются решениями LLM в режиме реального времени. Моделям отправляют текстовое описание происходящего на экране и спрашивают, каким должен быть следующий шаг. При этом, как показала практика, чтобы победить в Street Fighter III, для LLM важна скорость. Поэтому более маленькие модели выигрывают чаще, чем более крупные. На данный момент первое место в рейтинге занимает gpt-3.5-turbo-0125. За ней следуют mistral-small-latest и gpt-4-1106-preview.
👍6😁5👾1
⛏️ Экспериментируйте с нейросетью прямо в браузере

У TensorFlow есть песочница, в которой можно настраивать нейронную сеть и сразу смотреть на результат своих изменений. Можно выбрать количество слоёв, размер батча, уровень шума в данных, преобразования входных данных, даже вручную прописать веса — и увидеть, что меняется. Полезно для понимания того, как это всё устроено.

🔗 Ссылка на песочницу
7🔥4
🧠 Сколько времени нужно, чтобы «успокоить» ум?

Своими наблюдениями делится один из самых известных специалистов по искусственному интеллекту, сооснователь OpenAI Андрей Карпаты.

Возвращаюсь после экспериментального двухнедельного детокса от интернета. Основной вывод заключается в том, что я не осознавал, насколько неспокойным может стать ум при перенасыщении проблемами/информацией (как взболтанная жидкость), и примерно двух недель достаточно, чтобы перейти в гораздо более спокойное состояние.

Меня поразило, как перенасыщенный мозг автоматически выталкивает на поверхность сознания проблемы, создавая состояние постоянной тревоги и нервозности. После некоторого времени в устоявшемся состоянии эта активность просто... прекращается. Вы можете сидеть, и ваш мозг не переходит сразу в режим решения проблем, он просто остаётся в тишине. Ничего не происходит.

Я уверен, это может показаться многим странным, но я думаю, что очень давно не был в таком подмножестве пространства состояний «динамики мозга», и приятно знать, что 1) это состояние существует, и 2) его можно посетить, если хочешь, но путь туда занимает несколько недель.
14🔥53
🐼 Pandas: от хаоса к красоте кода

Работа с pandas.DataFrame может превратиться в неловкую кучу старого (не очень) доброго спагетти-кода. Автор делится своим опытом и рассказывает, какие практики старается соблюдать.

Этого не стоит делать:
▫️не изменяйте DataFrame слишком сильно внутри функций;
не пишите методы, которые изменяют DataFrame и не возвращают его.

Этого стоит придерживаться:
создавайте новые объекты вместо того, чтобы изменять исходный DataFrame, и не забывайте делать глубокую копию, когда это необходимо;
выполняйте только операции аналогичного уровня внутри одной функции;
разрабатывайте функции с учётом возможности переиспользования;
тестируйте свои функции.

🔗 Ссылка на статью
👏8😁2
🤖 Матричные вычисления, лежащие в основе Transformers

Автор YouTube-канала StatQuest with Josh Starmer Джош Стармер опубликовал новое отличное видео, объясняющее матричные вычисления, на базе которых строится одна из самых известных архитектур нейросетей.

Джош пошагово, подробно и на примерах рассказывает про эмбеддинги слов (их векторные представления), позиционное кодирование, матрицы Q, K и V.

🔗 Смотреть видео
👍61
⚛️ Квантовое машинное обучение: курсы и материалы

🖥️ Открытый курс квантового машинного обучения
Курс от сообщества ODS. Содержит лекции разных уровней сложности и глубины. Все объяснения подкрепляются кодом.

🖥️ Забавный комикс о смысле квантовых вычислений
Развенчивает популярные представления о том, что такое квантовый компьютер.

🖥️ Руководство по квантовому машинному обучению для начинающих
Объясняет основные понятия из этой сферы. Автор постепенно добавляет в руководство больше контента.

🖥️ Курс CERN по квантовым вычислениям по-русски
Нужно зарегистрироваться, чтобы получить доступ ко всем видео-лекциям и конспектам.

🖥️ CERN Introductory Course
Англоязычная версия вводного курса по квантовым вычислениям.

🖥️ QuantumAlgorithms.org
Здесь лежат конспекты лекций по квантовым алгоритмам и квантовому машинному обучению.
👍7
👇 Коллеги, в связи с последними событиями, делимся своими идеями нейросетей👇
😁23👏2
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.