Data Scientist | IT
1.94K subscribers
652 photos
3 videos
1 file
708 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
Идеи улучшения точности, удобства и скорости языковых моделей

#почитать

Я не специалист, и это список моих идей для улучшения работы языковых моделей. К сожалению хорошо проверить это не имею возможности. Нигде не встречал таких идей. Интересно узнать мнения о них.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥1
👨‍💼 Project-менеджмент | IT — один из немногих каналов по управлению проектами в IT в телеграм. Для всех проджект-менеджеров и тех, кто хочет ими стать.

Почему проджект-менеджмент — классный старт в айти:
— хорошо подходит гуманитариям (если вы думали, что в IT работают только технари — вы ошибались)
— куча сфер применения
— спрос на PM-ов в России и в мире не упадет в ближайшие десятилетия

Почему надо подписаться на канал по проджект-менеджменту?
— свежие полезные статьи и видео по теме
— еженедельная подборка последних новостей, видео и обучающих материалов
— обзоры рынка зарплат и вакансий
— регулярные тематические обсуждения

Подписаться на @projectmanager_it
👍5
Исследование и оптимизации RNN

#почитать

Буду использовать свои находки и предположения. И никакой математики.


Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥1
Как выбрать правильный сервер c подходящими для ваших нейросетей CPU/GPU

#почитать

Даже настольные процессоры от AMD или Nvidia старших моделей будут хорошим выбором для начала работы с ИИ, если ваша рабочая нагрузка не требует большого количества ядер и ограниченных возможностей многопоточности. На практике для языковых моделей выбор между типами CPU будет иметь меньшее значение, чем выбор между графическим ускорителем или объемом установленной в сервере оперативной памяти.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Databricks Arc vs Splink: автоматическое связывание данных в промышленных масштабах

#почитать

Зачем Databricks выпустил Arc, чем это отличается от Splink, и как эти инструменты позволяют решать проблему связывания данных с помощью алгоритмов машинного обучения.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Анализ негативных комментариев TRUE CRIME

#почитать

Привет! Я тут активно пытаюсь охватить разные области в сфере Data Science и решила, что было бы классно покопаться c обработкой естественного языка (NLP) на примере комментариев YouTube.

Для обучения мною был выбран датасет с Kaggle из комментариев, собранных с сайта 2ch.hk и pikabu.ru.


Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Проблемы с логикой у LLM и с доверием не только у LLM

#почитать

…мысль не всякому дана. Нам кажется, что мы мыслим, а на самом деле мы просто воспроизводим какие-то шаблоны мышления, заложенные в нас. И добраться до … своей мысли бывает очень трудно… Страшно, что у тебя ничего своего нет, всё, что ты говоришь, ты нахватался, как с полок в супермаркете, из разных этапов своей жизни


Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
В 48 собесах от оффера в Гугл

#почитать

Расскажу про свой недавний заход по собесам, что спрашивали, какие выводы сделал. Контекст: Applied Machine Learning science (в том числе этот ваш Generative AI), Нидерланды, уровень синьор+. Я долго получал отказы, старался не унывать и в конце таки нашил лычку Staff GenAI Field Solutions Architect в Google Cloud. Тут поделюсь статистикой собесов, полезными ресурсами и, конечно, всякими советами.


Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Контекст задачи в Apache AirFlow

#почитать

Для чего нужен контекст задачи Apache AirFlow, что он собой представляет, какие включает объекты, как получить к ним доступ и чем они полезны дата-инженеру.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Как оживить Кандинский матрицами вращений

#почитать

В чем же проблема при генерации видео из текста? В отличие от генерации картинки, вам необходимо получить серию максимально близких изображений, в которых есть малые изменения заданные самим текстом.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Обучение с подкреплением на основе обратной связи от человека. История становления идеи

#почитать

Мы накопили уже достаточно доказательств и исследований о том, что большие языковые модели (LLM) по умолчанию сами по себе на самом деле не соответствуют человеческим интересам и ценностям. Я уверена, я не первая, кто говорит о том, что такие модели могут быть невероятно предвзятыми. Мы знаем, что они генерируют ложную информацию и «галлюцинируют», демонстрируют политические и моральные предубеждения.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥1
Подготовка будущих аналитиков данных и ML-специалистов к реальным бизнес-задачам

#почитать

Будущие аналитики данных, BI‑аналитики, ML‑разработчики и Data Scientists используют готовые датасеты для выполнения студенческих заданий, чтобы научиться понимать принципы обработки данных, искать и валидировать гипотезы, строить предсказательные модели.

Однако задачи, которые решают студенты, часто недостаточно полезны как для них самих, так и для владельцев данных. Студенты не получают опыт решения практических задач, а также понимания, что результат их работы может быть полезен для бизнеса. В статье разбираюсь, почему так происходит и как получить опыт, который пригодится в работе.


Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥1
Задача распознавания эмоций: три кита качества

#почитать

В этой части мы коротко поговорим о данных, о работе сверточных нейросетей и о глобальных параметрах. От том что такое СГС и почему нельзя решать задачу в виде линейного уравнения. Затронем тему оптимизаторов и ответим на вопрос почему нельзя просто использовать обычный градиентный спуск. В общем обо всех деталях коротко и структурно.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8
Дизайнер интерьеров Stable Diffusion

#почитать

В сценарии существующего процесса клиент обращается к менеджеру по продажам с запросом на ремонт квартиры. Традиционный подход включает предложение клиенту описания работ, мудбордов и стилевых рекомендаций, после чего клиент вступает в процесс с дизайнерами, чтобы увидеть окончательное воплощение идей через определенное время. Вроде бы всё просто и понятно. Но во‑первых, это долго. Во‑вторых, не всегда команды дизайнеров свободны и процесс может растянуться на недели (!). В целом, да, всё сводится к тому, что это долго. А где много человеко‑часов, там ещё и много затрат.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71
Библиотеки Python для машинного обучения — подборка для начинающих

#почитать

Составили список самых важных библиотек Python для машинного обучения и рассказали, для каких задач они могут быть полезны начинающим ML-инженерам.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
Как обучают GPT

#почитать

Transformer — по-настоящему революционная архитектура. Она впервые появилась на страницах культовой статьи Attention Is All You Need («Внимание — все, что вам нужно»), которую написали Ашиш Васвани и его коллеги из Google. Они предложили сетевую архитектуру без рекурсии и сверток, основанную исключительно на механизмах внимания. До этого в основе популярных моделей преобразования последовательностей чаще всего были сложные рекуррентные или сверточные нейросети.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥31
Prompt engineering 101

#почитать

Разберемся с тем, как вообще устроены LLM, затем поговорим о промптах: общие принципы построения, техники оптимизации и промпты для изображений. А на десерт предложим вам продвинутые техники работы с LLM: автоматизированные подходы по улучшению промптов, Retrieval‑Augmented Generation и разметка данных для ML с помощью LLM.

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍2
Генеративное глубокое обучение

Автор:
Дэвид Фостер
Год издания: 2020

#ru #deeplearning #python

Скачать книгу
🔥5👍2
Графовые сети в рекомендательных системах

#почитать

Что такое сверточные графовые сети, их основные компоненты и принципы работы: подробно разберем модель на user-item графе, после перейдём к item-item графу;

Знакомство с моделью LightGCN: архитектура, процесс обучения, недостатки (медленная сходимость и смещение в популярное) и варианты их устранения;

Как это всё применять на практике: обучим сетку на датасете Movielens-25m, замерим метрики, столкнёмся с проблемами LightGCN и вместе их решим

Читать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Алгоритмы неформально.
Инструкция для начинающих питонистов

Автор:
Брэдфорд Такфилд
Год издания: 2022

#algorithms #python #ru

Скачать книгу
👍61🔥1
▫️ Деревья и их ансамбли 2023 | Деревья в анализе данных

#посмотреть

Open ML Course.

Смотреть на YouTube 30 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥21