Блог о Data Science 💻
4.15K subscribers
75 photos
4 videos
21 files
114 links
Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.me/notedatasciencechat

Автор: @travelwithtagir
Download Telegram
🔄Активные денежные соревнования на Kaggle

Собрал для вас подборку из 9 соревнований на Kaggle, к которым еще можно присоединиться. Призовой фонд в каждом из них — от $50.000 до $1.100.000. Некоторые соревнования заканчиваются уже совсем скоро, а некоторые запустили пару дней назад 🤡

Вот сами соревнования с ссылками:

🗣Learning Agency Lab - Automated Essay Scoring 2.0 | ссылка
Цель: Улучшение алгоритмов оценки эссе для повышения образовательных результатов студентов.
Количество команд: 2694.
Дата завершения: 1 июля 2024.

🗣NeurIPS 2024 - Predict New Medicines with BELKA | ссылка
Цель: Прогнозирование взаимодействий малых молекул с белками с использованием BELKA.
Количество команд: 1835.
Дата завершения: 9 июля 2024.

🗣LEAP - Atmospheric Physics using AI (ClimSim) | ссылка
Цель: Симуляция высокого разрешения атмосферных процессов с использованием климатической модели.
Количество команд: 449.
Дата завершения: 16 июля 2024.

🗣USPTO - Explainable AI for Patent Professionals | ссылка
Цель: Помощь патентным специалистам в понимании результатов ИИ через привычный язык запросов.
Количество команд: 315.
Дата завершения: 25 июля 2024.

🗣LMSYS - Chatbot Arena Human Preference Predictions | ссылка
Цель: Прогнозирование предпочтений пользователей.
Количество команд: 929.
Дата завершения: 29 июля 2024.

🗣LLM 20 Questions | ссылка
Цель: Угадать секретное слово в сотрудничестве.
Количество команд: 362.
Дата завершения: 29 июля 2024.

🗣ISIC 2024 - Skin Cancer Detection with 3D-TBP | ссылка
Цель: Определение рака кожи на обрезанных фотографиях из 3D-снимков всего тела.
Количество команд: 129.
Дата завершения: 29 августа 2024.

🗣RSNA 2024 Lumbar Spine Degenerative Classification | ссылка
Цель: Классификация дегенеративных состояний поясничного отдела позвоночника.
Количество команд: 519.
Дата завершения: 29 сентября 2024.

🗣ARC Prize 2024 | ссылка
Цель: Разработка ИИ-систем, способных эффективно осваивать новые навыки и решать открытые задачи без полагания исключительно на обширные наборы данных.
Количество команд: 315.
Дата завершения: 29 октября 2024.

Пишите в комментариях, планируете ли вы участвовать в каком-то из соревнований. Если у вас есть интерес к какому-то из соревнований, я готов подробнее рассказать о нем в отдельном посте. С вас — реакции 🐳

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄Самый главный пост. Что это за канал?

Привет! Я Тагир Хайрутдинов, аналитик в Яндекс Плюс ⚡️, студент НИУ ВШЭ программы «Компьютерная лингвистика» и автор каналов Тагир Анализирует и Журнал «Зарплатник». Раньше я делал аналитику в Альфа-Банке🐤 и в Ozon💙

Раньше этот канал вел Даня Картушов, который теперь пишет много интересного в @persecond300k, а я с недавнего времени — новый владелец и автор этого канала. Сейчас канал проходит этап перестройки, но уже скоро здесь будет интересный регулярный контент

🗣Для кого этот канал?
Вам стоит подписаться, если вы интересуетесь Data Science и технологиями вокруг этой сферы. В канале будут публиковаться посты про применение DS в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Уже скоро в канале выйдут посты про собеседования в FAANG, использование AI для научных работ, realtime-матчинг в одном маркетплейсе и тематические подкасты

🗣Ссылки на соседние каналы
@tagir_analyzes – аналитика, датавиз и новости индустрии
@zarplatnik_analytics – анонимные истории с зарплатами специалистов из аналитики и Data Science
@persecond300k – релизы и новости из AI вместе с обзорами на статьи по RecSys, LLM, System Design
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄Графы в рекомендательных системах [часть 1]

Недавно Даня Картушов писал научную статью с AIRI по графовым рекомендательным системам. В процессе исследования он записывал небольшие черновики про графы, которые теперь хочет превратить в серию статей 💡

Сегодня на Хабре вышла первая статья из этой серии, в которой он рассматривает базовые понятия, концепции и простые модели с их ключевыми особенностями 🙂

Вторую часть напишут ребята из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели 🚀

В статье мне особенно понравились три вещи: отсылка к человеку-пауку, красивые визуализации и супер приятные объяснения – какие-то концепции вообще раскрываются на примере World of Warcraft 😊

Заваривайте чай и переходите читать статью по этой ссылке 🧠

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄Статья, которая чуть не осталась за кулисами

Недавно статья авторов Ravid Shwartz-Ziv и Amitai Armon "Tabular Data: Deep Learning is Not All You Need" достигла более 1000 цитирований. По такому поводу Ravid написал пост, в котором рассказал, как они чуть НЕ не опубликовали статью 🐱

Статья показала, что традиционные методы машинного обучения, такие как XGBoost, часто работают лучше для табличных данных, чем сложные модели глубокого обучения. Авторы столкнулись с проблемой: их выводы казались слишком очевидными, поэтому несколько воркшопов отклонили их работу из-за "недостатка новизны" 😌

Тем не менее, в 2021 году они решили разместить статью на arXiv. Само собой, дальше к ним посыпались предложения от изданий опубликовать их исследование, и статья получила широкое признаний 🐱

В конце поста Ravid отмечает, что даже "очевидные" результаты могут быть важны. Важно делиться всем, что вы находите в своей работе, даже если это кажется простым или уже известным 🙏

Что думаете про этот случай? Часто ли вы бракуете свои идеи из-за того, что они уже были реализованы? 😴😴

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔄Обучаем нейросеть проходить змейку в терминале

Вы когда-нибудь хотели обучить модель проходить змейку? Я — нет, а вот некий Bones-ai в двух проектах показал, как это работает. С помощью генетического алгоритма модель достигает идеальных результатов в змейке, а видео к посту — наглядная визуализация процесса обучения 🪩

В архитектуре нейросети используется 24 инпута. Эти инпуты предоставляют информацию о состоянии окружающей среды и самой змейки, что позволяет модели принимать решения о следующем движении📀

Обучение модели занимает около 30 минут и осуществляется через генетический алгоритм, который эволюционирует популяцию из 1000 агентов, каждый из которых представляет уникальную конфигурацию весов нейросети:

🔗Инициализация популяции: Начальная популяция агентов создаётся с случайными весами.

🔗Оценка производительности: Каждый агент оценивается по его способности собирать пищу и избегать столкновений.

🔗Отбор: Лучшие агенты выбираются для размножения на основе их "приспособленности" — чем дольше агент выживает и чем больше собирает пищи, тем выше его шансы быть выбранным для следующего поколения.

🔗Кроссовер и мутации: Веса выбранных агентов комбинируются и мутируют с небольшой вероятностью (0.1), создавая новое поколение агентов, которое потенциально наследует успешные стратегии своих предшественников.

Если хотите подробнее ознакомиться с проектом, то здесь можно найти его первую версию, здесь — вторую, а вот тут находится тред на Reddit, где автор отвечает на вопросы🖼️

Рассказывайте в комментариях, что вы думаете о таких проектах? Как вы думаете, для чего автору это нужно?🎬

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄Подборка зарубежных мероприятий по Data Science

Принес вам подборку зарубежных школ и мероприятий в аналитике и Data Science. Взял подборку в канале моего товарища @computerscienceabroad, где публикуются подобные подборки об иностранных возможностях – PhD, cтажировки, работы и курсы🌐

Участие в подобных мероприятиях позволяет глубже погрузиться в сферу, обрасти полезными контактами и просто отдохнуть, а может – съездить в командировку🖼

Computational Linguistics Fall School
📌Где: University of Passau, Германия
🕐Когда: September 16 - 27

Data 2030 Summit 2024
📌Где: Стокгольм, Швеция/Онлайн
🕒Когда: 25-26 сентября 2024

Lambda World
📌Где: Кадис, Испания
🕓Когда: 2-4 октября 2024

Machine Learning Week Europe
📌Где: Мюнхен, Германия
🕐Когда: 18-19 ноября 2024

International Workshop on Adaptable, Reliable, and Responsible Learning
📌Где: Абу-Даби, ОАЭ
🕑Когда: 9 декабря 2024

Advanced Language Processing Winter School
📌Где: Centre Paul-Langevin, Франция
🕑Когда: 30 марта - 4 апреля 2025

Подавайте заявки, оформляйте командировки, ставьте реакции китов и записывайтесь на визу, если она вам нужна😁

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄Новый портал для тренировки алгоритмов

У Яндекса все свое. Не Jira, а Трекер. Не Zoom, а Телемост. Ребята даже свой SQL изобрели. А еще недавно они выпустили CodeRunтренажер для решения алгоритмов вдобавок к своему хэндбуку по алгоритмам, о котором я писал здесь 📒

Это аналог Leetcode, который делают наши коллеги из Яндекса. Из плюсов — там есть подборки по машинному обучению, анализу данных и других областей. Еще там есть авторские подборки от сотрудников — от руководителя ШАДа, от чемпиона мира ICPC 2023, от СТО Поиска и других людей 🖥

А еще до 27 августа проходит контест среди участников, где лучшим подарят какие-то призы и фаст-трек на собесы. Очевидно, что такие вещи делаются для найма — если хотите в Яндекс, то можно что-то порешать для тренировки 💻

Из минусов — некоторые люди пишут, что заходят в Easy задачки, ничего не понимают и выходят. Сам я еще не решал, но добавил себе в копилку ресурсов для момента, когда буду снова ботать алгоритмы 🕷

А вы уже решали задачки на CodeRun? Там правда такие сложные задачи? Ставьте реакции китов 🐳 — нас обязательно заметят и сделают еще один сервис под названием Яндекс Кит ✉️

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄Главный миф, который стоит за Leetcode

Вчера я рассказал про аналог Литкода от Яндекса и задумался о том, как люди вообще воспринимают эту площадку. Я часто слышу, как людям, которые хотят заботать алгоритмы, советуют просто решать задачки на Литкоде. Но правильно ли это? 👋

У нас в Вышке был полноценный курс по алгоритмам, на котором мы все разбирали. А насколько вообще эффективно нарешивать задачи, когда у человека нет теоретической базы? 💺

Конечно, можно пару часов посидеть над задачей, заглянуть в обсуждения и еще на полгода забить на Литкод. А можно подойти более фундаментально и набраться теоретической базы 👓

Ведь изначально алгоритмические секции делаются не для того, чтобы проверить, как человек запомнил решение задачи и сколько их он прорешал — компания хочет понимать, что человек будет писать оптимальный код 💃

Можно прослушать на ютубе курс лекций и параллельно решать задачи. А можно воспользоваться хэндбуком от Яндекса — там в формате интерактивного учебника в правильном порядке подаются темы по алгоритмам 💻

Еще можно параллельно смотреть на neetcode.io, где есть подробный роадмэп по задачам — без теории, но хотя бы порядок решения задач/тем будет верным 🔍

Пишите в комментариях, что думаете про необходимость алгоритмических секций на собесах — а нужно ли это вообще? Кто-то пользовался этим хэндбуком от Яндекса? 👀

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄Практикуем математику в формате LeetCode

На некоторых проектах или позициях часто происходит так, что после собеседования необходимость в постоянной тренировке математического аппарата отпадает. Одно дело — заботать задачи к собесу, другое — добровольно решать это, когда нет дедлайна и требований🖍️

Но практиковаться надо. Я нашел парочку сайтов, где в формате LeetCode дают задачи на линейную алгебру, DL и ML, а также теорию вероятности и математическую статистику. Первые 3 блока можно решать здесь, последние два — здесь 📥

На сайтах очень приятный интерфейс с оглядкой на LeetCode — есть деление по категориям сложности [Easy, Medium, Hard]. А еще можно самому коммитить свои задачи 📁

Не уверен, что такие сайты будут пользоваться популярностью, пока математика не станет повсеместным однотипным этапом отбора, как это произошло с алгоритмами и систем дизайном. А что считаете вы? 🖼️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄 Зачем тестировать ML-системы?

Помните, как ребята из Microsoft в 2016 году запустили чат-бота по имени Тау, который обучался в реальном времени, анализируя ответы пользователей и генерируя собственные ответы? 🪟

Вы наверняка помните, что в течение 16 часов после запуска Tay начал генерировать оскорбительные и неприемлемые сообщения, что привело к значительным репутационным потерям для Microsoft. Наверное, на графиках можно отследить снижение капитализации 🔥

Если не хотите быть как Microsoft, рекомендую прочитать Хабр статью о тестировании ML систем — с подводкой, примерами кейсов, мемами, кодом и объяснением различных видов тестов 😵

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
📱 Illuminate by Google: paper to podcast service

Google запустил в экспериментальном формате проект Illuminatetext-to-speech сервис, который превращает научные статьи по computer science в подкаст 🎧

Сначала создаются краткие резюме статей и вопросы-ответы, а потом два сгенерированных AI-голоса — интервьюер и эксперт — разворачивают вокруг статьи короткое интервью (3-7 минут), объясняющее суть работы 🤫

На сайте Google Illuminate уже можно послушать несколько примеров. Можно записаться в waitlist, чтобы получить доступ к самостоятельным генерациям. Я уже там как несколько недель, но доступа еще нет 🤗

Вот несколько примеров генераций:

⚡️Attention Is All You Need: audio, paper
⚡️Chain-of-Thought Prompting Elicits Reasoning in Large Language Models: audio, paper
⚡️Efficient Estimation of Word Representations in Vector Space: audio, paper

Если сервис будет развиваться, мы, вероятно, получим возможность генерировать свой контент без привязки к источникам – сейчас можно загружать статьи только с arXiv. Но и сейчас это отличная возможность получать в понятном формате статьи для прослушивания – например, во время тренировок 🤔

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🎵 Как Spotify ускорил разметку данных для ML в 10 раз

Spotify недавно рассказал, как они ускорили разметку данных для ML-моделей в 10 раз. Главный секрет — использование LLM в сочетании с работой аннотаторов. Модели берут на себя первичную разметку, а люди дорабатывают и проверяют сложные случаи, что дает трехкратный прирост производительности

В стриминговом сервисе, который очень быстро растет, важно уметь создавать масштабируемые решения для снижения костов. Например, этот способ используется для выявления нарушений политики платформы

Их стратегия разметки строится на трех столпах:

⚡️ Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.
⚡️ Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.
⚡️ Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.

Этот подход позволил Spotify запускать десятки проектов одновременно, снизить затраты и сохранить высокую точность. Подробнее узнать об их решении можно в статье на их сайте 🎵

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🤝 Результаты эксперимента «AI Art Turing Test»

В блоге Astral Codex Ten недавно опубликовали результаты эксперимента «AI Art Turing Test». Участникам предлагалось отличить произведения искусства, созданные человеком, от изображений, сгенерированных искусственным интеллектом

Вот некоторые цифры из результатов:

🤝 Средняя точность ответов участников составила примерно 60%
🤝 Только около 5% участников смогли правильно идентифицировать более 75% изображений.
🤝 Примерно 25% участников показали точность ниже 50%
🤝 Некоторые изображения вводили в заблуждение особенно часто: одно из AI generated изображений было идентифицировано как человеческое более чем в 70% случаев.

Подробнее об эксперименте и его выводах можно узнать в оригинальной статье: How Did You Do On The AI Art Turing Test?

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
😃 Kaggle x Child Mind Institute: произошел шейкап

Пару дней назад подвели результаты Kaggle соревнования Child Mind Institute – Problematic Internet Use. Задача – предсказать уровень проблемного использования интернета детьми и подростками, основываясь на их физической активности 😡

Здесь мог бы быть пост о том, как я заслал паблик решение и (чудом) получил серебряную медальку, но получилось еще интереснее: произошел жесткий шейкап. Никогда ведь такого не было – вот тут дискуссия с подобными случаями за 2024 год 🤡

Средний шейкап у людей с призовых мест получился +1750 позиций, а на 2 месте так вовсе есть зеленый гусь из Индии с 2 саббмитами, который по приколу залетел в сореву, отправил пару решений и забил за пару месяцев до конца соревнования 🔘

Решение зеленого гуся из Индии можно посмотреть здесь. Получились довольно легкие $10.000, да? 😇

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
📸 Paragraphica: context-to-image camera

Недавно наткнулся на один интересный арт-проект. Paragraphica — это камера, которая использует данные о местоположении и другие показатели для генерации "фото" места и момента. Вот ключевые моменты:

🖍️Принцип работы: камера анализирует данные о местоположении — адрес, погоду, время суток и близлежащие объекты. На основе этих данных она генерирует текстовое описание текущего места.

🖍️Технология: с помощью AI image synthesis, текстовое описание преобразуется в визуальное изображение. Это не обычное фото, а визуализация данных, отражающая сущность момента и место, в котором вы находитесь.

🖍️ Оборудование: Raspberry Pi 4, 15-дюймовый сенсорный экран, 3D-печатный корпус, индивидуальная электроника.

🖍️Программное обеспечение: Noodl, Python, API Stable Diffusion.

Получился супер любопытный проект. По ссылке можно ознакомиться с подробной статьей в картинках с производства, схемах и других деталях

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🧿 Live: Introduction to Operator & Agents

Только что началась трансляция на YouTube канале OpenAI про фичу оператора.

Трансляция: https://www.youtube.com/watch?v=CSE77wAdDLg

Статья: https://openai.com/index/computer-using-agent/

Reddit: https://www.reddit.com/r/singularity/comments/1i88v45/introduction_to_operator_agents/

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
⌨️ Change of plans: OpenAI edition

Альтман написал, что o3 и o4-mini выйдут через пару недель, а GPT-5 – через несколько месяцев

И это после объявлении об их промо-кампании по раздаче подписок Plus американским и канадским студентам. Выпросили!

Стоит ли ждать релиза за день до LlamaCon, то есть 28 апреля? 😭

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🤖 TidyBot++: применение, статья, код

Ребята написали довольно хороший абстракт с документацией для своего проекта, можно хорошенько залипнуть на целый вечер (и собрать своего робота)

Вот они, слева направо: сайт, статья, GitHub

@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир

Если коротко, десять лет обучения сжали в две часа симуляции-тренировки

А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:

«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»