Блог о Data Science 💻 – Telegram

Блог о Data Science 💻

@notedatascience

4.17K subscribers

75 photos

4 videos

21 files

115 links

Работаю аналитиком в Яндексе, учусь NLP в Вышке и веду этот канал про применение Data Science в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Чат канала: t.me/notedatasciencechat

Автор: @travelwithtagir

Download Telegram

About

Blog

Apps

Platform

Блог о Data Science 💻

4.17K subscribers

Блог о Data Science 💻

🔄

Самый главный пост. Что это за канал?

Привет! Я Тагир Хайрутдинов, аналитик в Яндекс Плюс ⚡️, студент НИУ ВШЭ программы «Компьютерная лингвистика» и автор каналов Тагир Анализирует и Журнал «Зарплатник». Раньше я делал аналитику в Альфа-Банке🐤 и в Ozon💙

Раньше этот канал вел Даня Картушов, который теперь пишет много интересного в @persecond300k, а я с недавнего времени — новый владелец и автор этого канала. Сейчас канал проходит этап перестройки, но уже скоро здесь будет интересный регулярный контент

🗣

Для кого этот канал?
Вам стоит подписаться, если вы интересуетесь Data Science и технологиями вокруг этой сферы. В канале будут публиковаться посты про применение DS в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных

Уже скоро в канале выйдут посты про собеседования в FAANG, использование AI для научных работ, realtime-матчинг в одном маркетплейсе и тематические подкасты

🗣

Ссылки на соседние каналы
@tagir_analyzes – аналитика, датавиз и новости индустрии
@zarplatnik_analytics – анонимные истории с зарплатами специалистов из аналитики и Data Science
@persecond300k – релизы и новости из AI вместе с обзорами на статьи по RecSys, LLM, System Design

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥29❤7⚡6😢3

2.61K viewsTagir [БОЛЕЮ], edited 06:30

Блог о Data Science 💻

🔄

Графы в рекомендательных системах [часть 1]

Недавно Даня Картушов писал научную статью с AIRI по графовым рекомендательным системам. В процессе исследования он записывал небольшие черновики про графы, которые теперь хочет превратить в серию статей

💡

Сегодня на Хабре вышла первая статья из этой серии, в которой он рассматривает базовые понятия, концепции и простые модели с их ключевыми особенностями 🙂

Вторую часть напишут ребята из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели 🚀

В статье мне особенно понравились три вещи: отсылка к человеку-пауку, красивые визуализации и супер приятные объяснения – какие-то концепции вообще раскрываются на примере World of Warcraft 😊

Заваривайте чай и переходите читать статью по этой ссылке

🧠

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17❤‍🔥4❤3⚡3

2.65K viewsTagir [БОЛЕЮ], edited 17:41

Блог о Data Science 💻

🔄

Статья, которая чуть не осталась за кулисами

Недавно статья авторов Ravid Shwartz-Ziv и Amitai Armon "Tabular Data: Deep Learning is Not All You Need" достигла более 1000 цитирований. По такому поводу Ravid написал пост, в котором рассказал, как они чуть НЕ не опубликовали статью 🐱

Статья показала, что традиционные методы машинного обучения, такие как XGBoost, часто работают лучше для табличных данных, чем сложные модели глубокого обучения. Авторы столкнулись с проблемой: их выводы казались слишком очевидными, поэтому несколько воркшопов отклонили их работу из-за "недостатка новизны" 😌

Тем не менее, в 2021 году они решили разместить статью на arXiv. Само собой, дальше к ним посыпались предложения от изданий опубликовать их исследование, и статья получила широкое признаний 🐱

В конце поста Ravid отмечает, что даже "очевидные" результаты могут быть важны. Важно делиться всем, что вы находите в своей работе, даже если это кажется простым или уже известным 🙏

Что думаете про этот случай? Часто ли вы бракуете свои идеи из-за того, что они уже были реализованы? 😴

😴

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡15🐳5❤‍🔥2

2.35K viewsTagir [БОЛЕЮ], edited 15:26

Блог о Data Science 💻

This media is not supported in your browser

VIEW IN TELEGRAM

🔄

Обучаем нейросеть проходить змейку в терминале

Вы когда-нибудь хотели обучить модель проходить змейку? Я — нет, а вот некий Bones-ai в двух проектах показал, как это работает. С помощью генетического алгоритма модель достигает идеальных результатов в змейке, а видео к посту — наглядная визуализация процесса обучения 🪩

В архитектуре нейросети используется 24 инпута. Эти инпуты предоставляют информацию о состоянии окружающей среды и самой змейки, что позволяет модели принимать решения о следующем движении📀

Обучение модели занимает около 30 минут и осуществляется через генетический алгоритм, который эволюционирует популяцию из 1000 агентов, каждый из которых представляет уникальную конфигурацию весов нейросети:

🔗

Инициализация популяции: Начальная популяция агентов создаётся с случайными весами.

🔗

Оценка производительности: Каждый агент оценивается по его способности собирать пищу и избегать столкновений.

🔗

Отбор: Лучшие агенты выбираются для размножения на основе их "приспособленности" — чем дольше агент выживает и чем больше собирает пищи, тем выше его шансы быть выбранным для следующего поколения.

🔗

Кроссовер и мутации: Веса выбранных агентов комбинируются и мутируют с небольшой вероятностью (0.1), создавая новое поколение агентов, которое потенциально наследует успешные стратегии своих предшественников.

Если хотите подробнее ознакомиться с проектом, то здесь можно найти его первую версию, здесь — вторую, а вот тут находится тред на Reddit, где автор отвечает на вопросы🖼️

Рассказывайте в комментариях, что вы думаете о таких проектах? Как вы думаете, для чего автору это нужно?🎬

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳11❤7⚡1

7.08K viewsTagir [БОЛЕЮ], edited 09:42

Блог о Data Science 💻

🔄

Подборка зарубежных мероприятий по Data Science

Принес вам подборку зарубежных школ и мероприятий в аналитике и Data Science. Взял подборку в канале моего товарища @computerscienceabroad, где публикуются подобные подборки об иностранных возможностях – PhD, cтажировки, работы и курсы🌐

Участие в подобных мероприятиях позволяет глубже погрузиться в сферу, обрасти полезными контактами и просто отдохнуть, а может – съездить в командировку🖼

Computational Linguistics Fall School
📌Где: University of Passau, Германия
🕐Когда: September 16 - 27

Data 2030 Summit 2024
📌Где: Стокгольм, Швеция/Онлайн
🕒Когда: 25-26 сентября 2024

Lambda World
📌Где: Кадис, Испания
🕓Когда: 2-4 октября 2024

Machine Learning Week Europe
📌Где: Мюнхен, Германия
🕐Когда: 18-19 ноября 2024

International Workshop on Adaptable, Reliable, and Responsible Learning
📌Где: Абу-Даби, ОАЭ
🕑Когда: 9 декабря 2024

Advanced Language Processing Winter School
📌Где: Centre Paul-Langevin, Франция
🕑Когда: 30 марта - 4 апреля 2025

Подавайте заявки, оформляйте командировки, ставьте реакции китов и записывайтесь на визу, если она вам нужна😁

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳11❤3⚡3

3.53K viewsTagir, edited 17:12

Блог о Data Science 💻

🔄

Новый портал для тренировки алгоритмов

У Яндекса все свое. Не Jira, а Трекер. Не Zoom, а Телемост. Ребята даже свой SQL изобрели. А еще недавно они выпустили CodeRun — тренажер для решения алгоритмов вдобавок к своему хэндбуку по алгоритмам, о котором я писал здесь

📒

Это аналог Leetcode, который делают наши коллеги из Яндекса. Из плюсов — там есть подборки по машинному обучению, анализу данных и других областей. Еще там есть авторские подборки от сотрудников — от руководителя ШАДа, от чемпиона мира ICPC 2023, от СТО Поиска и других людей 🖥

А еще до 27 августа проходит контест среди участников, где лучшим подарят какие-то призы и фаст-трек на собесы. Очевидно, что такие вещи делаются для найма — если хотите в Яндекс, то можно что-то порешать для тренировки 💻

Из минусов — некоторые люди пишут, что заходят в Easy задачки, ничего не понимают и выходят. Сам я еще не решал, но добавил себе в копилку ресурсов для момента, когда буду снова ботать алгоритмы 🕷

А вы уже решали задачки на CodeRun? Там правда такие сложные задачи? Ставьте реакции китов 🐳 — нас обязательно заметят и сделают еще один сервис под названием Яндекс Кит ✉️

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

50🐳27🔥3❤‍🔥2❤1⚡1

4.22K viewsTagir, edited 10:09

Блог о Data Science 💻

🔄

Главный миф, который стоит за Leetcode

Вчера я рассказал про аналог Литкода от Яндекса и задумался о том, как люди вообще воспринимают эту площадку. Я часто слышу, как людям, которые хотят заботать алгоритмы, советуют просто решать задачки на Литкоде. Но правильно ли это? 👋

У нас в Вышке был полноценный курс по алгоритмам, на котором мы все разбирали. А насколько вообще эффективно нарешивать задачи, когда у человека нет теоретической базы? 💺

Конечно, можно пару часов посидеть над задачей, заглянуть в обсуждения и еще на полгода забить на Литкод. А можно подойти более фундаментально и набраться теоретической базы 👓

Ведь изначально алгоритмические секции делаются не для того, чтобы проверить, как человек запомнил решение задачи и сколько их он прорешал — компания хочет понимать, что человек будет писать оптимальный код

💃

Можно прослушать на ютубе курс лекций и параллельно решать задачи. А можно воспользоваться хэндбуком от Яндекса — там в формате интерактивного учебника в правильном порядке подаются темы по алгоритмам 💻

Еще можно параллельно смотреть на neetcode.io, где есть подробный роадмэп по задачам — без теории, но хотя бы порядок решения задач/тем будет верным 🔍

Пишите в комментариях, что думаете про необходимость алгоритмических секций на собесах — а нужно ли это вообще? Кто-то пользовался этим хэндбуком от Яндекса? 👀

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

51⚡15❤6🐳3🔥2❤‍🔥1

4.28K viewsTagir, 14:02

Блог о Data Science 💻

🔄

Практикуем математику в формате LeetCode

На некоторых проектах или позициях часто происходит так, что после собеседования необходимость в постоянной тренировке математического аппарата отпадает. Одно дело — заботать задачи к собесу, другое — добровольно решать это, когда нет дедлайна и требований🖍️

Но практиковаться надо. Я нашел парочку сайтов, где в формате LeetCode дают задачи на линейную алгебру, DL и ML, а также теорию вероятности и математическую статистику. Первые 3 блока можно решать здесь, последние два — здесь

📥

На сайтах очень приятный интерфейс с оглядкой на LeetCode — есть деление по категориям сложности [Easy, Medium, Hard]. А еще можно самому коммитить свои задачи 📁

Не уверен, что такие сайты будут пользоваться популярностью, пока математика не станет повсеместным однотипным этапом отбора, как это произошло с алгоритмами и систем дизайном. А что считаете вы? 🖼️

Please open Telegram to view this post

VIEW IN TELEGRAM

51🐳13❤‍🔥3⚡2❤1

5.14K viewsTagir, 09:10

Блог о Data Science 💻

🔄

Зачем тестировать ML-системы?

Помните, как ребята из Microsoft в 2016 году запустили чат-бота по имени Тау, который обучался в реальном времени, анализируя ответы пользователей и генерируя собственные ответы? 🪟

Вы наверняка помните, что в течение 16 часов после запуска Tay начал генерировать оскорбительные и неприемлемые сообщения, что привело к значительным репутационным потерям для Microsoft. Наверное, на графиках можно отследить снижение капитализации 🔥

Если не хотите быть как Microsoft, рекомендую прочитать Хабр статью о тестировании ML систем — с подводкой, примерами кейсов, мемами, кодом и объяснением различных видов тестов 😵

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

1⚡9❤4🔥4❤‍🔥1

4.27K viewsTagir, 19:35

Блог о Data Science 💻

📱

Illuminate by Google: paper to podcast service

Google запустил в экспериментальном формате проект Illuminate – text-to-speech сервис, который превращает научные статьи по computer science в подкаст 🎧

Сначала создаются краткие резюме статей и вопросы-ответы, а потом два сгенерированных AI-голоса — интервьюер и эксперт — разворачивают вокруг статьи короткое интервью (3-7 минут), объясняющее суть работы 🤫

На сайте Google Illuminate уже можно послушать несколько примеров. Можно записаться в waitlist, чтобы получить доступ к самостоятельным генерациям. Я уже там как несколько недель, но доступа еще нет 🤗

Вот несколько примеров генераций:

⚡️Attention Is All You Need: audio, paper
⚡️Chain-of-Thought Prompting Elicits Reasoning in Large Language Models: audio, paper
⚡️Efficient Estimation of Word Representations in Vector Space: audio, paper

Если сервис будет развиваться, мы, вероятно, получим возможность генерировать свой контент без привязки к источникам – сейчас можно загружать статьи только с arXiv. Но и сейчас это отличная возможность получать в понятном формате статьи для прослушивания – например, во время тренировок 🤔

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

1🐳13🔥8❤2👨‍💻1

4.25K viewsTagir, 07:01

Блог о Data Science 💻

🎵

Как Spotify ускорил разметку данных для ML в 10 раз

Spotify недавно рассказал, как они ускорили разметку данных для ML-моделей в 10 раз. Главный секрет — использование LLM в сочетании с работой аннотаторов. Модели берут на себя первичную разметку, а люди дорабатывают и проверяют сложные случаи, что дает трехкратный прирост производительности

В стриминговом сервисе, который очень быстро растет, важно уметь создавать масштабируемые решения для снижения костов. Например, этот способ используется для выявления нарушений политики платформы

Их стратегия разметки строится на трех столпах:

⚡️

Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.

⚡️

Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.

⚡️

Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно.

Этот подход позволил Spotify запускать десятки проектов одновременно, снизить затраты и сохранить высокую точность. Подробнее узнать об их решении можно в статье на их сайте

🎵

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤‍🔥12❤3⚡3

3.87K viewsTagir, 14:06

Блог о Data Science 💻

🤝

Результаты эксперимента «AI Art Turing Test»

В блоге Astral Codex Ten недавно опубликовали результаты эксперимента «AI Art Turing Test». Участникам предлагалось отличить произведения искусства, созданные человеком, от изображений, сгенерированных искусственным интеллектом

Вот некоторые цифры из результатов:

🤝 Средняя точность ответов участников составила примерно 60%
🤝 Только около 5% участников смогли правильно идентифицировать более 75% изображений.
🤝 Примерно 25% участников показали точность ниже 50%
🤝 Некоторые изображения вводили в заблуждение особенно часто: одно из AI generated изображений было идентифицировано как человеческое более чем в 70% случаев.

Подробнее об эксперименте и его выводах можно узнать в оригинальной статье: How Did You Do On The AI Art Turing Test?

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥7❤4⚡2

4.47K views[ОТПУСК] Tagir, 21:58

Блог о Data Science 💻

😃

Kaggle x Child Mind Institute: произошел шейкап

Пару дней назад подвели результаты Kaggle соревнования Child Mind Institute – Problematic Internet Use. Задача – предсказать уровень проблемного использования интернета детьми и подростками, основываясь на их физической активности 😡

Здесь мог бы быть пост о том, как я заслал паблик решение и (чудом) получил серебряную медальку, но получилось еще интереснее: произошел жесткий шейкап. Никогда ведь такого не было – вот тут дискуссия с подобными случаями за 2024 год 🤡

Средний шейкап у людей с призовых мест получился +1750 позиций, а на 2 месте так вовсе есть зеленый гусь из Индии с 2 саббмитами, который по приколу залетел в сореву, отправил пару решений и забил за пару месяцев до конца соревнования 🔘

Решение зеленого гуся из Индии можно посмотреть здесь. Получились довольно легкие $10.000, да? 😇

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🐳12🔥4❤1🏆1

3.72K viewsTagir, 19:15

Блог о Data Science 💻

This media is not supported in your browser

VIEW IN TELEGRAM

📸

Paragraphica: context-to-image camera

Недавно наткнулся на один интересный арт-проект. Paragraphica — это камера, которая использует данные о местоположении и другие показатели для генерации "фото" места и момента. Вот ключевые моменты:

🖍️

Принцип работы: камера анализирует данные о местоположении — адрес, погоду, время суток и близлежащие объекты. На основе этих данных она генерирует текстовое описание текущего места.

🖍️

Технология: с помощью AI image synthesis, текстовое описание преобразуется в визуальное изображение. Это не обычное фото, а визуализация данных, отражающая сущность момента и место, в котором вы находитесь.

🖍️

Оборудование: Raspberry Pi 4, 15-дюймовый сенсорный экран, 3D-печатный корпус, индивидуальная электроника.

🖍️

Программное обеспечение: Noodl, Python, API Stable Diffusion.

Получился супер любопытный проект. По ссылке можно ознакомиться с подробной статьей в картинках с производства, схемах и других деталях

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤‍🔥10🔥3🐳3

4.08K viewsTagir, 19:01

Блог о Data Science 💻

🧿

Live: Introduction to Operator & Agents

Только что началась трансляция на YouTube канале OpenAI про фичу оператора.

Трансляция: https://www.youtube.com/watch?v=CSE77wAdDLg

Статья: https://openai.com/index/computer-using-agent/

Reddit: https://www.reddit.com/r/singularity/comments/1i88v45/introduction_to_operator_agents/

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

Introduction to Operator & Agents

Begins at 10am PT

Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.

🐳4❤‍🔥2⚡1

4.64K viewsTagir, edited 18:01

Блог о Data Science 💻

⌨️

Change of plans: OpenAI edition

Альтман написал, что o3 и o4-mini выйдут через пару недель, а GPT-5 – через несколько месяцев

И это после объявлении об их промо-кампании по раздаче подписок Plus американским и канадским студентам. Выпросили!

Стоит ли ждать релиза за день до LlamaCon, то есть 28 апреля? 😭

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡9❤2😢2🐳1

3.63K viewsTagir, 15:13

Блог о Data Science 💻

Media is too big

VIEW IN TELEGRAM

🤖

TidyBot++: применение, статья, код

Ребята написали довольно хороший абстракт с документацией для своего проекта, можно хорошенько залипнуть на целый вечер (и собрать своего робота)

Вот они, слева направо: сайт, статья, GitHub

@notedatascience

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3🐳2❤1

2.28K views21:15

Блог о Data Science 💻

Forwarded from Denis Sexy IT 🤖

This media is not supported in your browser

VIEW IN TELEGRAM

NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир

Если коротко, десять лет обучения сжали в две часа симуляции-тренировки

А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:

«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»

🔥8🐳6❤2

1.66K views16:34

Блог о Data Science 💻

Forwarded from Рисерчошная

yandex/yambda · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

💬

Yet another dataset?

Сегодня — честный обзор на уже захайпленный датасет.
Если вы когда-либо занимались ресерчем в рексисе, то точно сталкивались с проблемами датасетов.
(Можно вспомнить классическую статью Are We Really Making Much Progress?)

Сначала — немного боли из прошлого:
— гигантский гэп между train и test
— однотипный фидбек
— отсутствие разнообразия пользовательских паттернов

И это всё — на фоне постоянных споров в академии про то, что вообще считается хорошим датасетом.

Даже если вы соберёте SOTA-модель — она может просто не «прокраситься» на кривом сете.
Ну серьёзно, в том же MovieLens test отстоит от train на несколько лет.

И вот — датасет от Яндекс Музыки.
Огромный:

⭐

4.78 млрд взаимодействий

⭐

9.39 млн треков

⭐

1 млн пользователей
⭐ и впервые — флаг is_organic, который показывает:
пришёл ли пользователь к треку сам или его привёл алгоритм

С одной стороны — это прям must-have для исследовательского пула.
Многоуровневый фидбек:
⭐ implicit (прослушивания)
⭐ explicit (лайки, дизлайки, отмены)

Даже эмбеддинги спектрограмм есть.

А ещё — продуманный split:
⭐ leave-one-last
⭐ temporal global
(приложу картинку в комментах — очень в тему для продовой оценки)

По сравнению с Netflix, Steam и прочими — это реально большой и комплексный датасет.

Я бы еще упомянул о бенчмарках и красивом коде куда на мой взгляд легко интегрировать свои решения.

Один момент, о котором почти никто не говорит — это домен.

Яндекс Музыка — это, как и TikTok, продукт с ярко выраженными короткими и длинными предпочтениями.
Здесь трансформеры можно не просто тестировать — здесь они раскрываются.

Но. Доверяй, но проверяй.
👀 Насколько честно размечена органика?
👀 Подходит ли датасет для cold-start задач?
👀 Для многих экспериментов вокруг LLM, мне бы хотелось увидеть больше фичей о пользователях, да и в целом фичей. (btw я понимаю, из-за чего их не включают)

Спасибо ребятам из Яндекса за такой летний подгон.
Реально мощный вклад в сообщество, действительно мало компаний могут себе это позволить.

➡️

Hugging Face и arxiv

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🐳5⚡3

1.35K views12:10