Собрал для вас подборку из 9 соревнований на Kaggle, к которым еще можно присоединиться. Призовой фонд в каждом из них — от $50.000 до $1.100.000. Некоторые соревнования заканчиваются уже совсем скоро, а некоторые запустили пару дней назад
Вот сами соревнования с ссылками:
Цель: Улучшение алгоритмов оценки эссе для повышения образовательных результатов студентов.
Количество команд: 2694.
Дата завершения: 1 июля 2024.
Цель: Прогнозирование взаимодействий малых молекул с белками с использованием BELKA.
Количество команд: 1835.
Дата завершения: 9 июля 2024.
Цель: Симуляция высокого разрешения атмосферных процессов с использованием климатической модели.
Количество команд: 449.
Дата завершения: 16 июля 2024.
Цель: Помощь патентным специалистам в понимании результатов ИИ через привычный язык запросов.
Количество команд: 315.
Дата завершения: 25 июля 2024.
Цель: Прогнозирование предпочтений пользователей.
Количество команд: 929.
Дата завершения: 29 июля 2024.
Цель: Угадать секретное слово в сотрудничестве.
Количество команд: 362.
Дата завершения: 29 июля 2024.
Цель: Определение рака кожи на обрезанных фотографиях из 3D-снимков всего тела.
Количество команд: 129.
Дата завершения: 29 августа 2024.
Цель: Классификация дегенеративных состояний поясничного отдела позвоночника.
Количество команд: 519.
Дата завершения: 29 сентября 2024.
Цель: Разработка ИИ-систем, способных эффективно осваивать новые навыки и решать открытые задачи без полагания исключительно на обширные наборы данных.
Количество команд: 315.
Дата завершения: 29 октября 2024.
Пишите в комментариях, планируете ли вы участвовать в каком-то из соревнований. Если у вас есть интерес к какому-то из соревнований, я готов подробнее рассказать о нем в отдельном посте. С вас — реакции 🐳
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет! Я Тагир Хайрутдинов, аналитик в Яндекс Плюс
Раньше этот канал вел Даня Картушов, который теперь пишет много интересного в @persecond300k, а я с недавнего времени — новый владелец и автор этого канала. Сейчас канал проходит этап перестройки, но уже скоро здесь будет интересный регулярный контент
Вам стоит подписаться, если вы интересуетесь Data Science и технологиями вокруг этой сферы. В канале будут публиковаться посты про применение DS в компаниях, новости индустрии, рынок труда, мероприятия и другие активности вокруг науки о данных
Уже скоро в канале выйдут посты про собеседования в FAANG, использование AI для научных работ, realtime-матчинг в одном маркетплейсе и тематические подкасты
@tagir_analyzes – аналитика, датавиз и новости индустрии
@zarplatnik_analytics – анонимные истории с зарплатами специалистов из аналитики и Data Science
@persecond300k – релизы и новости из AI вместе с обзорами на статьи по RecSys, LLM, System Design
Please open Telegram to view this post
VIEW IN TELEGRAM
Недавно Даня Картушов писал научную статью с AIRI по графовым рекомендательным системам. В процессе исследования он записывал небольшие черновики про графы, которые теперь хочет превратить в серию статей
Сегодня на Хабре вышла первая статья из этой серии, в которой он рассматривает базовые понятия, концепции и простые модели с их ключевыми особенностями
Вторую часть напишут ребята из WildRecSys, где они расскажут о lightGCN и поделятся своим опытом использования этой модели
В статье мне особенно понравились три вещи: отсылка к человеку-пауку, красивые визуализации и супер приятные объяснения – какие-то концепции вообще раскрываются на примере World of Warcraft
Заваривайте чай и переходите читать статью по этой ссылке
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Недавно статья авторов Ravid Shwartz-Ziv и Amitai Armon "Tabular Data: Deep Learning is Not All You Need" достигла более 1000 цитирований. По такому поводу Ravid написал пост, в котором рассказал, как они чуть НЕ не опубликовали статью
Статья показала, что традиционные методы машинного обучения, такие как XGBoost, часто работают лучше для табличных данных, чем сложные модели глубокого обучения. Авторы столкнулись с проблемой: их выводы казались слишком очевидными, поэтому несколько воркшопов отклонили их работу из-за "недостатка новизны"
Тем не менее, в 2021 году они решили разместить статью на arXiv. Само собой, дальше к ним посыпались предложения от изданий опубликовать их исследование, и статья получила широкое признаний
В конце поста Ravid отмечает, что даже "очевидные" результаты могут быть важны. Важно делиться всем, что вы находите в своей работе, даже если это кажется простым или уже известным
Что думаете про этот случай? Часто ли вы бракуете свои идеи из-за того, что они уже были реализованы?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Вы когда-нибудь хотели обучить модель проходить змейку? Я — нет, а вот некий Bones-ai в двух проектах показал, как это работает. С помощью генетического алгоритма модель достигает идеальных результатов в змейке, а видео к посту — наглядная визуализация процесса обучения
В архитектуре нейросети используется 24 инпута. Эти инпуты предоставляют информацию о состоянии окружающей среды и самой змейки, что позволяет модели принимать решения о следующем движении
Обучение модели занимает около 30 минут и осуществляется через генетический алгоритм, который эволюционирует популяцию из 1000 агентов, каждый из которых представляет уникальную конфигурацию весов нейросети:
Если хотите подробнее ознакомиться с проектом, то здесь можно найти его первую версию, здесь — вторую, а вот тут находится тред на Reddit, где автор отвечает на вопросы
Рассказывайте в комментариях, что вы думаете о таких проектах? Как вы думаете, для чего автору это нужно?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Принес вам подборку зарубежных школ и мероприятий в аналитике и Data Science. Взял подборку в канале моего товарища @computerscienceabroad, где публикуются подобные подборки об иностранных возможностях – PhD, cтажировки, работы и курсы
Участие в подобных мероприятиях позволяет глубже погрузиться в сферу, обрасти полезными контактами и просто отдохнуть, а может – съездить в командировку
Computational Linguistics Fall School
Data 2030 Summit 2024
Lambda World
Machine Learning Week Europe
International Workshop on Adaptable, Reliable, and Responsible Learning
Advanced Language Processing Winter School
Подавайте заявки, оформляйте командировки, ставьте реакции китов и записывайтесь на визу, если она вам нужна
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
У Яндекса все свое. Не Jira, а Трекер. Не Zoom, а Телемост. Ребята даже свой SQL изобрели. А еще недавно они выпустили CodeRun — тренажер для решения алгоритмов вдобавок к своему хэндбуку по алгоритмам, о котором я писал здесь
Это аналог Leetcode, который делают наши коллеги из Яндекса. Из плюсов — там есть подборки по машинному обучению, анализу данных и других областей. Еще там есть авторские подборки от сотрудников — от руководителя ШАДа, от чемпиона мира ICPC 2023, от СТО Поиска и других людей
А еще до 27 августа проходит контест среди участников, где лучшим подарят какие-то призы и фаст-трек на собесы. Очевидно, что такие вещи делаются для найма — если хотите в Яндекс, то можно что-то порешать для тренировки
Из минусов — некоторые люди пишут, что заходят в Easy задачки, ничего не понимают и выходят. Сам я еще не решал, но добавил себе в копилку ресурсов для момента, когда буду снова ботать алгоритмы
А вы уже решали задачки на CodeRun? Там правда такие сложные задачи? Ставьте реакции китов
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Вчера я рассказал про аналог Литкода от Яндекса и задумался о том, как люди вообще воспринимают эту площадку. Я часто слышу, как людям, которые хотят заботать алгоритмы, советуют просто решать задачки на Литкоде. Но правильно ли это?
У нас в Вышке был полноценный курс по алгоритмам, на котором мы все разбирали. А насколько вообще эффективно нарешивать задачи, когда у человека нет теоретической базы?
Конечно, можно пару часов посидеть над задачей, заглянуть в обсуждения и еще на полгода забить на Литкод. А можно подойти более фундаментально и набраться теоретической базы
Ведь изначально алгоритмические секции делаются не для того, чтобы проверить, как человек запомнил решение задачи и сколько их он прорешал — компания хочет понимать, что человек будет писать оптимальный код
Можно прослушать на ютубе курс лекций и параллельно решать задачи. А можно воспользоваться хэндбуком от Яндекса — там в формате интерактивного учебника в правильном порядке подаются темы по алгоритмам
Еще можно параллельно смотреть на neetcode.io, где есть подробный роадмэп по задачам — без теории, но хотя бы порядок решения задач/тем будет верным
Пишите в комментариях, что думаете про необходимость алгоритмических секций на собесах — а нужно ли это вообще? Кто-то пользовался этим хэндбуком от Яндекса?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
На некоторых проектах или позициях часто происходит так, что после собеседования необходимость в постоянной тренировке математического аппарата отпадает. Одно дело — заботать задачи к собесу, другое — добровольно решать это, когда нет дедлайна и требований
Но практиковаться надо. Я нашел парочку сайтов, где в формате LeetCode дают задачи на линейную алгебру, DL и ML, а также теорию вероятности и математическую статистику. Первые 3 блока можно решать здесь, последние два — здесь
На сайтах очень приятный интерфейс с оглядкой на LeetCode — есть деление по категориям сложности [Easy, Medium, Hard]. А еще можно самому коммитить свои задачи
Не уверен, что такие сайты будут пользоваться популярностью, пока математика не станет повсеместным однотипным этапом отбора, как это произошло с алгоритмами и систем дизайном. А что считаете вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
Помните, как ребята из Microsoft в 2016 году запустили чат-бота по имени Тау, который обучался в реальном времени, анализируя ответы пользователей и генерируя собственные ответы?
Вы наверняка помните, что в течение 16 часов после запуска Tay начал генерировать оскорбительные и неприемлемые сообщения, что привело к значительным репутационным потерям для Microsoft. Наверное, на графиках можно отследить снижение капитализации
Если не хотите быть как Microsoft, рекомендую прочитать Хабр статью о тестировании ML систем — с подводкой, примерами кейсов, мемами, кодом и объяснением различных видов тестов
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Google запустил в экспериментальном формате проект Illuminate – text-to-speech сервис, который превращает научные статьи по computer science в подкаст
Сначала создаются краткие резюме статей и вопросы-ответы, а потом два сгенерированных AI-голоса — интервьюер и эксперт — разворачивают вокруг статьи короткое интервью (3-7 минут), объясняющее суть работы
На сайте Google Illuminate уже можно послушать несколько примеров. Можно записаться в waitlist, чтобы получить доступ к самостоятельным генерациям. Я уже там как несколько недель, но доступа еще нет
Вот несколько примеров генераций:
Если сервис будет развиваться, мы, вероятно, получим возможность генерировать свой контент без привязки к источникам – сейчас можно загружать статьи только с arXiv. Но и сейчас это отличная возможность получать в понятном формате статьи для прослушивания – например, во время тренировок
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Spotify недавно рассказал, как они ускорили разметку данных для ML-моделей в 10 раз. Главный секрет — использование LLM в сочетании с работой аннотаторов. Модели берут на себя первичную разметку, а люди дорабатывают и проверяют сложные случаи, что дает трехкратный прирост производительности
В стриминговом сервисе, который очень быстро растет, важно уметь создавать масштабируемые решения для снижения костов. Например, этот способ используется для выявления нарушений политики платформы
Их стратегия разметки строится на трех столпах:
Этот подход позволил Spotify запускать десятки проектов одновременно, снизить затраты и сохранить высокую точность. Подробнее узнать об их решении можно в статье на их сайте
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
В блоге Astral Codex Ten недавно опубликовали результаты эксперимента «AI Art Turing Test». Участникам предлагалось отличить произведения искусства, созданные человеком, от изображений, сгенерированных искусственным интеллектом
Вот некоторые цифры из результатов:
Подробнее об эксперименте и его выводах можно узнать в оригинальной статье: How Did You Do On The AI Art Turing Test?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Пару дней назад подвели результаты Kaggle соревнования Child Mind Institute – Problematic Internet Use. Задача – предсказать уровень проблемного использования интернета детьми и подростками, основываясь на их физической активности
Здесь мог бы быть пост о том, как я заслал паблик решение и (чудом) получил серебряную медальку, но получилось еще интереснее: произошел жесткий шейкап. Никогда ведь такого не было – вот тут дискуссия с подобными случаями за 2024 год
Средний шейкап у людей с призовых мест получился +1750 позиций, а на 2 месте так вовсе есть зеленый гусь из Индии с 2 саббмитами, который по приколу залетел в сореву, отправил пару решений и забил за пару месяцев до конца соревнования
Решение зеленого гуся из Индии можно посмотреть здесь. Получились довольно легкие $10.000, да?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно наткнулся на один интересный арт-проект. Paragraphica — это камера, которая использует данные о местоположении и другие показатели для генерации "фото" места и момента. Вот ключевые моменты:
Получился супер любопытный проект. По ссылке можно ознакомиться с подробной статьей в картинках с производства, схемах и других деталях
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Только что началась трансляция на YouTube канале OpenAI про фичу оператора.
Трансляция: https://www.youtube.com/watch?v=CSE77wAdDLg
Статья: https://openai.com/index/computer-using-agent/
Reddit: https://www.reddit.com/r/singularity/comments/1i88v45/introduction_to_operator_agents/
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Introduction to Operator & Agents
Begins at 10am PT
Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.
Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.
Альтман написал, что o3 и o4-mini выйдут через пару недель, а GPT-5 – через несколько месяцев
И это после объявлении об их промо-кампании по раздаче подписок Plus американским и канадским студентам. Выпросили!
Стоит ли ждать релиза за день до LlamaCon, то есть 28 апреля?
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Ребята написали довольно хороший абстракт с документацией для своего проекта, можно хорошенько залипнуть на целый вечер (и собрать своего робота)
Вот они, слева направо: сайт, статья, GitHub
@notedatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир
Если коротко, десять лет обучения сжали в две часа симуляции-тренировки
А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:
«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»
Если коротко, десять лет обучения сжали в две часа симуляции-тренировки
А еще, оказалось, что маленькая модель прекрасно справляется с движениями кожаных:
«В модели полтора миллиона параметров, а не миллиард, чтобы повторить подсознительные процессы человеческого тела»