Small Data Science for Russian Adventurers
11.3K subscribers
307 photos
3 videos
13 files
708 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
Download Telegram
#интересно
Более 10 лет назад была создана платформа для соревнований в анализе данных DrivenData - она поставила своей целью приспособить DS в первую очередь для блага общества (а не для выгоды коммерческих компаний). Недавно у них был юбилей, и они в своём блоге сделали очень неплохой пост, в котором подвели итоги 10-летней деятельности, описали удачи и проблемы.

https://drivendata.co/blog/10-years-of-data-science-for-social-good
👍4012🤡2🆒1
#таланты
Если кто-то умеет и хочет попридумывать задачки в стиле современных олимпиад по ИИ для школьников, то можно помочь Саше Гущину отобрать таланты в этом году.

Подробности по ссылке:
https://t.me/aguschin_ai/113
👍12🔥32
#книга
Илья Шпигорь Искусственный интеллект в стратегических играх

Выложена на leanpub в открытом доступе. Мне в целом понравилась, что-то подобное искал и нашёл.

+ есть история исследования игр и логического перебора,
+ повествование доходит до AlphaZero и современных игровых движков,
+ попутно разбираются концепции машинного обучения,
- кажется, что некоторые концепции типа альфа-бета отсечений стоило бы разобрать подробнее,
- широта повествования может быть неудобна начинающим (например, объясняются свёрточные сети на задачах с картинками и тут же рассказывается, где они применяются в играх).

https://leanpub.com/ai-in-strategy-games
42👍21🔥32
#полезно
Очень классный источник обзорных статей с красивыми визуализациями от одного из авторов книги "Hands-On Large Language Models". Есть обзоры по LLM-агентам, рассуждающим моделям, смеси экспертов, квантованию, моделе Mamba.

https://newsletter.maartengrootendorst.com
👍599🥰5❤‍🔥2
#визуализация
Игра, в которой по картинке надо догадаться, что на ней изображено.
https://www.graphs.world

Когда я составлял свою книжку, такие задачи даже не рассматривал, думая, что интересно вряд ли получится. Теперь можно посмотреть, как получилось у других.
31👍15🗿6🔥2😭1
#математика
Лемма о малом искажении (Джонсона – Линденштрауса) утверждает, что множество точек многомерного пространства можно отобразить в пространство меньшей размерности так, что расстояния между точками почти не изменятся. Интересно, что этого можно добиться ортогональными проекциями.

Этот красивый результат упоминается даже в помощи sklearn, а доказательство можно найти в книге Roman Vershynin
«High-Dimensional Probability An Introduction with Applications in Data Science» (кстати, скоро выходит 2е издание).

П.С. Картинка к посту из материалов Джефри Гордона.
🔥64👍20🤔31
#визуализация
Интересная подборка визуализаций - порфолио Сантьяго Ортиза. Например, есть визуализация распределений вероятностей при генерации текстов с помощью языковых моделей.

https://moebio.com/
👍18🔥16
#книга
Хэйвилл Дж. «Замечательные математические кривые»

Математика для фанатов (и только для них, тут не будет кода или приложений) уровня студентов первых курсов. Я ожидал некоторую энциклопедию по всем кривым. Здесь скорее набор обзорных глав, каждая посвящена конкретной теме: эллиптические кривые, Безье, заполняющие пространство. Написано интересно, есть классные истории (некоторые ещё ниже напишу), вот на картинке одна из них.
🤯38👍21🔥157😁3😍1😎1
#соревнование
Обзор международных соревнований в DS за прошлый год: на каких платформах, что используют победители, какие конкурсы проходят и т.п. Такие отчёты каждый год выходят (но тут ни разу ссылок на них не давал).
https://mlcontests.com/state-of-machine-learning-competitions-2024/
42👍10🔥71🦄1
🚀 Уважаемые коллеги, кому интересна математика и машинное обучение, приглашаем Вас принять участие в неформальном научном проекте.

Мы разрабатываем новые методы и опен-соурс библиотеку CayleyPy, которая на основе МЛ/РЛ методов позволяет решить математические задачи, которые были не доступны ранее. Как пример наша система уже по всем параметрам на порядки превсходит аналогичные методы в системе компьютерной алгебры GAP (де-факто стандарт) - использующую алгоритмы доработанные самим Д. Кнутом.

Если у Вас желание поучаствовать в проекте, есть знание Питона и несколько свободных часов в неделю - то присоединяйтесь к нам - при активной работе - Вы будете соавтором научных публикаций. (Напишите @alexander_v_c - к.ф.-м.н. Александр Червов).

Краткая суть задачи может быть описана несколькими способами - нахождение пути на графе размером 10^20-10^200 (из-за размера обычные методы не применимы - только МЛ/РЛ). Решение пазла типа кубика Рубика, задача сортировки, математически - разложение элемента группы по образующим - все это в реальности одна и та же задача. Задача близка к прошедшему конкурсу Каггл Санта 2023. Более общо - это задача планирования - типичная для реинфорсмент ленинг - спланировать действия так чтобы кумулятивный эффект давал лучший результат - управлением манипулятором робота, системы АльфаГо, АльфаТензор, успех DeepSeek - это задачи - тесно связанные с тем, что мы делаем.

А зачем это нужно биологам ? А чтобы превращать людей в мышей ))) (А капусту в репу). Так назвал свои статьи известный биоинформатик П.Певзнер - оказывается эволюционная дистанция - соответствует дистанции на определенных графах - и наша цель улучшить ее оценку через МЛ/РЛ. Зачем нужно нужно в сетях - задержка сигнала (latency) сети определяется диаметром сети - оценка диаметра графов - одна из наших целей. В теории квантовых вычислений тоже нужны подобные графы и приложения этим не ограничены. И, кроме того, а знаете чем знаменит Билл Гейтс ?)) Он отлично сортировал блины ! Наша задача - побить его - через МЛ/РЛ)))

В нашем коллективе есть профессора математики, Каггл градмастеры, и легендарные иностранные специалисты - Tomas Rokicki , Herbert Kociemba - Вам будет у кого поучиться.

Подробнее о проекте вы можете узнать в наших статьях https://arxiv.org/abs/2502.18663 https://arxiv.org/abs/2502.13266 и в нашей группе https://t.me/sberlogasci/1 и СТАВЬТЕ СТАРС (звездочки) на наш гитхаб: https://github.com/cayleypy/cayleypy
🔥47❤‍🔥148💩6👍5🙏2