(sci)Berloga Всех Наук и Технологий
7.21K subscribers
238 photos
3 videos
1 file
291 links
Мультидисциплинарный канал о науке и технологиях.
Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science.

@sberlogabio био и дата сайнс
@sberlogasci математика, физика и ДС

https://www.youtube.com/c/SciBerloga
Download Telegram
3 июля - пройдёт бесплатная онлайн-конференция DataStart по Data Science, машинному обучению и нейросетям. Вас ждут увлекательные доклады, море дискуссий и нетворкинга. Скорей регистрируйтесь - clck.ru/kPirN

Более 1000 участников, крутой состав спикеров, возможность задавать вопросы, найти ментора и многое другое. 🔥

Что будет:
- 2 трека, 16 часов докладов;
- годнота от талантливых практиков;
- нетворкинг;
- высокий уровень программы;
- бесплатная онлайн-трансляция;
- видеозаписи и презентации;
- высокий уровень программы.

Для кого:
- Data Scientist, Data Analyst и Data Engineer.
- Computer Vision Engineer и NLP Engineer.
- Machine Learning Engineer.
- Руководителям бизнеса.

Кейсы, практика и четкие схемы, которые вы можете применить уже сегодня. То, что актуально прямо сейчас. Знания, которые можно внедрить в любой бизнес, и при возможности масштабировать.

Встречаемся 3 июля - https://clck.ru/kPirN. Трансляция будет бесплатной, но если вы хотите купить видеозаписи, то воспользуйтесь промокодом специально для наших подписчиков: Sberloga500
🗓 Программа пройдет в Санкт-Петербурге с 20 по 30 августа. Подать заявку можно по ссылке до 23:59 14 июля 2024 года.
Питание, обучение и проживание бесплатное, оплатить самим нужно будет только проезд.

Подавайте заявки и делитесь постом с друзьями и коллегами!
Forwarded from LightAutoML framework (Alex Ryzhkov)
Всем привет!

На прошедшем вчера третьем этапе AutoML Grand Prix на Kaggle команде Лаборатории AI "LightAutoML testers" удалось занять 3-е место, уступив только командам из H2O с решениями на базе платного решения Driveless AI и опередив коллег из Amazon, Microsoft, MLJAR и других компаний.

Полное решение с описанием будет выложено в ближайшие дни (следите за обновлениями 🤓), однако уже сейчас публично доступно сверхбыстрое решение на основе одной табличной нейронной сети из LightAutoML, способное занять 5-ое место: https://www.kaggle.com/code/simakov/lightautoml-denselight (вы знаете, что делать ⭐️)

Happy Kaggling 🦙
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Кирилл Хоружий "Введение в методы поиска короткого пути на больших графах"
⌚️ Четверг 4 июня, 19.00 (по Москве)

Мы с коллегами организуем проект по применению методов МЛ/RL к задачам теории групп и графов Кэли - если Вы хотите присоединиться - напишите - @alexander_v_c. В четверг Кирилл Хоружий сделает вводный доклад по этой теме - приходите ! (А также подписывайтесь на замечательный канал Кирилла - @diagrams_every_day ).

Если вы только присоединились к задаче поиска пути на графах, или что-то в описание покажется незнакомым, то этот вебинар для вас должен быть в самый раз.

На вебинаре мы рассмотрим методы решения задачи поиска пути в крупных перестановочных графах, таких как Кубик Рубика или Пятнашки, где задача поиска пути становится весьма сложной. Мы обсудим state-of-art подходы, показанные в работах DeepCubeA (2019) (Nature) и Self-Supervision methods (2023) (arXiv).

Возможные варианты решения задачи о поиске пути:
1. Оценка дистанции случайными блужданиями. Из целевой вершины делаем K шагов и обучаем модель предсказывать K, которое хорошо коррелирует с реальной дистанцией (d). Используем эту модель как эвристику для алгоритма A*.
2. DQ-learning. Предсказывать моделью реальную дистанцию, в лучших традициях DQN основываясь на уравнение Беллмана улучшать после обучения предсказанные расстояния и обучаться заново. Затем также на А* искать путь.
3. Обратная диффузия. Делая случайные шаги, мы почти гарантировано отдаляемся от целевой вершины. Научимся по вершине, предсказывать откуда в неё мы пришли, случайно блуждая. Затем через beam search находим наиболее вероятный путь в целевую вершину (самый короткий ~ самый вероятный).

Также обсудим возможные упрощения жизни для модели через алгоритм Метрополиса и существующие эвристики.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: https://t.me/sberlogasci/10989/15283
📹 Video: https://youtu.be/2J3eGGH-uiM?si=9xgHtcCpBj0wKXC0
Игра была придумана Г. Бальбо в 1974 году и впервые описана в французском шахматном журнале Le Courrier des Echecs в сентябре того же года.

Игра следует стандартным шахматным правилам, с некоторыми отличиями из-за новой доски. Поскольку король начинает игру не на обычном месте, рокировка невозможна.

Правила для пешек (их всего семь) также были изменены в соответствии с новой геометрией доски:

Пешка, достигшая дальнего конца d-, e-, f-, g- или h-колонки, может превратиться в ферзя, ладью, слона или коня.
Пешка, достигшая дальнего конца c- или i-колонки, может превратиться только в слона или коня.
Пешка, достигшая дальнего конца a-, b-, j- или k-колонки, не может превращаться и остается на месте как препятствие, пока её не захватят или не появится возможность захвата, который уберёт её с этой клетки, после чего она может продвигаться дальше.
Forwarded from Борис опять
Недавно BM25, алгоритм поиска из 80-х, победил нейросетевой поиск на LLM.

Мне стало очень интересно разобраться, как это работает, и я написал статью на Хабр, где этот алгоритм реализуется с нуля.

https://habr.com/ru/articles/823568/

Материал подойдет начинающим: ничего кроме знания Python не нужно.

Просьба читать, лайкать и кричать об этой статье на улицах. 😇
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Борис опять
#работа

# Методичка по поиску работы в ML/DS и IT в целом

В канале накопилось немало материала про поиск работы. Я собрал, дополнил и превратил всё в небольшую книжку.

Все кратко и по делу. Чтения минут на 30. Внутри рассматриваю поиск работы с самых азов и до деталей с примерами из жизни.

https://btseytlin.github.io/intro.html

Если вы давно читаете этот канал и хотели бы ему помочь, то вот лучший способ: скиньте методичку кому-то из друзей.

@boris_again
Forwarded from DevFM
The ultimate docker compose cheat sheet

Хорошая статья, охватывающая основные аспекты docker compose. Автор начинает с базовых концепций, но будет полезна даже тем, кто хорошо знаком с компоузом.

Из интересного:
– параметр, позволяющий рестартить сервис, если он завалился
– как одному сервису дождаться запуска другого сервиса с использованием определенных условий. Бывает полезно, когда веб-сервис дожидается старта базы данных
– как задавать healthcheck сервисов с различными параметрами
– также автор разжёвывает тему volumes и networks

У нас был отдельный пост с практическими советами по докеру.

#skills #docker
Почему ты теряешь деньги и время на вкат в Data Science

При вкате в Data Science ребята допускают кучу ошибок на своём пути, например:

1️⃣ Я не знаю какую область мне выбрать? 🎮
2️⃣ Где и как мне учить материалы по Data Science? 🇺🇸
3️⃣ Допустим я учусь, но как мои знания будут применяться на работе ?  🙈
4️⃣ А где и как нужно искать вакансии ? А что учить на собесах ? А почему мне не пишут HR`ы ? А что спрашивают на собесах ? Мне страшно ходить на собесы, вдруг я обсренькаюсь и что дальше ??? 🎮

Можно бесконечно продолжать список вопросов, поэтому и существуют менторы, чтобы их решить. Ментор - это человек, который будет наставлять тебя на твоём пути развития, постоянно корректируя твой процесс обучения для более эффективного достижения цели.

Как менторство может помочь именно тебе?
Отвечая на этот вопрос, буду приводить основываться на данных из своей практики ментора.

1️⃣ Экономия времени и денег.
Средняя зп джуна ~110к, без ментора вы будете заниматься около года-полтора (12-18 месяцев), а с ментором около (6-8 месяцев, по личному опыту знаю). Простая математика: вы экономите 6-10 месяцев, а как следствие 6 * 110 - 10* * 110= 660к - 1100к. А если вы ещё и сразу на мидла идёте, то экономия около 1200к - 2200к... 🍑

2️⃣ Вы приобретёте более глубокие навыки, если будете учиться с ментором.
Ментор, как человек опытный, даёт вам всю свою накопленную экспертизу: как получить первый оффер, как уничтожать собеседования, как правильно торговаться, как правильно себя показывать на собесах и тд. Самим вам придётся кровью и потом выбивать эти навыки и опыт, поэтому для сокращения пути ментор - самый лучший вариант. 📞

3️⃣ Сообщество единомышленников
У меня есть группа, в которой я ребят довожу вплоть до оффера, на данный момент там около 20 человек. Мы регулярно устраиваем созвоны, на которых я разбираю основные ошибки, пробелы и затыки ребят на пути приобретения оффера. Также ребята активно переписываются и проводят МОКи между собой. 🎲

4️⃣ Кукухология.
Зачастую так бывает, что основным затыком являются страхи. Именно это и прорабатывается на менторстве, чтобы вы смогли идти и уничтожать собесы 💪

Итог:
Если вы хотите получить оффер, или вам необходимо сделать продающее резюме, роадмап, накинуть материалов, то приглашаю к себе на менторство
Вот видео, в котором я рассказываю про себя и свои услуги.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Empty Set of Ideas (Arsenii)
Про функторы и кластеризацию

В работе "An Impossibility Theorem for Clustering" (2002) Jon Kleinberg определяет три простых свойства, которым должна удовлетворять любая кластеризация, а затем доказывает, что ни один алгоритм кластеризации не может обладать всеми тремя свойствами одномоментно. Пусть дано множество S, состоящие из n ≥ 2 точек и некоторая полуметрика (без неравенства треугольника) на нем d:S×S→R. Пусть D(S) — множество полуметрик на S, а Π(S) — множество разбиений S на дизъюнктные подмножества. Тогда кластеризацией назовем функцию f: D(S) → Π(S), которая каждой полуметрике на S ставит в соответствие некоторое диз.разбиение. Kleinberg предложил следующие три свойства, которым должна отвечать каждая такая функция f:

1. Инвариантность относительно гомотетии (scale invariance): f(d) = f(alpha * d) для любых d из D(S) и alpha > 0 из R;
2. Насыщенность (?) или richness: f сюръекция;
3. Непротиворечивость или consistency: пусть есть две полуметрики d и d', а Г некоторое разбиение S. d' это Г-трансформация d, если d'(i,j)≤d(i,j) для всех пар из одного кластера в Г, аналогично d'(i,j) ≥ d(i,j) для всех пар в различных кластерах, тогда d и d' не противоречат друг друг, если d' это f(d) трансформация d, то f(d) = f(d'), т.е. кластеры уплотняются и расползаются при замене метрики d на d';

Существуют алгоритмы кластеризации, которые сочетают в себе любые 2 из 3 перечисленных свойств. Допустим S — множество вершина графа, а d(i,j) — вес ребра. Рассмотрим три функции кластеризации, которые находят подграфы, выбирая некоторое подмножество ребер:

1. выберем произвольное 1<k<n и упорядочим ребра по весу, будем добавлять ребра в подграф из упорядоченного списка ребер, пока он не будет иметь ровно k связных компонент;
2. выберем произвольное r и будем добавлять ребра с весом не меньшим r, полученные компоненты связности и назовем кластерами;
3. выберем произвольное 1 > alpha > 0 и пусть R это max(d). Будем сохранять ребра с весом не более alpha * d;

Утверждение: Функция 1 удовлетворяет 1 и 3 (число кластеров ограничено k сверху), функция 2 удовлетворяет 2 и 3 (варьируем r, получаем разные разбиения и теряем инвариантность относительно гомотетии), а функция 3 удовлетворяет 1 и 2.

И тут в дело врывается топологический анализ данных, с уже классической статьей "Classifying Clustering Schemes" (2013) by Gunnar Carlsson & Facundo Memoli. Ключевая идея их работы заключается в том, что эти свойства кластеризации могут быть закодированы как морфизмы в категории конечных метрических пространств таким образом, что ответом будет не функция кластеризации, а функтор кластеризации в подходящую категорию и он будет обладать уже всеми желанными свойствами.
🚀 Если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие, а также заходите на вводный вебинар (знаний теории групп не требуется):

👨‍🔬 Александр Червов (к.ф.-м.н) "Методы МЛ в теории групп - введение и обзор достигнутого"
⌚️ Понедельник 22 июля, 18.00 (по Москве)

Методы машинного обучения могут быть применены к ряду классических задач теории групп - разложение элемента по образующим, оценки диаметра. Мы приглашаем принять всех участие в данном проекте. Предварительное требование - знание Питона и наличие нескольких свободных часов в неделю. Если вы хотите улучшить свои знания по МЛ/RL и внести вклад в развитие науки - это отличный шанс .

В данном докладе мы простым языком объясним формулировки основных задач, и как задачи теории групп переводятся на язык машинного обучения. Предварительных знаний не требуется. Также, мы дадим обзор уже достигнутых результатов - в частности для группы порядка 4*10^19 (Rubik cube) нам уже удается находить решение задачи за минуты , а не 40 часов ГПУ как было в предыдущей работе "DeepCube".

План доклада:

1 Переформулировка основной задачи на простом языке матриц

2 Матрицы перестановок и группы типа кубика Рубика (см. ноутбук "Visualize allowed moves": https://www.kaggle.com/code/marksix/visualize-allowed-moves )

3 Графы Кэли и переформулировка основной задачи как поиск пути на графе

4 Случайные блуждания по графам - создание трейн сета для МЛ-модели

5 Подход к решению задач теории групп через машинное обучение. Оценка дистанции до цели через МЛ-модель и проблема наличия множественных локальных минимумов у этой оценки

6 Beam search. (Один из вариантов борьбы с застреваниями в локальных минимумах. Альтернативы - Метрополис, отжиг, A^* алгоритмы)

7 Бейзлайн реализация: МЛ+ Beam search - ноутбук: https://www.kaggle.com/code/alexandervc/baseline-1-for-permutations - решение кубика Рубика за пару минут

8 Cледующие шаги: RL-часть, улучшение нейросеток, улучшение трейн сета, улучшение beam search

Добавляйтесь в группу проекта: https://t.me/sberlogasci/10989 и пишите @alexander_v_c - если Вам интересно !

PS

См. также предыдущий вводный доклад:
https://t.me/sberlogasci/10989/15283 "Введение в методы поиска короткого пути на больших графах" (Кирилл Хоружий )

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📖 Presentation: https://docs.google.com/presentation/d/1WFH9FmsPjFYvmLIbe6QrU4dYF8p7uk0EY746t_DlZHY/edit?usp=sharing
📹 Video: https://youtu.be/Ra7kAIzcIl0
Forwarded from Artificial stupidity
#LLM

Парад клевых материалов продолжается!

Теперь вышла уже моя статья (я бы даже сказал, что методичка) по промт-инжинирингу простыми словами.

Как обычно, читайте, ставьте плюсики, делитесь материалом с теми, кто еще не знает премудростей prompt engineering'а.
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨‍🔬 Влад Виноградов ( @ BIOPTIC.io ) "Решение GOLD в соревновании Leash Bio (BELKA) на Kaggle"
⌚️ Четверг, 19.00 (по Москве), 25 июля 2024

Add to Google Calendar

Решение GOLD в соревновании Leash Bio (BELKA) на Kaggle от Влада Виноградова @ BIOPTIC.io — модель на основе SMILES-трансформера и правильный бенчмаркинг — все, что нам нужно

См. конкурс, который закончился две недели назад: https://www.kaggle.com/competitions/leash-BELKA

Помимо описания выигравшего решения, мы поговорим о:
🔘 Современных ligand-based моделях для предсказания молекулярных свойств (GPS++, MPNN++, Transformers и другие)
🔘 Жёстких разделениях молекулярных данных на основе сходства для преодоления проблемы обобщаемости (и разрушения 95% заявленных в литературе результатов по предсказанию молекулярных свойств)
🔘 Широкомасштабной настройке гиперпараметров в облаке

P.S. Доклад будет на английском

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📹 Video: https://youtu.be/DucJWdc7Ww4
Анонс движа по Kaggle!

Как вы, возможно, знаете, я терпеть не могу такое явление, как инфопродукты, курсы как стать программистом за месяц и прочее. А значит надо запустить свой курс)

Я уже давно хотел сделать такой движ, но не хватало времени, но сейчас объединился с Артемом, так что должно быть попроще. Состоять он будет из двух частей. Сначала будет публичная часть - теория ML+советы по kaggle(где-то 6-8 лекций по 1-2 часа). Дальше мы разобьемся на команды по 5 человек и каждая команда возьмет одно уникальное актуальное соревнование с Kaggle. Мы с Артемом будет тоже в командах, направлять и помогать. В каждом соревновании строго одна команда, так что шаринга быть не должно. Это уникальная возможность поучаствовать с нами в одном соревновании(между прочим, мне за такое предлагали до 5тыс евро) и, надеюсь, узнать что-то для себя новое.

Если вам такое интересно, до добавляйтесь в группу https://t.me/ml_boost_camp и проходите опрос. Участие бесплатное

Делитесь этим постом, чтобы больше желающих могло поучаствовать. Если такой формат зайдет, то дальше будет больше. Идей очень много, да и оффлайн тоже хочется провести. Пишите в комментариях свои пожелания и мнения.

Также, напишите мне, если вы хотите помочь в организации bootcamp от своего лица, или от лица компании
‼️Друзья, с радостью анонсирую курс «Основы временных рядов»!

На этом курсе вы научитесь работать с временными рядами, а также понимать их природу и преобразовывать таким образом, чтобы эффективно решать задачи.

😎 Для кого этот курс?
- Специалистам DataScience и Анализа данных, которые хотят получить более глубокое понимание работы с временными рядами
- Менеджерам, которые хотят говорить со своими специалистами на одном языке и понимать особенности в решении задач временных рядов

📰 Состав курса:
- 4 блока
- 16 занятий (12 лекций, 4 практики)
- 8 домашний заданий
- Уютное и обогащающее комьюнити
- Живое общение с преподавателем и однокурсниками
- Легкая и добрая атмосфера с юмором :)
- Доступ к материалам и видео к занятиям - НАВСЕГДА!

Как долго?
Длительность курса - 4 месяца, по 1 занятию в неделю.

🏃‍♂️ Старт курса запланирован на начало августа этого года.

А для ответов на все ваши вопросы и просто оценить атмосферу, приглашаю вас на ознакомительный вебинар курса 23.07 в 20:00 по Москве.

Буду рад встречам ☀️
Forwarded from Dealer.AI
Не enkodechka'й едины – ruMTEB бенчмарк для оценки эмбеддеров на ру языке.

Тут конечно не техрепорт на 71 страницу, но тоже интересное.

Мы завезли превью русского бенчмарка эмбеддеров ruMTEB.

P.S. Кстати, уже можно найти замеры моделек deepvk/USER от VK в карточках моделей этого семейства на HF.
Forwarded from Alexander C
🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Сергей Лыткин (к.ф.-м.н.) "Введение в Reinforcement Learning методы на графах»
⌚️ Пятница 26 июля, 18.00 (по Москве)

Add to Google Calendar

Будет рассказано применение методов RL к задачам теории графов. Дистанция на графе (до выделенной вершины или множества вершин) - удовлетворяет очень простому варианту уравнения Беллмана d(g) = 1 + min_{neigbours of g} d(neigbour) . Тем самым методы RL дают возможность искать решения уравнения Беллмана, а значит в частности находить метрику на графе, стартуя с произвольной инициализации. Как быстро будут сходиться алгоритмы RL ? Можно ли улучшить сходимость сделав правильную инициализацию ? Эти вопросы будут рассмотрены в докладе, ответы на них не так очевидны.
Будут рассмотрены примеры графа состояний (Кэли) маленького кубика Рубика размера 2×2×2 ( больше 3 миллионов состояний). Данный граф достаточно мал, для того чтобы было удобно и быстро проводить эксперименты, но уже нетривиален и можно видеть общие феномены.

Более общо методы Deep-Q-learning - нейронные сети совмещенные c RL позволяют работать с графами сверх больших размеров - 10^100. По аналогии с работами, где обучение с подкреплением с успехом применяется для нахождения оптимальных решений в играх с очень большим числом состояний, таких как шахматы или го (вспомним AlphaGo, AlphaZero, MuZero).

Notebooks: https://www.kaggle.com/code/fedmug/bellman-rc2
Notebooks: https://www.kaggle.com/code/fedmug/bellman-convergence-for-rc2
(Апвоуты - приветствуются ! )

Приходите на доклад ! А, также, если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨‍🔬 Hervé Isambert, CNRS, Institut Curie, Paris "Causal discovery from multivariate information in biological and biomedical data"
⌚️ Monday 29 July at 18.00 (Moscow time)

Add to Google Calendar

In this webinar, I will present the principles and limitations of graph-based causal discovery methods and their improvement using multivariate information decomposition, recently developed in my lab. Applications will range from gene expression data in single cells to nationwide medical databases of cancer patients. I will then discuss the theoretical link between graph-based causality and temporal (Granger-Schreiber) causality, which can both be expressed in terms of conditional multivariate information. While temporal causality is shown to imply graph-based causality, the converse may not be true (see Figure). An application to time series data concerns the analysis of video images of reconstituted tumor ecosystems, which uncovered a novel antagonistic effect of cell-cell interactions under therapeutically relevant conditions.
http://kinefold.curie.fr/isambertlab

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

📹 Video: https://youtu.be/22YKS6lKyfg?si=U5iDJC0JXIJYpg_-

📖 Presentation: https://t.me/sberlogabio/77724