ThetaHat
235 subscribers
10 photos
5 links
🎓 Обучаем актуальному Data Science в МФТИ и ШАД
💻 Теория • практика • проекты • комьюнити • возможности

https://thetahat.ru/
По вопросам: @Anches_asst
Download Telegram
Channel created
Добро пожаловать в канал команды ThetaHat!🩷

Мы — команда студентов и выпускников МФТИ и ШАД, которые уже несколько лет делают курсы по Data Science.

Когда-то мы сами сталкивались с типичными проблемами:

— непонятно, с чего начать путь в DS
— мало практики
— не хватает качественной обратной связи
— сложно разобраться в сложных темах самостоятельно
— много теории, но мало реальных задач

Именно поэтому мы создали ThetaHat



В этом канале будем:

〰️делиться полезными материалами
〰️рассказывать про наши курсы
〰️знакомить с нашей командой и успехами студентов
〰️делиться возможностями для развития

Наша цель — помочь студентам уверенно войти в Data Science и не потеряться на этом пути


Если ты хочешь учиться в сильном сообществе, развиваться и быть в курсе всего актуального — тебе к нам 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3🎉3🤣1
Собираем наш первый датасет 📊😁

Мы только начинаем развивать этот канал,
и нам правда важно понять, кто ты.


Если ты недавно к нам присоединился —
проголосуй, пожалуйста, в опросах ниже:

🎓 На каком ты курсе сейчас?
🌟 С какой целью идёшь в DS?

👀 Что бы ты хотел видеть в нашем канале?

Это поможет нам сделать контент интересным и полезным

Будем делать его не «наугад», а по данным 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63
C 8 марта, дорогие девушки!💐

Пусть в жизни будет больше поводов для радости и хорошего настроения!

И, конечно
минимум багов,
максимум инсайтов
и только чистого кода 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
19❤‍🔥6😁5
А вообще сегодня мы решили познакомить вас с несколькими выдающимися женщинами-лидерами IT-индустрии, которые прямо сейчас продолжают менять мир технологий

Надеемся, их истории вдохновят вас ⭐️



👩🏻Фэй-Фэй Ли (США)

Одна из самых известных исследовательниц в области искусственного интеллекта. Уже более 20 лет работает в сфере AI и computer vision.

Именно она руководила созданием датасета ImageNet — огромной базы изображений, которая стала основой для прорыва в компьютерном зрении.

😍-факт:
В 2024 году Фэй-Фэй Ли была удостоена престижной премии VinFuture — одной из крупнейших научных наград в мире — за выдающиеся достижения в области искусственного интеллекта.


👩🏾‍🦱Тимнит Гебру (Эфиопия / США)

Исследовательница, которая занимается вопросами этики искусственного интеллекта уже более 15 лет.

Она изучает, как алгоритмы могут быть предвзятыми и почему важно учитывать социальные последствия технологий. Благодаря её исследованиям многие компании начали внимательнее относиться к тому, как создаются и используются AI-системы.

😍-факт:
Она является соосновательницей созданного в 2017 году международного сообщества Black in AI — инициативы, которая поддерживает сообщество чернокожих исследователей в сфере искусственного интеллекта по всему миру.


👩🏻‍🦱Ольга Русаковски (Украина / США)

Исследовательница в области искусственного интеллекта и компьютерного зрения. Более 10 лет работает в сфере AI. Профессор компьютерных наук в Принстонском университете и автор научных работ по машинному обучению и анализу изображений.

Она участвовала в развитии проекта ImageNet и была соавтором ключевой научной статьи о соревновании ImageNet Large Scale Visual Recognition Challenge.

😍-факт:
Эта статья стала одной из самых цитируемых научных работ в истории computer vision и сыграла огромную роль в развитии deep learning.

_______________
Сегодня всё больше женщин работают в сфере технологий, делают открытия и двигают развитие AI вперёд

Возможно, среди тех, кто читает этот пост, есть будущие исследовательницы и разработчицы, которые тоже изменят мир 💫

фото взяты с сайтов 1, 2, 3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥7🤓5🥰3
Запускаем новый формат в канале — обзоры научных тем

Мы будем рассказывать вам про развитие методов, широко применяемых и исследуемых в науке и индустрии



〰️Сегодня мы хотим поделиться с вами темой эффективного дообучения моделей с помощью LoRA-адаптеров

В последние годы размеры моделей всё больше и больше, а их обучение требует всё больше и больше ресурсов: лидеры индустрии тратят сотни миллионов долларов на обучение новых версий своих моделей.

Поэтому вопрос дообучения моделей для решения смежных задачи стоит очень остро: где взять еще 100 миллионов? как переиспользовать уже готовую модель, немного её подтюнив?

💡 Одним из ответов на этот вопрос является техника LoRA (Low-Rank Adaption)

Она позволяет заморозить исходные веса большой модели и дообучать только маленькие низкоранговые матрицы-добавки в нужных слоях — так мы получаем почти тот же эффект, что и при полном fine-tuning, но с куда меньшими затратами по памяти и времени. В итоге адаптеры можно хранить и переключать как "плагины" под разные задачи.


🔗 Более подробно в полном разборе на нашем сайте в новом разделе "Наука и Практика"


Разбор подготовил студент DS-потока Павел Мун
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥135🤩5
#проИИ

🫀 ИИ в медицине: к продлению жизни

Всем привет! 👋🏻 На связи Настя Резванова, выпускница медицинского университета. Последние пару лет я то практикуюсь в больницах или на скорой, то погружаюсь в мир данных и алгоритмов. Наблюдаю в реальном времени, как технологии проникают в медицину.

Поэтому принесла вам 3 примера, как Data Science и ИИ помогают врачам прямо сейчас.

1️⃣ Компьютерное зрение

Задача: находить на медицинских изображениях патологии, которые врач может пропустить из-за усталости или малозаметных изменений.

Что анализирует ИИ?
— Рентген и КТ:
туберкулёз, пневмонию, опухоли, переломы рёбер, признаки COVID-19 («Третье Мнение», Botkin.AI, Care Mentor AI)
— КТ и МРТ головного мозга:
инсульты, кровоизлияния, новообразования ( Multivox ASPECTS, IMV GLIOMAS, NTechMed CT Brain)
— Микропрепараты:
поиск раковых клеток и других патологий в образцах тканей и клеток (Medical Neuronets, Celly.AI)

В московской ЕМИАС врачи уже сейчас получают заключения от ИИ по рентгену и КТ 🩻

2️⃣ NLP и анализ медицинских текстов

Не все медицинские данные — это изображения. Врачи работают с текстами: заполняют карты, ставят диагнозы, выписывают препараты. Но сначала тексты нужно создать — на это уходят часы.

Задача NLP
— помочь с потоком текстовой информации. Для этого используют модели на базе BERT, системы распознавания речи и другие методы обработки естественного языка.

⚡️Примеры применения:

— распознавание речи врача и автоматическое формирование медицинских протоколов (Voice2Med)
— подсказка вероятных диагнозов по симптомам из медкарт (СберЗдоровье «ТОП-3»)

3️⃣ Предиктивная аналитика

DS помогает прогнозировать риски заболеваний или осложнений по электронным медкартам.

В ход идут градиентный бустинг, random forest, нейросети и статистические модели — чтобы оценить вероятность, например, инфаркта, тромбоза или повторной госпитализации.

⚡️Пример: Платформа Webiomed анализирует обезличенные данные из медицинских информационных систем и предупреждает врачей о рисках заболеваний или осложнений.


В медицине есть и другие medtech-направления, где врачам и пациентам помогает ИИ: носимые медицинские устройства, роботизированная хирургия, AI-ассистенты для врачей и др.

Посмотреть больше проектов на стыке медицины, науки и Data Science тут:

MedTech-разработки
Московский эксперимент
Обзор ИИ-систем в здравоохранении


Если вам интересна эта тема, то проголосуйте в опросе ниже — про что нам стоит написать следующий пост👇🏻
9🔥3👍2🥰1
"На кого ты учишься?", "А кем работать будешь?", "А чем заниматься потом планируешь?", — часто именно такие вопросы задают студентам

Ответить на них бывает непросто 🧐, в особенности если направление называется "Науки о данных"

В этом посте мы постараемся объяснить, какие существуют профессии в данной области и чем именно занимаются люди на этих должностях


Часто бывает так, что для работы по определенной профессии требуются знания из других областей, поэтому стек может отличаться от компании к компании/от позиции к позиции


1️⃣ Data Engineer (DE) — профессия, которая не требует знаний статистики или машинного обучения, но без них не заведется ни одна модель. Они ответственны за сбор, хранение и поставку данных, чтобы далее любой человек с доступом мог написать "SELECT * FROM ...".

2️⃣ Data Analyst (DA) — профессия, в которой занимаются статистическими гипотезами, проектированием и постановкой экспериментов. Эти ребята могут ответить на вопросы "Насколько успешен наш продукт?", "А что будет, если мы введём новые карты лояльности?", "Почему препарат А лучше, чем препарат Б?". Они часто живут на стыке между фундаментальной статистикой и "физическим смыслом" их проекта.

3️⃣ Machine Learning Engineer (MLE) — профессия, где происходит разработка моделей, их обучение, ввод в эксплуатацию и их поддержка в актуальном состоянии. Они являются некоторой серединой между разработчиками, которые создают IT-продукты, и исследователями в области DS.
У задач невероятно большой спектр: от fit_predict() модели из sklearn до написания трансформера под свои задачи; от вывода модели в продакшен до подсчета успешности пилота.

4️⃣ Machine Learning Researcher (MLR) — профессия, в которой занимаются наукой в "классическом понимании". Они читают и пишут статьи, придумывают новые математические методы, функции и способы их рассчитать.

Профессия Data-Scientist — это некий собирательный образ всех профессий выше, который балансирует между ресерчем, созданием моделей, их оценкой и ответами на вопросы предметной области


Автор Александр Кладченко, преподаватель Ph@DS
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥8👨‍💻6🤩3
〰️Продолжаем формат научных разборов — сегодня поговорим о теме 3D Gaussian Splatting

На сегодняшний день для многих ИИ-приложений уже недостаточно просто уметь генерировать красивую картинку

Нередко в прикладных задачах возникает запрос на восстановление и генерацию целых 3D-сцен: чтобы можно было менять ракурс, редактировать объекты, строить цифровых двойников и использовать такие сцены в VR, робототехнике и других приложениях

🌕Фундаментальная сложность здесь в том, что модель должна одновременно сохранять геометрию сцены, обеспечивать фотореализм и поддерживать высокую скорость рендеринга

Долгое время ведущими оставались методы семейства NeRF:
они дают хорошее качество, но оказываются слишком медленными для многих практических приложений


〰️Важным шагом вперед стал 3D Gaussian Splatting

Этот подход предложил новое представление 3D-сцены, которое позволило резко ускорить рендеринг без существенной потери качества. Вскоре вокруг него выросло целое направление работ: от сегментации объектов в 3D до редактирования сцен и генерации нового 3D-контента

🔗 Полный разбор читайте на нашем сайте


Разбор подготовил студент DS-потока Родион Сурин
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥96👨‍💻5
🔠🔠🔠 Как известно, важнейшим катализатором развития ML/ИИ в последние пару десятков лет послужили удешевление вычислительных ресурсов и повышение их мощности

К сожалению, это не означает, что проблема вычислений полностью решена: запрос на масштабирование моделей и использование их на мобильных устройствах опережает прогресс в совершенствовании GPU

Фундаментальная сложность в том, что нейросеть хочется сделать меньше и быстрее, но при этом не потерять в качестве

Нельзя просто удалить часть параметров: можно нарушить структуру модели, сломать обучение или получить ускорение только на бумаге


〰️Один из важных подходов к решению этой задачи — прунинг,
то есть удаление избыточных весов и групп параметров из нейросети

🔗 В полном разборе мы обсуждаем, как устроен прунинг, как техника связана с работой мозга человека, и разбираем несколько важных работ последних лет по этой теме


Разбор подготовил студент DS-потока Максим Иванов
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥3👨‍💻3