BigData Team (BDT)
751 subscribers
404 photos
13 videos
293 links
BigData Team: the way you learn best

Практико-ориентированное обучение по Big Data, Machine Learning, промышленной разработке на Python.

https://bigdatateam.org/ru

Чтобы бустнуть: https://t.me/boost/bigdatateam
Download Telegram
🛠 news: проблема отображения сертификатов

Наблюдается проблема с отображением электронных сертификатов на сайте (см. скрин). Вернемся с отдельным анонсом, как только ситуация будет исправлена.

Просим сохранять спокойствие и в случае острой необходимости расслабиться и полистать вредные заметки от руководителя инфраструктуры.
👍3
🛠 news: сертификаты снова доступны

Downtime отображения сертификатов составил 2 дня

Long story short:
- напоролись на Cross-Origin Read Blocking (CORB)
- подняли новый Nginx сервис для выдачи сертификатов
- сделали миграцию данных со старого сервиса на новый
- прикрутили на сайте выдачу сертификатов через новый сервис
- ...
- PROFIT

Картинка для хорошего настроения в пятницу и выходные.
- понравилось - жми лайк
- есть время для просвещения - почитай про CORB
- хочешь получить красивый сертификат - тебе сюда 😉
🔥8
👩‍💻 Выпускники, карьерные истории, продвинутый поток

В начале декабря мы делились историями успехами некоторых выпускников: карьерные истории 2023

Как вы догадываетесь, это только начало истории. По запросу организаторов грантовой программы Tech Orda (Astana Hub) делимся результатами обучения по нашей продвинутой программе обучения BDE++.

А также продолжаем собирать обратную связь в комментариях о самых интересных для вас карьерных историях успеха. Что звучит наиболее интересным, переход c Junior до Middle или с Middle до Senior?

Ставь ❤️ в первом случае и ❤️‍🔥 во втором.

#work #study #BigDataTeam #TechOrda #AstanaHub
❤‍🔥31🔥1
🏆 Премия "учитель года" или исповедь математика-программиста

https://vc.ru/tribuna/1014774-premiya-uchitel-goda-ispoved-matematika-programmista

💪 Меня недавно внесли в номинацию учитель года, где в комментариях развернулись жаркие обсуждения с участием коллег и выпускников 🫶

Там можно встретить такие вбросы как:
- курс не по размеру
- курс от ботанов для ботанов

В связи с чем, мне предложили поставить точку в дискуссии и ответить на вопросы:
по-хорошему, надо было разбить курс на 2 части: для чайников и для продвинутых

Возможно и правда, Алексей Драль, не хочет делать совсем базовые курсы по IT для тех, кому тема непрофильная


Получился развернутый ответ про:
* образование
* цели и достижения
* опыт выдающихся учителей
* методологию построения учебных курсов

Тизеры из статьи на фото.

Голосовалку предлагаю провести в формате emoji:
❤️ все отлично, достаточно донести позицию на орг. встрече
🔥 есть запрос, сделайте отдельный трек без хардкора

#work #study
2👍2
🖼👽 Генеративный дизайн для вашей бабушки, Google Gemini

https://vc.ru/services/1028493-generativnyy-dizayn-dlya-vashey-babushki-google-gemini

Надоело пользоваться VPN, платными подписками, скачивать предобученные модели или обучать родственников подписываться на рекламные каналы в телеграм, чтобы получить доступ к сервисам по генерации изображений с помощью нейронок?

Мне тоже, поэтому я решил поделиться лайфхаками по использованию Google Gemini. В статье вы узнаете:
* откуда ноги растут
* подводные камни и лайфхаки использования
* немного ликбеза про известные проблемы нейронок (prompt engineering и галлюцинации)
* и, конечно же, пошаговый план для генерации собственных изображений на русском языке (без регистрации и смс)

Тизеры из статьи на фото.

🔥 Да наступит в комментариях межгаллактический кулинарный battle. Ваш ход!

#work #life #study
🔥3
🔬 Новости науки и техники, обзор LLM, arXiv

Large Language Models: A Survey
https://arxiv.org/pdf/2402.06196.pdf

by Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu Richard Socher, Xavier Amatriain, Jianfeng Gao

Почему стоит обратить внимание на эту статью: Томас - один из авторов word2vec, подхода, который перевернул мир NLP в 2013-м (42k цитирований), а за свою научную карьеру собрал уже более 100k цитирований.

Сравним: Yann LeCun, лаурет премии Тьюринга за нашумевшие нейронки, имеет 3 статьи с количеством цитирований более 10k. Один из ведущих ученых по рекомендательным системам, Joe Konstan, - всего одну и до 100k публикаций еще не добрался.

Структура статьи:
* Large Language Models
* How LLMs are built
* How LLMs are used and augmented
* Popular datasets for LLMs
* Prominent LLMs’ performance on benchmarks
* Challenges and future directions

Налетай, торопись, покупай изучай живопись! (классика жанра)

Выделен еще один автор, why? 🤔

За лайк и репост в карму плюс 🤗

#study #work
4🔥2
🎂 Волшебному змию автоматизации интернета 33 годика

❗️Языку разработки Python стукнуло 33 года (см. Wikipedia). Чуть не пропустили, благо подсказал товарищ на LinkedIn.

Я обожаю Python. Поэтому только из тех репозитариев компании, которые у меня под рукой (рабочие проекты после обновления ноута), более 50k строк кода на Python:
workspace$ find . -name "*.py" | xargs wc -l | tail -1
52036 total


Давайте в комментариях каждый поделится своим уровнем питонячести и репозиторием Python, который он любит. У нас, как вы можете догадаться, довольно много NDA, поэтому я могу поделиться только учебным курсом по Python на GitHub: https://github.com/big-data-team/python-course

А по ссылке выше (LinkedIn) товарищ делится крутым репозиторием по LLM авторства Андрея Карпатого.

Лайки и репосты - как всегда приветствуются 😉

#study #work
5🔥4
📚 Классы и ООП, полезные материалы

Было несколько запросов в фидбеках на полезные материалы по классам и ООП. Мы проводим занятие по ООП в рамках подготовительного курса Python для анализа [больших] данных, Py4BDA
🗓
23.09.2024 - 16.12.2024, полное описание

Для тех, кто желает прокачаться прямо сейчас (не дожидаясь сентября), мы подготовили список ресурсов, с учетом специфики Python и разного уровня подготовки.

🟢 beginner level
- Классы в Python
- Про ООП от Real Python

🟡 intermediate level
- Спецификация @property
- Управление доступа к атрибутам с помощью @property
- Спецификация Python: Data model
- Python's Mutable vs Immutable Types: What's the Difference?

🔴 advanced level
- Python Descriptors: An Introduction
- Descriptor HowTo Guide

Лайфхаки:
- Перегрузка функций (подсказки типов данных в IDE)

Спасибо за вопросы и удачного погружения в тематику. Если полезно, то сохрани на память, поставь 🔥 и перешли коллегам.

BigData Team: the way you learn best
#work #study
🔥8👍3
🌈 Гало - почти как радуга, но круче

Как вы можете помнить, мы любим задавать интересные (и иногда каверзные) вопросы слушателям. На орг. встрече курса промышленной разработки на Python, мы решили обсудить природные явления. Одна из наиболее необычных находок - Гало.

Гало — оптическое явление в атмосфере, светящийся ореол вокруг источника света, возникающий вследствие преломления света в кристаллах льда при отрицательных температурах. Гало появляется вокруг Солнца, Луны и других источников света во время зимних морозов.


Идеальные условия для образования солнечных дуг - горы Антарктиды. Кто планирует экспедицию?

#life #красивое
6🔥1
📚 SDE Best Practices: поведение vs реализация

На курсе промышленной разработки на Python задают много крутых вопросов. Продолжаю делиться ответами на некоторые из них.

Вопрос: должен ли класс реализовывать метод __eq__?

Рекомендую взять в практику тезис:
следует тестировать поведение, а не реализацию


Рассмотрим реализацию класса Point с атрибутами x и y:
class Point:
def __init__(self, x, y):
self.x = x
self.y = y


Создадим объекты класса a и b:
a = Point(x=1, y=2)
b = Point(x=1, y=2)


Вопрос: как вы будете проверять, что объекты равны?

Логичный ответ:
a == b

// это была проверка поведения

Вы не будете проверять:
a.x == b.x and a.y == b.y

// это была бы проверка реализации

Тесты вашего приложения должны быть наполнены проверкой поведения, а не реализации. В этом случае код будет гораздо легче поддерживать и обновлять.

Вернемся к оригинальному вопросу: если не реализовать метод __eq__, то будут объекты a и b будут неравны. Почему? Какое поведение __eq__ по умолчанию?

#work #study
🔥43
😴 Плохие практики от руководителя инфраструктуры

Заряжаемся настроением на выходные. Лайки 🔥 и комментарии, приветствуются.

👉 прошлый выпуск

#meme
😁32🔥2❤‍🔥1
📊 Практический курс по Machine Learning, 25.03 — 09.06

Давненько... мы не проводили курсы по машинному обучению, не считая заказных курсов в формате tiger team. Я даже знаю тех, кто ждал этого запуска почти 2 года 💪

Чтобы не растекаться мысью по древу ("зачем оно вам"), приложу ссылкой описание курса и целей обучения. Чуть ниже - фидбек одного из выпускников:
Курс был интересным и плодотворным и мне очень понравилось. Круглосуточная поддержка со стороны преподавателей и ассистентов действительно помогла. Мне было очень приятно видеть, как работники и менеджеры(однокурсников) задают вопросы, которые направлены на применения полученных знаний к реальным задачам.


🚀 cтарт через 2 недели
🔥 осталось 6 мест
🗓 календарь обучения на 2024

Чтобы мы продолжили заниматься обучением, а не рекламой, буду премного благодарен поддержке и репостам.

 #work #study
🔥7
🔥 Big Data, совсем скоро

⚡️ эффективная обработка больших данных
🤘 практические задания на реальном кластере
👉 запись

Наборы 2024:
🗓 25 марта - еще 5 мест 4 места 🔥
🗓 старт 26.08 - 18 мест

Можно проходить по частям:
1️⃣ HDFS, Map Reduce, Hive
2️⃣ Spark: from zero to hero
3️⃣ RT, NoSQL, Data Layout

Пример отзыва с последнего запуска:
Спасибо за курс! Узнал много чего нового. До обучения термин Big Data для меня был чем-то призрачным и непонятным. После курса не только понял что это такое, но и как это готовится. Общее впечатление по всему курсу очень положительное. Успехов Вам в работе/обучении/популяризации биг даты!


Не уверены, подходит ли вам обучение? Пример видео из курса, чтобы познакомиться с форматом обучения, глубиной содержания и легкостью донесения информации:
▶️ Видео с курса Практический курс по Big Data (5 мин)

На всякий случай:
🗓 полный календарь обучений на 2024

Будем благодарны вашей поддержке: делитесь с друзьями и коллегами, записывайтесь на курс и ставьте лайки.

#work #study
🔥6
❤️‍🔥 Мое хобби - собирать крутые команды

Представляю вам звездный состав для проведения лучшего курса по ML. Если писать регалии каждого человека, то возможностей одного сообщения телеграм точно не хватит, поэтому коротко:

🇷🇺 Александр Климов, ML Engineer at eBay
🇰🇿 Алексей Драль, CEO at BigData Team
🇷🇺 Дмитрий Игнатов, Head of MMCP Science Lab at HSE
🇩🇪 Илья Бойцов, Deep Learning Lead at Wayfair
🇩🇪 Илья Сенаторов, PhD at University of Saarland
🇪🇸 Кирилл Власов, Team Lead at Catboost
🇬🇧 Эмели Драль, CTO at Evidently.AI

Кому как не Эмели рассказать про метрики качества и их связь с бизнесом. Кому как не Кириллу рассказать как лучше бустить стекинги и стекать бустинги. Кому как не Илье Б и Илье С погрузить в мир научного и практического NN? Кто как не Дима расскажет сложную математику без косяков и на понятных примерах? А ваш покорный слуга (Алексей) и Саша научат лучшим практикам (чего-угодно)-ops (включая MLOps) и проведут обзор по Big Data.

🫶 пошарить
👉 записаться до 25.03

#work #study
🔥8
😅 Шкала прожарки IT специалистов

А какой прожарки разработчики в вашей компании?

Заряжаемся настроением на выходные. Лайки 🔥 и комментарии, приветствуются.

👉 прошлые находки от руководителя инфраструктуры

#meme
😁5🔥31
🤔 Big Data или ML? Что выбрать?

Для слушателей курса Big Data / Machine Learning Engineer (BDMLE) месяц назад наметилась развилка: больше погружаться в Big Data (BD) или Machine Learning (ML)?

Посовещались и решили с вами тоже поделиться лакмусовой бумажкой и информацией по стеку технологий. Надеемся, это знание упростит ваш выбор в преддверии нового раунда Tech Orda.

📜 лакмусовая бумажка: если вы любите больше программировать, чем выводить формулы и считать интегралы, то вам больше подойдет Big Data. В противном случае - ML.

Стек

Big Data: HDFS, Hadoop, Hive, Spark, Kafka + Spark Structured Streaming, NoSQL (Cassandra), Data Layout (Parquet, ORC, compression), плюшки Hadoop 3+.

Machine Learning (основные): numpy, scipy, pandas, sklearn, pytorch, xgboost / lightgbm / catboost.

Вы бы что выбрали?
🐳 Big Data
⚡️ Machine Learning
❤️‍🔥 BD + ML, взболтать, но не смешивать

photo: Артем

#work #study
❤‍🔥72👍2🐳21
Математика для ML

Наши выпускники подготовили списки базовых терминов, которые следует изучить (или вспомнить), прежде чем погружаться в мир Machine Learning.

1️⃣ Базовые понятия

* Предел и производная
* Геометрический смысл производной
* Операции в векторных пространствах
* Матричные операции
* Системы линейных уравнений
* Градиент, применение градиента, градиентный спуск
* Теория вероятностей и статистика:
— Случайная величина и вероятность
— Математическое ожидание и дисперсия (дискретный и непрерывный случаи)
— Среднеквадратическое отклонение

2️⃣ Полезные понятия

* Производная сложной функции
* Нахождение экстремума
* Вторая производная и выпуклость
* Линейная независимость
* Ранг и определитель
* Доверительные интервалы

Идеально знать все, иначе ряд утверждений при выводе алгоритмов ML нужно будет принимать (как аксиомы) на веру.

Action items
1️⃣ Сохранить чек-лист для подготовки
2️⃣ Поставить нам лайк для мотивации подготовки списка литературы 📚

#work #study
14👏4
▶️ Кажется, что кого-то не хватает

Просьба помочь ;)

https://www.youtube.com/c/BigDataTeam

#work #study
8
❣️ про open source лицензии на понятном

Посвящается всем тем, кто не понимает разницу между open source лицензиями и не знает правила по их использованию в коммерческих продуктах.

Не благодарите... Хотя нет, поблагодарите лайками 😊

#work #meme
8😁7