Заметки математика-программиста, Алексей Драль
742 subscribers
945 photos
25 videos
1 file
346 links
Founder at @BigDataTeam | ex. Amazon | 100k+ студентов
Your guide to the world of Big Data & AI

Бесплатный DS/ML тест: проверь уровень, получи рекомендации
👉 https://goo.gl/forms/vxfEMvKxfiCVWATl1

Блог про страны, работу, книги и наблюдения
Download Telegram
🔬 Новости из мира LLM и аналитики данных

Если вы до сих пор не подписались на Майкла Джордана, то я вам сейчас все расскажу. Ребята из Беркли сделали новый бенчмарк для оценки LLM в мире анализа данных:
1. выгрузили доступные ноутбуки с Kaggle;
2. и начали чехвостить LLM по API, чтобы итеративно двигаться по этим ноутбукам, накидывая предложения чтобы там поисследовать и уточнить (см. картинки)

Long story short: текущее качество анализа данных в режиме исследования (агентов, которые последовательно уточняют гипотезы и делают анализ данных) пока слабенькое: меньше 40% добрались до baseline + не все "submissions" был валидны.

Статься на ArXiv: тут
Бенчмарк на GitHub: тут

// подружиться в 👉 LinkedIn | Facebook | Instagram
#study
🔥9👏2👌1
Forwarded from BigData Team (BDT)
🦁 От истории — к действию!

Мы уже писали про наши крутые футболки. Но потом нас ожидаемо завалило работой и обучениями. Поскольку мы не можем пропустить такое обилие лайков ❤️🔥, то возвращаемся с планом действий.

Ко дню летнего солнцестояния (22 июня), мы собираем информацию по тем, кто уже определился, чтобы сделать заказ новой партии. После этого останутся вопросы стоимости доставки и организация логистики. Смело пишите под катом любые рекомендации.

Напомним о качестве футболок:
✔️ правильные пантоны яркий и стильный дизайн;
✔️ хлопок премиального качества: приятный и на ощупь и на вид. Сохраняет тепло в холодное время года, а в жару остается легким и дышащим;
✔️ экологичные стандарты производства: органический и перерабатываемый хлопок, Global Recycled Standart, Organic Textile Standart

🎁 Бонусы и скидки:
а) 10% скидка самым трудолюбивым: отличники курсов и члены профессионального сообщества BigData Team. Никогда не поздно присоединиться 😏
б) 10% самым дружелюбным: репостни этот пост (где удобнее - telegram, FB, IG, VK, LinkedIn) и собери 10 лайков.

Как заказать?
👉 Переходите по ссылке, выбирайте свой размер и дизайн.
📅 Заявки принимаются до 22 июня (включительно)

Будем благодарны поддержке:
👉 Поставьте ❤️, если вам нравятся наши футболки
🔗 Репост — чтобы друзья тоже узнали о нас
💬 Комментарий — какой дизайн нравится вам больше всего?

BigData Team: the way you learn best
Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer

#BigDataTeam #life
🔥4👏21
🤑 Заметки о пользе финансово-здорового образа жизни

Мы тут с GPT перекинулись размышлениями и он утверждает (в цифрах), что дополнительный заработок приносит прилично больше здоровья, чем вред от умеренного распития алкогольных напитков.

🍷 Пользуйтесь на здоровье

#life
🔥11👏2
🧐 Лайфхаки для построения бизнеса

Если вы только планируете запускать проект и на его запуск не хватает денег — поздравляю! Вы находитесь на первой стадии поднятия инвестиций, называемой 3F (friends, family and fools).

Брать кредит, искать гранты или ввязываться в стартаперско-инвестиционную историю — неважно. В первую очередь вам необходимо разработать бизнес-план. Это путеводная карта, которая позволит понять, действительно ли вы хорошо подумали (и все продумали). Спойлер: все равно нет (но это уже совсем другая история).

Так как же этот бизнес-план разработать и где найти хорошие примеры? Оказалось, что далеко ходить не надо и коллеги из технопарка Astana Hub уже все придумали:
✍️ гайд по подготовке бизнес-плана

Если тема кажется полезной - подкиньте лайков и подпишите друзей, которым не хватает волшебного пенделя структуры. С удовольствием дополню бизнес-план комментариями по функциями команды и личным опытом, а также о чем еще нужно подумать помимо бизнес-плана для старта компании.

📸 фотографии с конференции WDS'23

// подружиться в 👉 LinkedIn | Facebook | Instagram
#work
🔥5👍32👏1
🤔 Бизнес vs Наука

Друзья, мне через пару недель предстоит серьезный challenge: рассказать школьникам, чем отличается мир науки (академическая карьера) от корпораций (от найма до открытия собственной компании).

Я уже начал приходить в личку к друзьями, знакомым и мучать с вопросами, но вы можете предвосхитить мое внезапное появление и поделиться в комментариях вашими наблюдениями и опытом. Ключевой вопрос: расскажите, что вам нравится и не нравится в вашей работе в науке / компании / собственном бизнесе. А если есть возможность сравнить разный опыт - то вообще идеально.

P.S. до встречи на ШМТБ в Nazarbayev University (NU) в Астане

// подружиться в 👉 LinkedIn | Facebook | Instagram
#life #work #study
🔥11👏2
🙅 Повторение - мать учения made wrong

Какая же это предательски неправильная фраза. Всмысле — она максимально правильная, но понимаем мы ее зачастую абсолютно неправильно.

Мы закрепляем знания гораздо лучше, не когда "зубрим" (банально "повторяем"), а когда "повторяем" в смысле "пересказываем" то, что узнали кому-либо еще (можно даже себе, но другими словами). Таким образом, мы простраиваем большей ментальных хуков / связей в головном мозге.

Мне кажется, что правильный оборот я почерпнул либо из LH2L, либо из Кови.

P.S. Если не слышали, про LH2L, то обратите внимание, что количество сохранений этого поста в несколько раз превышает количество лайков 😉

📸 хожу тут, размышляю о беседах с GPT...

// подружиться в 👉 LinkedIn | Facebook | Instagram
#life #study
11
🙋‍♀️ Загадка

Я исполняю капризы клиентов, часто работаю по ночам и мне за это много платят. Кто я такой?

Ответ: программист
P.S. но в садовники иногда ой как хочется 😅

// подружиться в 👉 LinkedIn | Facebook | Instagram
#random
😁8👏3👌2
Forwarded from BigData Team (BDT)
🧑‍💻 Практический курс по Big Data
🔥 последний Full запуск 2025

Недавно мы рассказывали о разных уровнях доступа к обучению. Вы можете выбрать удобный формат и начать учиться без ожидания старта курса. Но что, если ждать вообще не придется? Запуск Практического курса по Big Data состоится уже 28 июля!

🗓 Даты обучения: 28.07.2025 — 05.10.2025

Если вы уже разбираетесь в теме, курс можно приобрести по частям:
Часть 1. HDFS, Map Reduce, Hive
Часть 2. Spark: from zero to hero
Часть 3. RT, NoSQL, Data Layout

🧑‍🎓 Добавим свежий отзыв выпускника:
“Я никогда ещё так усердно не учился. Именно ваш курс стимулировал меня, спасибо вам за это!”
(с) Роман

Практический курс по Big Data:
👉 полное описание + запись
🧑‍🎓 отзывы выпускников: Сергей
▶️ пример видеоролика с курса (5 min)

Истории успеха для вдохновения:
Жанбулат, Big Data Engineer, KZ
Ердаулет, Big Data Engineer, FAANG/MANGA

BigData Team: the way you learn best
Py4BDA | Python | Machine Learning | Big Data | BD/ML Engineer

#study
🔥9
🔬 LLM аннотация 2-х часового видео

Я уже говорил, что готовлю лекцию для школьников и студентов про карьерные треки за пределами обучения. Очень удачно в прошлом году мы как раз проводили митап про разницу работы в науке и IT. Дискуссия была настолько интересной, что вместо запланированного часа сессия продлилась целых 2 часа.

Было бы кощунством не переиспользовать заметки и выводы с таких митапов. С одной стороны, можно пересмотреть видео и освежить интересные цитаты и тезисы. С другой - ты же программист! (с)

Long story short: современные LLM и их возможности прекрасны.

👨‍💻 Заметки для программистов 👩‍💻
— 15 строчек кода (в bash) и несколько часов экспериментов - и у вас свой воспроизводимый пайплан для аннотации встреч
— 2 часа текста переварить им сложно, поэтому нужно работать по чанкам (полезная находка: split -l)
— если хотите аннотацию по спикерам, то pyannote/segmentation-3.0 + pyannote/speaker-diarization-3.1 вам в помощь (Hugging Face 🫶)
— помимо whisper, про который я писал здесь, есть еще и whisperx (где-то быстрее, где-то функциональнее)
— все модели в какой-то момент переключаются на родной язык разработчиков (обычно английский, но иногда и китайский). А здесь могла бы быть ваша реклама иностранных курсов 😉

Золотое правило: в ML решают данные, в LLM — промпты.

Заметки по моделям
Эспериментировал с доступными и легкими моделями в рамках ollama (про него писал тут): llama3:8b, mistral:instruct, deepseek-r1:8b.

🥇 llama3:8b
Подошла больше всех для поставленной задачи. Примеры цитат с аннотацией спикеров на скриншоте.

⚡️ mistral:instruct
Вроде самый легкий и быстрый, но не такой информативный, как llama3:8b. Можно использовать, если важна эффективность.

🤣 deepseek-r1:8b
Больше всех отжигал DeepSeek. Как мы знаем (DeepSeek-V3 Technical Report) он лучший в математике и видимо поэтому его триггерит на любое употребление слова "analyze". Оставлю вам на позалипать и для поднятия настроения:
Thinking...
Это похоже, это не был вредный мир

I have a text is given by the above conversation:
- Начать анализировать текст и объяснить почему?

The analysis of the provided data and write down the time complexity of this question.
In some cases,but I can't make out what you are doing today, so let's just say there was nothing wrong with that.

I need to find a function for each day in 5 seconds.
He is a quick-witted little bit confused. You must be able to stop the time-out feature of this problem: "Яндекс Music Store
This program provides an overview of how many times does it possible to analyze and interpret the following data analysis report from the given text, which one is better than not having no other way.

But I don't know if there are multiple processes that can be done with a single query输入不规则的分析。

(с) DeepSeek-R1

P.S. Кто знает китайский - дайте знать, он там ругается или что-то дельное говорит?

// подружиться в 👉 LinkedIn | Facebook | Instagram
#random
🔥93👍2
🔬 Работа в науке vs индустрии (взгляд предпринимателя)

Что выбрать после университета: остаться в науке, пойти в найм или попробовать создать что-то своё? Является ли этот выбор взаимоисключающим — или возможны переходы между направлениями?

В докладе обсудим:
– чем отличается работа в научной среде от роли в компании или собственного проекта;
– какие формы свободы, ответственности и рисков характерны для каждой траектории.

В основе доклада — наблюдения из практики, а также опыт коллег, работающих в IT и предпринимательстве.

📍 Nazarbayev University (NU)
🔬 School of Molecular and Theoretical Biology (SMTB)

P.S. Большое спасибо, всем кто поделился своим опытом для подготовки доклада. Кажется нужно будет сделать турне по вузам, поделиться находками.

// подружиться в 👉 LinkedIn | Facebook | Instagram
#life #study
🔥177👍3
😲 Ты заикался? Серьёзно?

Я часто выступаю, записываю видео, общаюсь с аудиторией и это кажется естественным. Но когда-то всё было иначе.

Один португальский школьник как-то удивлённо спросил:
— Ты тоже заикался? Серьёзно?
Вот тогда я и решил, что стоит поделиться историей. Вдруг она кому-то поможет.

До того как мне исполнилось 6 лет, у меня уже была бурная молодость:
— эмиграция из Абхазии во время вооружённого конфликта
— развод родителей
— переезд в другую страну к неизвестному бородатому дядьке
// 📸 фото-proof прикладываю 👆
Все никак не могу понять, были ли здесь триггеры для нервных тиков и заикания? Или я просто нашел креативный способ не рассказывать стихотворения на утреннике.

К счастью, рядом была бабушка, которая умела решать проблемы советскими методами. Все знают, как в СССР учили плавать?
— лодка
— озеро
— и угроза остаться без ужина
С речью примерно так же — бабушка отвела меня в театральный кружок.

К чести сказать, мне было не так стыдно за мое вступительное задание, как моей бабушке. Я повадился кататься через Волгу на лодках с красноречивыми забулдыгами и понабрался у них кое-какого репертуара для выступлений. Выступления были живыми. Иногда слишком...

Прошли десятилетия. Я веду тренинги, выступаю на конференциях, записал сотни видеороликов, которые посмотрели сто тысяч человек. Выступления стали для меня местом силы и заряжают энергией. Заикание ушло, но теперь бедолагам приходится терпеть мою многословность. Не уверен, кто страдает больше — я тогда или слушатели сейчас.

Мораль: ценному можно научиться играючи.

P.S. полезны личные истории - ставь ❤️

// подружиться в 👉 LinkedIn | Facebook | Instagram
#life
🔥2316🥰6👏2
🏔 Водопад "Орлиное гнездо"

Первое правило хорошей фотографии:
— не фотографироваться против солнца

Дополнительное правило для кучерявых:
— не фотографироваться против ветра 😂

Маршрут несложный, но если захотите подобраться поближе к водопаду, то будет полезна водоотталкивающая обувь (e.g. Gore-Tex).

У меня была спортивная вылазка (с нагрузкой и резинками). Переобусь, вернусь, сделаю обзор и фотографии. Не переключайтесь 😉

Красивое и познавательное:
🍎 План путешествия по Алматы и окрестностям

// подружиться в 👉 LinkedIn | Facebook | Instagram
#travel #kazakhstan 🇰🇿
16😁5🔥4👏1
🤔 а Google translate неплох
И конкурсы примеры интересные...

Интересно, у вас также (попробовать) или это у меня какая-то персонализация?

P.S. откуда ноги растут: готовился к записи видео про Data Engineering

// подружиться в 👉 LinkedIn | Facebook | Instagram
#random
😁10🔥4
🐿 Кто это нам тут орешки в горы носит?

Пушистый элемент замечен около мемориала в Малом Алматинском Ущелье. Будьте внимательны и готовьте орешки заблаговременно.

#random
15😁4
🧠 Как из одного курса, лени и пары фейлов построить экосистему

В интернете кто-то не прав, а точнее 99.997% населения Земли, которые почему-то решили, что можно не получать степень магистра по распределенным вычислениям и дискутировать на тему Big Data.

На самом деле не шуточная статья про:
— пользу и вред для бизнеса от ленивых программистов
— удачные неудачные названия и их последствия
— почему нельзя просто взять платформу X

В финале вас ждет напутственная байка и предложение для энтузиастов, которых ограничивают известные вам LMS.

Статья: life.bigdatateam.org/lazy-ecosystem-from-fail-to-scale
Кому удобнее: на vc.ru

Приглашаю почитать и подискутировать.

// подружиться в 👉 LinkedIn | Facebook | Instagram
#life #work #study
11👏2
🤦‍♂️ Никогда такого не было и вот опять...
// продолжение рубрики бизнес по-русски⁠⁠

У меня давняя любовь к Mail.ru. Но они не перестают удивлять "клиентоориентированным" подходом.

Суть дела: вероятно, топ-менеджеры Mail.ru решили, что они недостаточно зарабатывают на открутке контекстной и баннерной рекламы в аккаунтах малого и среднего бизнеса (МСБ).

В целом, это прекрасная и понятная позиция для бизнеса, но правильная коммуникация решает. Что в свое время сделал Яндекс:
Друзья! Мы собираемся прикрыть бесплатный сервис для МСБ, поэтому даем вам год на переезд и API с инструкцией как это сделать.


Что же сделал Mail?
Если вы не заплатите, то мы вас заблочим.
У вас 10 дней 🔥


У Mail.ru есть прекрасные плюшки (за что мы их в свое время выбрали в сравнении с тем же Яндекс и GMail), но, к сожалению, отношение к клиентам оставляет желать лучшего. Учимся на чужих примерах — как делать не стоит, или как просрать подорвать доверие будущей аудитории.

Подводные камни переезда от Mail.ru:
1. Мы уже сейчас не можем даже разблокировать старые учетки, чтобы их забекапить. Выбор - либо плати, либо удаляй;
2. Чтобы выкачать любой аккаунт по API нужно завести отдельную сим-карту. Тоже отдельное приключение.

Мораль
Если вы работаете в СНГ, то, к сожалению, в любой момент ваши данные, хранящиеся у провайдера могут за одну минуту превратиться в тыкву. Бонусом, даже заплатив деньги вы, вероятно, не сможете достать ваши данные (спасибо опыту работы с Bitrix 🤮).

После единожды пережитой потери данных у провайдера и рекета по отношению доступа к ним, гораздо проще переживать новые, а также логичным образом вытекает ответ на вопрос: почему мы пилим свою экосистему. Да потому что уровень доверия на рынке СНГ - ниже плинтуса.

Послесловие
Мы работаем в СНГ уже довольно прилично (с 2017 года). И из того, что мы пережили - это прямо цветочки. Но очень обидно, что вместо развития продукта приходится постоянно думать, в каком еще месте тебе захотят поставить палки в колеса.

Рекомендации от наших IT'шников: если вы МСБ и хотите переехать на свой почтовый сервис, обратите внимание на open-source решение Mailcow. Немного топорненько, но зато не бьет по карману, если у вас сотни почтовых ящиков.

// Заметки предпринимателя в СНГ
Предупрежден сам - предупреди друга 😉

🤗 Peace, love, обнимашки
#work #life #ахтунг
😢11👍4💔3