Данные по-большому
139 subscribers
327 photos
59 videos
204 links
И все остальное по-маленькому.

Успешный успех в сфере DE, DS, AI, ML и прочего бигтеха, а также лайфстайл, мемы и новости айтишки и не только
Download Telegram
Вкатывание в IT тогда и сейчас

#мемы
1
Дано: задача со schema evolution и распарсиванием json'ов по куче разных таблиц с разной логикой для каждой таблицы, с кучей функций и прочего легаси. Все на двух airflow dags. Выглядит просто на первый взгляд, да не просто.

Инструменты: Cursor и деньги на нейронки.

Что тестировал:
- Claude Sonnet, Claude Opus, GPT-5 High, Gemini Flash 2.5.

Результаты:
- Opus просто лютый оверпрайс, генерящий кучу ненужного кода с ошибками.
- GPT-5 High огонь, хоть что-то разумное выдает. Цена приемлемая, но иногда нейронка просто отключается и требуется перезапуск запроса.
- Sonnet в сложных задачах хорош для рефакторинга того, что GPT-5 сделала. Плохо держит контекст если файлов много.
- Gemini слишком много требует линукс-команд выполнить.

Итого комбо GPT-5 и Sonnet хоть что-то нормальное выдает. Но вайбкодинг как концепция все ещё очень далек от идеала.
Fun fact: когда я работал в Билайне, то у нас была обёртка в виде Scala-кода для джарника, а все датафреймы любой нуб мог написать, чем я и пользовался.

На нынешнем месте на Python, на котором сидит большинство дата-инженеров в РФ, те же самые задачи почему-то выглядят сложнее, хотя по идее Scala как язык гораздо сложнее питона.

Fun fact 2: имхо дэйлики как явление не особо нужны чаще чем раз в пару дней, а то и раз в неделю. Просто потому что есть дни когда ты реально долго втыкаешь в чужой код или в новую технологию и формально не делаешь ни одного MR и на дэйликах выглядишь как человек, который ничего не сделал.

#рабочие_заметки
А теперь самый интересный fun fact, с которого у меня люто горит жопа: если раньше ты мог втыкать в задачу неделю, то с вайбкодингом растут не только твои возможности, но и твои проблемы. Растут требования к числу закрытых тасок, а ещё ты вроде начинаешь разбираться в чужом коде, а потом внезапно начинаешь понимать что это сгенерированный код. Просишь нейронку сделать на его основе новый код, а она выдает говно. Пытаешься сам писать, но так как новые модели пишут почти сеньорский питонячий бэкэндерский код, то мероприятие по самостоятельному написанию теряет смысл.
В итоге все придет к тому что весь код будет сгенерированным, а сотрудники будут рубить промты, и самый логически мыслящий сотрудник с лучшими навыками запросов к нужной нейронке выдачи лучший код. Чисто петля обратной связи с усложнением как самого кода, так и требований к скорости его понимания. По итогу понимание кода становится существенно хуже как в силу его усложнения, так и в силу KPI по скорости закрытия тасок. Человек перестает понимать что происходит в коде и не успевает глубоко погрузиться в процессы. И рано или поздно с ростом количества сгенерированного кода понимание закончится у большинства сотрудников, даже у лидов - понимать будут только машины.

Так что вайбкодинг - это с некоторой стороны немного печально.
Forwarded from Pavel Velikhov
Выложили все лекции из нашего продвинутого курса по СУБД из ШАД:

1. Современные и графовые СУБД (13.02.2024)
Лекция: https://disk.yandex.ru/i/O5ioXU6b_8YXtA
Семинар: https://disk.yandex.ru/i/TXHXRhEkevSEXg

2. Транзакция в распределенных СУБД & Обзор домашнего задания. Протокол паксос (27.02.2024)
Лекция: https://disk.yandex.ru/i/LasmL4lpMFYbYg
Семинар: https://disk.yandex.ru/i/Zja_e4cxD6_gIg

3. Query Compilers. JIT (05.03.2024)
Лекция: https://disk.yandex.ru/i/QN33G7JowTSOaw
Семинар: https://disk.yandex.ru/i/ynfMwbzez36G5g

5. Протокол tapir. Поколонночные базы данных (12.03.2024)
Лекция: https://disk.yandex.ru/i/vXHtsMfMfyqPFQ

6. Оптимизация SQL-запросов (19.03.2024)
Лекция: https://disk.yandex.ru/i/6L21N7aVisKkrA

7. Оптимизация SQL запросов, часть 2 (26.03.2024)
Лекция: https://disk.yandex.ru/i/dHyuQ-sVRio3Aw

8. Многопоточные операторы SQL (02.04.2024)
Лекция: https://disk.yandex.ru/i/zk0BRG-OqibCNg
Семинар (запись прошлого года): https://disk.yandex.ru/i/sTyzNvNdzRm8-Q

9. Протокол Raft & MPP аналитика (09.04.2024)
Лекция (Протокол Raft): https://disk.yandex.ru/i/3YTiavRj2IcDoA
Лекция (MPP аналитика): https://disk.yandex.ru/i/kkB_ck0emWbCjQ

10. Main memory базы данных (16.04.2024)
Лекция: https://disk.yandex.ru/i/SvBqT8_ZTjvHXA

11. Разработка Postgres (23.04.2024)
Лекция: https://disk.yandex.ru/i/tERU5moyX7j7gQ

12. Обзор индустриальных СУБД: Cassandra, ScyllaDB, Tarantool, Picodata (Часть 1). Обзор ClickHouse. (14.05.2024)
Лекция (Обзор индустриальных СУБД): https://disk.yandex.ru/i/pv_Ks-QrICtIkg
Лекция (Обзор ClickHouse): https://disk.yandex.ru/i/h4PDp5QhfRGVXg

13. YDB. Распределённая масштабируемая отказоустойчивая СУБД с открытым исходным кодом от Яндекс & Динамические таблицы YTsaurus (21.05.2024)
Лекция (YDB): https://disk.yandex.ru/i/5-Ej1jknvEb1OA
Лекция (Динамические таблицы YTsaurus): https://disk.yandex.ru/i/cM7g4Day0U2Gcw

14. Обзор индустриальных СУБД: Cassandra, ScyllaDB, Tarantool, Picodata (Часть 2) (28.05.2024)
Лекция: https://disk.yandex.ru/i/gkK8JvUiiAe8Hw
2
4:19 - учим работать на двух-трех работах и накручивать опыт, чтобы зарабатывать минимум миллион в месяц
4:20 - срочносбор на лечение
Об "Осознанной Меркантильности"

Я неиллюзорно считаю Назарова гением. Если раньше простой народ окучивали только "Бизнес-молодость" и Аяз Шабутдинов, то теперь тренинги по успешному успеху ведутся для самой платежеспособной (после питерской секции дзюдо) категории населения на 1/7 части суши - айтишников. Идея поистине топовая, а появление подражателей - вопрос времени.

И да, я немного завидую белой завистью, что сам такую тему не замутил.
Как говорится, "слышишь денег тихий шелест - значит лох айтишник идёт на нерест".
Мамонтов много даже в айти, и они не вымрут.
90-Days-Of-DevOps – путеводитель для самоподготовки к профессии DevOps-инженера и получению более глубоких базовых знаний о DevOps

Цель состоит в том, чтобы в течение 90 дней, по 1 часу в день, изучить более 13 областей DevOps технологий и получить базовые знания.

#курсы #devops
Узнал, что в англоязычном резюме лучше не писать, что посещал конференцию Highload. Потому что в дословном английском смысле highload - это не высокие нагрузки, а что-то типа "укуренный" или "вмазанный".
Как город Highland в "Бивисе и Баттхеде" дословно переводится как укуренный город/город торчков.

Один такой языковой нюанс - и карьера в западной компании всё. Даже если ты крутой специалист.
Книга: Cracking the tech career
Автор: Gayle McDowell
Жанр: литература по собесам
О чем: с утра (на этот раз действительно с утра, а не как обычно) прочитал данную книгу.
Плюсы книги: структурный подход к интервью в FAANG от и до. Автор заявляет, что писать cover letter и благодарить эйчара за интервью - это ключ к успеху, а ещё говорит о важности заучивания брейнтизеров и задач на оценку (типа задач про подсчет числа шариков для пинг-понга в мире).
Минусы книги: очень поверхностно и для американского рынка труда. Я как-то будучи студентом ВШЭ на одну из первых работ пришел устраиваться в банк Nordea, начитавшись как раз подобных книг по собесам, и стал задавать тупые вопросы как в книге типа "Расскажите как вы достигли такого успеха в данной компании?". В США такие вопросы - это что-то типа "How do you do?", а в России если спросишь что-нибудь подобное, то на тебя посмотрят как на дебила. После этого опыта я больше такие тупые вопросы не задаю, а информацию из подобных книг строго фильтрую.

#книги
😁2
#мысливслух

На самом деле с ростом любой индустрии всегда будут появляться паразиты на этой индустрии. Паразитизм и мимикрия - самые эволюционно эффективные стратегии, минимизирующие расход энергии за счёт питания от организма-хозяина. И пока честный джун-выпускник МФТИ впахивает, мимикрировавшмй "сеньор" без образования панует и паразитирует на джуне.
Однако когда паразитов становится слишком много, есть риск что организм-хозяин помрёт. Так что чем больше "осознанных меркантильностей", накрутчиков и читеров, тем быстрее отрасль сдохнет или породит новую отрасль с диким регулированием и заградительными барьерами.
#мысливслух

Текущая ситуация в российском IT-секторе очень напоминает слом эпох в 1985-1995 годах.

Зрелая индустрия как и зрелое государство начинает постепенно умирать и деградировать. Пока одни кандидаты наук сидят в госшаражках и пилят советскую ОС и советские компьютеры, другие и более ушлые накручивают опыт, подделывают диссертации и различными обходными путями становятся сверхбогатой "элитой" страны. Естественно, честные научные работники ворчат и ругаются, но караван идёт, а страна коллапсирует и распадается.
Так и с нынешней айтишкой: реальные спецы с 20 годами опыта, написанием программ на assемблере и знанием всех алгоритмов ворчат и бузотерят, а ушлые "волки" юлят, накручивают опыт и достижения, читерят и врываются в индустрию и как большевики с наганом отжимают самые хлебные места. Далее логично историческим параллелям будет голод и распад, но это все в будущем. А пока что на "Титанике" ещё нет паники.
Идеи для крупного бизнеса:
- Купить у "Осознанной меркантильности" базу всех, кто обращался за их услугами, а также сдеанонить всех комментаторов. Я вот честно убежден, что ОМ как экстремисты из запрещённого ФБК продадут базу кому нужно, а потом скажут "Ой, нас взломали злые хакеры!"
- Собранную и обогащенную базу накрутчиков, читеров и вкатунов перепродать другим бизнесам.

На втором шаге компании потребуется дата-инженер, поэтому можете в комментах под этим постом обращаться к автору канала😊
🤡1