Данные по-большому
139 subscribers
327 photos
59 videos
204 links
И все остальное по-маленькому.

Успешный успех в сфере DE, DS, AI, ML и прочего бигтеха, а также лайфстайл, мемы и новости айтишки и не только
Download Telegram
Вкатывание в IT тогда и сейчас

#мемы
1
Дано: задача со schema evolution и распарсиванием json'ов по куче разных таблиц с разной логикой для каждой таблицы, с кучей функций и прочего легаси. Все на двух airflow dags. Выглядит просто на первый взгляд, да не просто.

Инструменты: Cursor и деньги на нейронки.

Что тестировал:
- Claude Sonnet, Claude Opus, GPT-5 High, Gemini Flash 2.5.

Результаты:
- Opus просто лютый оверпрайс, генерящий кучу ненужного кода с ошибками.
- GPT-5 High огонь, хоть что-то разумное выдает. Цена приемлемая, но иногда нейронка просто отключается и требуется перезапуск запроса.
- Sonnet в сложных задачах хорош для рефакторинга того, что GPT-5 сделала. Плохо держит контекст если файлов много.
- Gemini слишком много требует линукс-команд выполнить.

Итого комбо GPT-5 и Sonnet хоть что-то нормальное выдает. Но вайбкодинг как концепция все ещё очень далек от идеала.
Fun fact: когда я работал в Билайне, то у нас была обёртка в виде Scala-кода для джарника, а все датафреймы любой нуб мог написать, чем я и пользовался.

На нынешнем месте на Python, на котором сидит большинство дата-инженеров в РФ, те же самые задачи почему-то выглядят сложнее, хотя по идее Scala как язык гораздо сложнее питона.

Fun fact 2: имхо дэйлики как явление не особо нужны чаще чем раз в пару дней, а то и раз в неделю. Просто потому что есть дни когда ты реально долго втыкаешь в чужой код или в новую технологию и формально не делаешь ни одного MR и на дэйликах выглядишь как человек, который ничего не сделал.

#рабочие_заметки
А теперь самый интересный fun fact, с которого у меня люто горит жопа: если раньше ты мог втыкать в задачу неделю, то с вайбкодингом растут не только твои возможности, но и твои проблемы. Растут требования к числу закрытых тасок, а ещё ты вроде начинаешь разбираться в чужом коде, а потом внезапно начинаешь понимать что это сгенерированный код. Просишь нейронку сделать на его основе новый код, а она выдает говно. Пытаешься сам писать, но так как новые модели пишут почти сеньорский питонячий бэкэндерский код, то мероприятие по самостоятельному написанию теряет смысл.
В итоге все придет к тому что весь код будет сгенерированным, а сотрудники будут рубить промты, и самый логически мыслящий сотрудник с лучшими навыками запросов к нужной нейронке выдачи лучший код. Чисто петля обратной связи с усложнением как самого кода, так и требований к скорости его понимания. По итогу понимание кода становится существенно хуже как в силу его усложнения, так и в силу KPI по скорости закрытия тасок. Человек перестает понимать что происходит в коде и не успевает глубоко погрузиться в процессы. И рано или поздно с ростом количества сгенерированного кода понимание закончится у большинства сотрудников, даже у лидов - понимать будут только машины.

Так что вайбкодинг - это с некоторой стороны немного печально.
Forwarded from Pavel Velikhov
Выложили все лекции из нашего продвинутого курса по СУБД из ШАД:

1. Современные и графовые СУБД (13.02.2024)
Лекция: https://disk.yandex.ru/i/O5ioXU6b_8YXtA
Семинар: https://disk.yandex.ru/i/TXHXRhEkevSEXg

2. Транзакция в распределенных СУБД & Обзор домашнего задания. Протокол паксос (27.02.2024)
Лекция: https://disk.yandex.ru/i/LasmL4lpMFYbYg
Семинар: https://disk.yandex.ru/i/Zja_e4cxD6_gIg

3. Query Compilers. JIT (05.03.2024)
Лекция: https://disk.yandex.ru/i/QN33G7JowTSOaw
Семинар: https://disk.yandex.ru/i/ynfMwbzez36G5g

5. Протокол tapir. Поколонночные базы данных (12.03.2024)
Лекция: https://disk.yandex.ru/i/vXHtsMfMfyqPFQ

6. Оптимизация SQL-запросов (19.03.2024)
Лекция: https://disk.yandex.ru/i/6L21N7aVisKkrA

7. Оптимизация SQL запросов, часть 2 (26.03.2024)
Лекция: https://disk.yandex.ru/i/dHyuQ-sVRio3Aw

8. Многопоточные операторы SQL (02.04.2024)
Лекция: https://disk.yandex.ru/i/zk0BRG-OqibCNg
Семинар (запись прошлого года): https://disk.yandex.ru/i/sTyzNvNdzRm8-Q

9. Протокол Raft & MPP аналитика (09.04.2024)
Лекция (Протокол Raft): https://disk.yandex.ru/i/3YTiavRj2IcDoA
Лекция (MPP аналитика): https://disk.yandex.ru/i/kkB_ck0emWbCjQ

10. Main memory базы данных (16.04.2024)
Лекция: https://disk.yandex.ru/i/SvBqT8_ZTjvHXA

11. Разработка Postgres (23.04.2024)
Лекция: https://disk.yandex.ru/i/tERU5moyX7j7gQ

12. Обзор индустриальных СУБД: Cassandra, ScyllaDB, Tarantool, Picodata (Часть 1). Обзор ClickHouse. (14.05.2024)
Лекция (Обзор индустриальных СУБД): https://disk.yandex.ru/i/pv_Ks-QrICtIkg
Лекция (Обзор ClickHouse): https://disk.yandex.ru/i/h4PDp5QhfRGVXg

13. YDB. Распределённая масштабируемая отказоустойчивая СУБД с открытым исходным кодом от Яндекс & Динамические таблицы YTsaurus (21.05.2024)
Лекция (YDB): https://disk.yandex.ru/i/5-Ej1jknvEb1OA
Лекция (Динамические таблицы YTsaurus): https://disk.yandex.ru/i/cM7g4Day0U2Gcw

14. Обзор индустриальных СУБД: Cassandra, ScyllaDB, Tarantool, Picodata (Часть 2) (28.05.2024)
Лекция: https://disk.yandex.ru/i/gkK8JvUiiAe8Hw
2
4:19 - учим работать на двух-трех работах и накручивать опыт, чтобы зарабатывать минимум миллион в месяц
4:20 - срочносбор на лечение
Об "Осознанной Меркантильности"

Я неиллюзорно считаю Назарова гением. Если раньше простой народ окучивали только "Бизнес-молодость" и Аяз Шабутдинов, то теперь тренинги по успешному успеху ведутся для самой платежеспособной (после питерской секции дзюдо) категории населения на 1/7 части суши - айтишников. Идея поистине топовая, а появление подражателей - вопрос времени.

И да, я немного завидую белой завистью, что сам такую тему не замутил.
Как говорится, "слышишь денег тихий шелест - значит лох айтишник идёт на нерест".
Мамонтов много даже в айти, и они не вымрут.
90-Days-Of-DevOps – путеводитель для самоподготовки к профессии DevOps-инженера и получению более глубоких базовых знаний о DevOps

Цель состоит в том, чтобы в течение 90 дней, по 1 часу в день, изучить более 13 областей DevOps технологий и получить базовые знания.

#курсы #devops
Узнал, что в англоязычном резюме лучше не писать, что посещал конференцию Highload. Потому что в дословном английском смысле highload - это не высокие нагрузки, а что-то типа "укуренный" или "вмазанный".
Как город Highland в "Бивисе и Баттхеде" дословно переводится как укуренный город/город торчков.

Один такой языковой нюанс - и карьера в западной компании всё. Даже если ты крутой специалист.
Книга: Cracking the tech career
Автор: Gayle McDowell
Жанр: литература по собесам
О чем: с утра (на этот раз действительно с утра, а не как обычно) прочитал данную книгу.
Плюсы книги: структурный подход к интервью в FAANG от и до. Автор заявляет, что писать cover letter и благодарить эйчара за интервью - это ключ к успеху, а ещё говорит о важности заучивания брейнтизеров и задач на оценку (типа задач про подсчет числа шариков для пинг-понга в мире).
Минусы книги: очень поверхностно и для американского рынка труда. Я как-то будучи студентом ВШЭ на одну из первых работ пришел устраиваться в банк Nordea, начитавшись как раз подобных книг по собесам, и стал задавать тупые вопросы как в книге типа "Расскажите как вы достигли такого успеха в данной компании?". В США такие вопросы - это что-то типа "How do you do?", а в России если спросишь что-нибудь подобное, то на тебя посмотрят как на дебила. После этого опыта я больше такие тупые вопросы не задаю, а информацию из подобных книг строго фильтрую.

#книги
😁2
#мысливслух

На самом деле с ростом любой индустрии всегда будут появляться паразиты на этой индустрии. Паразитизм и мимикрия - самые эволюционно эффективные стратегии, минимизирующие расход энергии за счёт питания от организма-хозяина. И пока честный джун-выпускник МФТИ впахивает, мимикрировавшмй "сеньор" без образования панует и паразитирует на джуне.
Однако когда паразитов становится слишком много, есть риск что организм-хозяин помрёт. Так что чем больше "осознанных меркантильностей", накрутчиков и читеров, тем быстрее отрасль сдохнет или породит новую отрасль с диким регулированием и заградительными барьерами.
#мысливслух

Текущая ситуация в российском IT-секторе очень напоминает слом эпох в 1985-1995 годах.

Зрелая индустрия как и зрелое государство начинает постепенно умирать и деградировать. Пока одни кандидаты наук сидят в госшаражках и пилят советскую ОС и советские компьютеры, другие и более ушлые накручивают опыт, подделывают диссертации и различными обходными путями становятся сверхбогатой "элитой" страны. Естественно, честные научные работники ворчат и ругаются, но караван идёт, а страна коллапсирует и распадается.
Так и с нынешней айтишкой: реальные спецы с 20 годами опыта, написанием программ на assемблере и знанием всех алгоритмов ворчат и бузотерят, а ушлые "волки" юлят, накручивают опыт и достижения, читерят и врываются в индустрию и как большевики с наганом отжимают самые хлебные места. Далее логично историческим параллелям будет голод и распад, но это все в будущем. А пока что на "Титанике" ещё нет паники.
Идеи для крупного бизнеса:
- Купить у "Осознанной меркантильности" базу всех, кто обращался за их услугами, а также сдеанонить всех комментаторов. Я вот честно убежден, что ОМ как экстремисты из запрещённого ФБК продадут базу кому нужно, а потом скажут "Ой, нас взломали злые хакеры!"
- Собранную и обогащенную базу накрутчиков, читеров и вкатунов перепродать другим бизнесам.

На втором шаге компании потребуется дата-инженер, поэтому можете в комментах под этим постом обращаться к автору канала😊
🤡1
Считаю что тот дата-инженер и дата-саентист, кто получает меньше этой суммы, просто мало старается
😁2
🔥Встречайте Scalabook: пополняемая база знаний о Scala на русском языке!

Руководитель группы разработчиков на Scala в компании «Криптонит» Артём Корсаков создал русскоязычную базу знаний по Scala — Scalabook.

❗️Это уникальный проект, в котором представлены материалы о функциональном программировании, алгоритмах и структурах данных, классах типов, переводы статей, а также ресурсы различного уровня сложности для изучения Scala.

Также уделено внимание практическим аспектам функционального программирования: создан тренажёр с набором задач возрастающей сложности, которые позволяют освоить ключевые концепции функционального программирования на Scala.

На сайте можно оставлять комментарии, получать обратную связь по решениям задач или предлагать дополнения для расширения базы знаний. Scalabook регулярно обновляется: добавляются новые упражнения, пояснения и материалы.

📌Если вы только начинаете изучать Scala или хотите систематизировать накопленный опыт, на Scalabook есть раздел с ресурсами: в нём собраны материалы по Scala и программированию в целом. #новости_Криптонит #scala
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Актуальный минимум для devops-разработчика (стажёра).
Забираем и заучиваем.

#роадмапы
К вопросу о том, будет ли достигнуто радикальное продление жизни на нашем с вами веку с точки зрения политического подтекста.

Даже по опросам на ультралиберальных помойках подавляющее большинство не хотят жить долго. Хотя казалось бы люди "прогрессивных взглядов". Что уж тогда говорить об условных "ватниках"?

И тут можно строить разные гипотезы о том, что большинство увлечённых политикой и читающих/смотрящих либеральные медиа - это российские деды-демшизы-колбасные эмигранты или жители 404ой страны-концлагеря с закрытыми границами, в которой не жить хочется, а скорее умереть, а вот молодое поколение умных людей политикой мало увлекается и потому скорее с большей вероятностью научные имморталисты. Но что-то мне подсказывает что нет, тема иммортализма не просто непопулярна, а вообще крайне мало кому известна. Тем более в условиях стран второго-третьего мира с распространенностью религиозного мышления.

Но, может быть, будет как с нейронками: сначала знали единицы, а после изобретения и массового внедрения знают и пользуются миллионы людей.

#научный_иммортализм