Я – Дата Инженер | Евгений Виндюков
5.04K subscribers
353 photos
37 videos
13 files
243 links
💵 Как стать Data Engineer
🗄 Смотри Roadmap в закрепе!
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня дата инженер, завтра слесарь, послезавтра инвестор

Че думаем?
🔥18👏74😱3🤔1
Новое техношоу о фейлах на дата-платформах

Все упало, все сломалось, бизнес в панике. Для дата-инженеров это обычный вторник, а для шоу «Дропнуто» — повод снять свежий выпуск.

«Дропнуто» превращает фейлы дата-платформ в истории, которые полезно услышать каждому, кто работает с данными. В центре каждого эпизода — один герой и одна яркая история фейла, развернутое обсуждение архитектуры и процессов, а также немного самоиронии.

Анонсы и ссылки на прямые эфиры появятся в телеграм-боте проекта.

Подписывайтесь, чтобы узнавать о премьерах первыми
4🔥3👏3
This media is not supported in your browser
VIEW IN TELEGRAM
Есть AI — а если найду?!

Интересная мысль. В будущем ребята видят два пути развития искусственного интеллекта. Первый путь — когда он доступен всем и децентрализован. Условно как биткоин или любая криптовалюта: AI работает как единый компьютер, распределённый по всему миру среди всех персональных устройств. Благодаря этому доступ к искусственному интеллекту есть у каждого жителя планеты, а стоимость его обслуживания минимальна, потому что каждый вносит свой вклад в развитие и поддержание системы.

Второй путь — когда искусственный интеллект находится в руках нескольких крупных компаний, которые могут устанавливать любую цену за пользование, любые условия, любые пакеты. Если у тебя есть доступ к такому инструменту, ты автоматически становишься более высокоранговым, статусным, «премиальным». Разработчики, инженеры, программисты и специалисты, которые не смогут воспользоваться AI — потому что не могут его купить, поднять самостоятельно или у них нет доступа к open-source, — окажутся в числе отстающих.

Интересно, куда всё в итоге придёт. Но я предполагаю, что open-source всё-таки будет жить, потому что количество энтузиастов и амбициозных людей всё ещё велико. И весь этот опен сорс — на мой взгляд проявление творческих людей, которым невозможно сидеть дома и бездельничать. Наверняка придумают свои мини дата центры и будут там крутить свои ЛЛМки…
6🔥5👍2
Мы внедрили AI! И он нас заменил!

Конечно, я всегда пишу заголовки, чтобы вы кликнули. Я мог бы написать:
RAG + chromadb + LLM (интересное решение для телеграм бота)

Крутяк. И ровно 4000 человек пролистывает эту чушь, потому что вообще непонятно для кого. И только два человека, шарящие за РАГ и языковые модели открывают этот пост.

Рассказываю. Вот нас спрашивают, когда буткемп, где ссылка на бусти, когда курс? А где подписаться? А есть ссылка на роадмап..
Особенно хотелось закрыть вопрос с ближайшими потоками. И вот какая пришла у меня идея. Хотелось бота, который знает все о наших продуктах, сайтах, расписаниях и ценах.. и чтобы все в одном месте. Но писать каждый раз новые кнопки, подключения к БД нет желания и времени.

И что я придумал?
Я взял и написал AI телеграм бота. Если что, ничего волшебного там нет. И сейчас я вам покажу откуда готовилось нападение решение и как оно работает.
Быстрый экскурс в LLM. Это переводится, как большая языковая модель. Все, что он делает — это круто умеет ставить слова друг за другом, подражая человеческой речи. Такой Т9 на максималках. Поэтому я скорее называю это LLM бота, а не AI. Просто AI на хайпе и не написать это — я просто не могу! Давайте я Сам решу, сам решууу!
Так вот теперь можно написать боту @roadmappers_bot сообщение, как человеку и он проконсультирует вас по всем нашим продуктам, выдаст все ссылки и ответит на вопросы касательно roadmappers.ru. На вопросы не по теме, он ответит, что не располагает информацией и предложит написать нам в лс.

Как это работает?
Значит создаем телеграм бота. Тут все просто, дальше пишем код, который будет обращаться к LLM модели. Они бывают разные: платные, бесплатные по АПИ, бесплатные локально.. Я пробовал ВСЁ!

Платный. Это например OpenAI или DeepSeek. Второй дешевле. Закидываешь ОМЕРИКАНСКИЕ ДОЛЛАРЫ в личный кабинет и платишь за использования их API. Как закинуть баксы в ДипСик — ищите в гугле. Там первая ссылка выдает отличный сайт, где вам все ваши бабки закинут на ваш Личный кабинет. Уже давно все за вас придумали.

Бесплатно. Можно по API ходить в OpenRouter к любой выбранной модели. Но работает нестабильно. Также можно скачать к себе локально модель через Ollama или Docker Model Runner, но работает медленно и тоже нестабильно. Нужно явно GPU.

Поигравшись с разными вариантами я понял, что готов потратить, ВНИМАНИЕ, 2 ДОЛЛАРА на API ключ в DeepSeek.
АПИшка работает отлично, ответ быстрый, ошибок пока не было обнаружено.

А теперь как это работает?
Вопросы к LLM отсылаются, как обычный post запрос в API. Т.е. мы буквально отправляем АПИ ТОКЕН + строку с нашим вопросом. Также можно добавить туда промпт. Например "Отвечай, как будто ты менеджер по продажам. Вот наши продукты: ....."
И по-началу я в этот промпт закидывал огромную строку с описанием всех продуктов. Но это не масштабируется. Каждый раз отправлять огромный контекст не пойдет. Что если я хочу скормить весь роадмап? Тут она либо долго будет обрабатывать, либо вообще упадет по памяти. Везде есть лимиты.

И че делать?
Математика 5-ый класс. ВЕКТОРА. Мы берем всю нашу полезную информацию (базу знаний) и векторизуем (текст переводим в числа), загружая все в векторную базу данных. Че? Зачем?

Когда мы спрашиваем бота, он векторизует наш вопрос, идет в БД и ищет совпадения (мы же перевели строки в числа) и отбирает наиболее похожие. Например берет первые 3 варианта или 5. Это все можно настроить. В итоге в саму API летит ваш вопрос + несколько релевантных ответов, вместо всей кучи. В итоге ЛЛМка просто принимает этот текст и пересобирает в более читаемый и клевый вид. Да, там можно еще добавить, чтобы Трансформер собирал в конкретном стиле + добавить ограничения, на случай, если вопрос не связан с базой знаний.

Поняли, что ничего не поняли?
Подробнее о том, как это работает и как настраивается я расскажу в бусти Роадмаперы. А где ссылка?

Спросите ее у бота. Вообще порекомендую пообщаться с ним. Он вам расскажет и по буткемпам и ценам и по потокам.
@roadmappers_bot

Подписывайтесь и вместе поразгоняем, где можно использовать таких чат ботов!
🔥236👏5
Как сейчас залетать в IT?

Услышал историю на третьем потоке BootCamp о том, как человек получил оффер (Да, к нам на буткемп иногда приходят уже действующие ДЕшники)

Итак быстро рассказываю:
Человеку около 35 лет, никак не был связан с IT. Прям даже близко. Из обучения у него Skypro — Python Backend.

Поучился там и выложил какое-то пустое резюме, его тут же схватил Астон (это типа аутстафф, который перепродает вас на проекты других компаний). В целом об Астоне разные мнения и очень сильно разнятся. Но сейчас не об этом.

Примечание: В Астоне может быть договор, в случае которого, вы не можете уволиться раньше некоторого времени и придется выплачивать неустойку до 500к. У всех ли он или нет сейчас, не могу сказать. Но такие моменты встречались. Договор подписываете вы, поэтому будьте внимательны, если вас такие условия не устроят.

Человек 3 месяца у них учился. Да, у них есть бесплатная программа обучения. Если что я ее видел. Я БЫ ВАМ НЕ РЕКОМЕНДОВАЛ (Мнение чисто субъективное). Там очень много всего намешано просто в один котел и на все уровни знаний. Видимо, чтобы вы все это выучили и вас перепродали уже дальше, как сеньора. Зарплату при этом сеньорную никто естественно вам платить не будет. Ок, едем дальше.

После 3-ех месяцев обучения человеку начали искать проект. Но, как я понял, так и не нашли и в итоге он с 6-ю месяцами вышел на рынок. В резюме написал Астон и докрутил уже до 1 года. Учитывая, что сейчас 2025 год и вроде, как один год фильтруется HR, но человеку прям повезло и его позвали в одну крупную ритейл компанию. Название оставим за скобками.

Деньги
Выходит 150к + премия. Это позиция джуна. Испытательный срок человек прошел. Уже идет 4-5-ый месяц реальной работы.

Из плюсов — но одновременно и минусов — здесь используется современный стек: Airflow, S3, ClickHouse, Spark, Trino, dbt, Kafka. Он крутой, но при этом в команде по сути один дата-инженер и один дата-аналитик, а значительная часть системы написана на кастомном фреймворке.

Для старта карьеры это может быть слишком сложно: разобраться в архитектуре и внутренностях будет сложно, и это легко может привести к выгоранию. Поэтому, по моему мнению, на такой позиции стоит постараться выжать максимум: пройтись по каждому уголку фреймворка, сохранить себе какие-то наработки, но параллельно выходить на рынок и искать команду с сеньорами на борту.

Это нужно хотя бы для того, чтобы увидеть, как пишут код заряженные чуваки и чувихи. На первых этапах карьеры вообще нормально «попрыгать» по компаниям: это расширяет кругозор, прокачивает насмотренность и понимание разных подходов. Главное — не стремиться сразу в бигтех. Там часто медленные процессы и узкая специализация, из-за ты мало чему научишься и потом будет сложно продать свой опыт на собесах.. Либо нужно будет прокачивать опыт самому.. типа на нашем InfraSharing (@roadmappers_bot)
🔥19👍95😁1
Когда ИИ заменит нас?

Есть точная дата: это 17 июля. Это мне в вотсапе сказала мамина подруга, у которой двоюродный брат работает в МЧС младшим помощником старшего дворника.

А если без шуток, то в четверг. Ладно, на самом деле, думаю, что заменит тех, кто ИИ вообще не пользуется. Рассказываю.

Нам нужно было написать доп функционал для телеграм бота для BootCamp (кстати записаться можно через @roadmappers_bot), чтобы тот запрашивал у пользователя GitHub и добавлял его в репозиторий буткемпа.

При этом надо, чтобы он отработал, как ссылку, так и просто никнейм. И там еще куча нюансов, типа нельзя удалить пользователя из репозитория, если он не принял приглашение и нужно делать листинг из приглашений и прочее прочее.

Короче. Я написал небольшое ТЗ для chatGPT. Попросил конкретно написать класс для подключения к API GitHub и несколько методов. При этом из примера кода, я отправил bash команды, которые заранее протестировал.

В итоге чат мне выдал неплохой код на 100 строчек. Уже со всеми валидациями, регулярками и статик методами. Короче, я реально сэкономил кучу времени на написание кода. Дальше надо было только поправить логирование и адаптировать выводы функций для телеграм бота.

Получилось быстрое кастомное решение с очень небольшим и конкретным функционалом. Мне не нужна целая библиотека. Мне достаточно сегодня 100 строчек для этого.

При этом подход чисто логический. Я написал конкретный функционал. А чат выдал решение с уже всеми проверками и краевыми случаями, типа проверки на существование пользователя или валидации данных.

Тоже самое я делаю, когда пишу код дл подключения к БД, для типовых трансформаций и так далее. Очень много кода чат пишет просто отлично. Смысла вручную что-то изобретать не вижу.

Даже например найти слово в коллекции. Можно искать в списке (это дольше), а можно в множестве. И если пишешь сам, то можешь написать по привычке список, так как set ну не часто видишь и используешь. А чат тебе дает иногда изящные подходы. Тут конечно сейчас набегут душнилы, которые пишут на ассемблере и с пеной у рта начнут говорить, ЧТО ТАК НЕЛЬЗЯ! Но я жду, когда уже их наконец заменит нейросетка.. будут на своих перфокартах где-нибудь на помойке писать код. И вообще эти программисты уже совсем в край офигели. Столько зарабатывать!

В общем и целом, написание кода ускоряется в разы, но и задачи становится больше и масштабнее. Как я уже говорил, вчера одно приложение писало 100 программистов. Сегодня его пишет 10 программистов, а завтра один программист будет писать 100 приложений.

Работы на самом деле может стать еще больше и нам всем придется адаптироваться. А те, кто будет тупить и тормозить, ну можно стать фермером. Кстати, если что, BootCamp по открытию своей фермы тоже будет. Первый поток на следующий день, когда ИИ заменит программистов.
10🔥7👍6
LiveCoding от Roadmappers!

Ребят, сейчас крайне быстро и по делу.
Вчера ко мне пришла идея сделать генератор задач по всем языкам программирования.

Я быстро навайбкодил. Задачи генерирует под капотом LLM. Можно выбрать уровень сложности + дописать в поле дополнительные параметры, например "Оконные функции и CROSS JOIN" или "Декораторы, ООП, логирование"

Генератор выдает вам задачу, ее можно скопировать и запускать у себя в VSCode.

Зачем я это сделал?
У нас на BootCamp есть мок собесы и нам нужны задачи для этих собесов. Чтобы не брать старые и не повторяться, нужно сгенерить новые. На самом деле это НИЧЕМ НЕ ОТЛИЧАЕТСЯ ОТ ТОГО, чтобы просто у чата ГПТ попросить. Но чату надо все таки написать промпт, потом у него галюцинации пойдут, он уведет вас куда-то не туда.. А тут ОДНА КНОПКА — просто нажимаешь и все работает.

Выдает ли генератор сразу решение?
Сначала выдавал, но я убрал это. Изначально сервис как бы для себя писал, но что, если народ тоже захочет попользоваться и поучиться. Возможно решение выдавать по отдельной кнопке. Пока не знаю. Тут нужна ваша помощь.

Че хочу?
1. Хочу генератор пет проектов. Кидаю ему свою легенду, опыт, мысли. Пусть он мне собирает пет проект задачу.
2. У меня там есть LiveCode, где можно писать код, типа как в YandexCode (но пока нет подсветки синтаксиса...альфа версия ок?)
3. Карточки обучения. Как в дуолингво. Прочитали статью, потом еще одну, и уже забыли первую. А так возможно можно себя держать в тонусе по теории
4. Прожарка резюме (идея не нова, но можно попробовать)
5. ССЫЛКИ НА НАШИ РОАДМАПЫ И БУТКЕМПЫ И КУРСЫ (например вы порешали задачки, потом поняли, что надо подтягивать скилы и залетели на наши мощнейшие курсы и буткемпы)
6. Сделать какой-то простой запускатор кода (тут под вопросом. Но кажется могло бы быть прикольным)

Зачем, когда есть уже 10000000 решений?
Потому что у нас это выглядит стильно, как майбах и мы хотим продавать столько курсов и буткемпов, чтобы потом выкупить SpaceX Илона Маска и занять место на мировой арене компаний. Других причин ТУТ И НЕ МОЖЕТ БЫТЬ

Коротко, однако, получилось))

Короче , кому интересно, накидайте идей, плиз. У меня сильно творческая натура, я не могу не делать такие штуки. Предлагаю, использовать этот юношеский заряд энергии и вытягивать из меня максимум!
13🔥11👍7
Друзья, вопрос!

Во-первых, давайте перечислим всех людей, кто мне завидует. Ладно, это шутка. Не обижайтесь. И по мне стреляли и я упал в лужу и лежал там…

У кого есть опыт работы вот в таких вот теплых местах?

Например вы сидите на балконе и работаете за компьютером? Или с таким климатом только бездельничать?

Я точно знаю, что какая-то часть людей либо переехали, либо уезжают на зимовку в теплый край. Причем необязательно на БАЛИ, ага ок, РЕАЛЬНО, остров меня принял, я дышу маткой. Возможно Сочи, например.

Интересно именно работа ДЕшников или аналитиков, где надо иногда реально сосредоточиться и прям вникать в код. Насколько теплая, жаркая погода на это влияет?

Кто где живет? Почему не хотите вернуться, цкатины в офис? Вместе со всеми ездить в метро на работу в 8 утра? А? Запретить улыбаться!

Я сейчас в отпуске, комп не брал. Но очень интересно, насколько это ок?

И я не про переезд навсегда. А например про зимовку. Ну или на год, два. Никакой политики, исключительно про отсутствие холода и наличии огромного кол-ва зеленого цвета в листьях.
16🔥11👏4😁3
Плоти Налоги!

Пишет мне рекрутер. Сколько хотите зарабатывать?
Я: 350к на руки!

HR: ок, а сколько в гросс?

Я: Ну сами посчитайте, я не знаю.

HR: Але, дядя, включи мозг, ЦКАТИНА! Прогрессивная шкала налогов

Я: Ой, я забыл, у меня лапки, мне надо посчитать.


НДС, утильсбор, прогрессивная шкала налогов. Тех людей, у которых не было денег это коснется косвенно. Как говорится, продукты марки «каждый день» как покупали, так и покупают. А вот если вы уже богач, то скоро опять станете бедным. Недолго песенка играла. Это все мои эмоции.

Для тех, кто до сих пор не понимает, о чем речь. У нас теперь прогрессивная шкала налогов. Чем больше зарабатываешь, тем больший процент налогов платишь государству. Вот источник

Пока что я впервые встретился с таким вопросом по налогам. HR мне объяснил, что надо глянуть в НДФЛ и посмотреть процент налога. И от него уже считать ГРОСС (Гросс — значит до вычета налогов). Безусловно, для вас ничего не поменяется. Налог платит за вас работодатель, поэтому ему надо знать сколько вы уже заработали за этот год.

Как сказано на сайте ФНС, налог сверху накидывается постепенно, а не сразу. Т.е. если у вас зарплата 500к, но вы в этом году еще нифига не работали, то для вас будет считаться пока 13 процентов. И как только вы перепрыгните 2.5млн дохода, тогда и будет повышение.

Кстати, если у вас параллельно открыто ИП или СЗ, то доход с них не распространяется на трудовой доход по ТК РФ. Поэтому выдохните. Хотя бы тут ок.

И сколько компаниям теперь за нас платить?

Ставка 15% — для части годового дохода выше 2,4 млн руб. и до 5 млн руб. включительно (в среднем выше 200 тыс. руб. и до 416,7 тыс. руб. включительно в месяц).

Ставка 18% — для части годового дохода выше 5 млн руб. и до 20 млн руб. включительно (в среднем выше 416,7 тыс. руб. и до 1,670 тыс. руб. включительно в месяц).

Ставка 20% — для части годового дохода выше 20 млн руб. и до 50 млн руб. включительно (в среднем выше 1,670 тыс. руб. и до 4,170 тыс. руб. включительно в месяц).

Ставка 22% — для части дохода выше 50 млн руб. в год, или выше 4,170 тыс. руб. в месяц.

У кого есть какие мысли на этот счет?
👍7😱65🔥2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🔴 Завтра 19 декабря 20:00 МСК СТРИМ!

Стрим будет в Yandex Телемост

➡️ ссылка на стрим

О чем стрим?
Расскажем про BootCamp! Стартует уже 4 поток!
Покажем, как у нас все устроено, инструменты, пайплайны, а также ответим на вопросы.

Ребят, у нас уже много заявок на Буткемп Январь, но рекомендую все равно записаться в @roadmappers_bot, если еще не записались.
Может повести и мы возьмем и вас!

Запись стрима будет
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15😁75👍4
This media is not supported in your browser
VIEW IN TELEGRAM
🔴 20:00 МСК СТРИМ!

Стрим будет в Yandex Телемост

ссылка на стрим

Заходим! Рассказываем и показываем про наш BootCamp
Please open Telegram to view this post
VIEW IN TELEGRAM
😁14🔥82👍2
Запись стрима уже на Youtube!

Всем спасибо, кто был на стриме!

➡️ YOUTUBE

Наш чат для общение и там же можете задать вопрос
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥2
XLTable - OLAP Cервер для нового стека данных
Работайте с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.

Предоставьте пользователям возможность самостоятельно работать с данными, с помощью знакомого инструмента.

📈Ключевые возможности XLTable:
• Аналог MS OLAP (SSAS) для больших данных
• Интеграция с MS Excel по протоколу XMLA
• Поддержка ClickHouse, BigQuery, Snowflake
• Скоро: YDB, Greenplum
• Множество групп мер, иерархий и измерений в одном кубе
• Гибкие настройки кэширования
• Развёртывание внутри вашей инфраструктуры или в облаке

🔒Безопасность:
• Интеграция с LDAP
• Разграничение доступа на уровне мер, измерений и их членов

⚙️Производительность:
• Безлимитное количество мер и измерений
• Работа из Excel c миллиардами строк данных
• Все расчеты производятся на уровне ClickHouse
• Отличные возможности для масштабирования

Хочешь получить бесплатную пробную версию на 30 дней?

👉🏻Напиши «OLAP» - покажем демо и поможем с настройкой

Контакт: https://t.me/vorobiova_anastasia
Сайт с информацией о продукте: https://xltable.com/
🔥118😁2👍1👏1
Как я написал свой AI?

Я не знал, как правильно назвать заголовок для поста, потому что, написав LLM + RAG вызвало бы много вопросов. А че это? А?

Короче, я захотел написать бота, который помогал бы нам отвечать на вопросы людей по поводу bootcamp, роадмаперс, ценах, расписаниях и так далее. И, как вы понимаете, бот должен держать контекст у себя в голове + отвечать, как человек.

➡️ Кстати о том, как он работает я буду рассказывать и показывать у нас в Роадмаперах! (Скидка 30% до 15 января)

А зачем и почему?
Потому что мы заколебались отвечать на одни и те же вопросы по 100 000 раз. Это реально тяжело. Вас много, мы одни.

И что ты придумал?
Все очень просто. Берем python, дальше добавляем подключение к API DeepSeek и все это оборачиваем в aiogram (библиотека для телеграм).

Но тут сразу вопрос: ОКЭЙ, ЭТО ПРОСТО ЧАТ ГПТ, В ЧЕМ РАЗНИЦА?

Фишка в том, что если вы хотите, чтобы бот выдавал вам только конкретную информацию о вашем магазине, компании, личном расписании на бальные танцы или документации, то НАДО ВАШУ ЛЛМ ОГРАНИЧИТЬ!

Т.е. написать такой текст в промпт, чтобы нейронка отдавала в конкретном стиле и очень конкретную инфу. Это можно сделать при передаче промпта в API по умолчанию. Ну т.е. например вы отправили сообщение в телеграм бота, а вместе с ним внутри в бекенде отправляется заготовленный промпт со всей информацией. И ЛЛМка просто перестраивает вам текст из полученных данных.

И в чем сложность?
Если боту каждый раз отправлять огромный кусок информации, то он в один момент перестанет это тянуть + могут начаться галюцинации + он будет тормозить. Короче говоря, каждый раз отправлять Войну и Мир не выйдет, а хотелось бы, чтобы он ее знал.

Как это решается?
Если кто не понял, то в Роадмаперах! (Скидка 30% до 15 января) я прям покажу код. Он открыт и научу каждого собирать себе помощника.
В кратце, нам нужен json или файл markdown, в котором будет вся информация. Я кстати загружал даже целый Roadmap. Потом эту информацию надо векторизовать и сложить в векторную БД. И уже из нее искать похожие на вопрос кусочки и отправлять в LLM.

Кто не понял, я еще раз повторю, я лично покажу, как это включать, запускать и так далее в Роадмаперах

🍟 Роадмаперах! (Скидка 30% до 15 января)
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥7👍5