Я не знал как работают GPU
По работе потребовалось разобраться с GPU инфраструктурой. С одной стороны нужно было запланировать железо. С другой понять как работает большое количество разных уже существующих сервисов и развернутся ли они у меня.
А я в GPU откровенно плаваю. В смысле, я умел
Я пошел искать курсы по программированию на CUDA, чтобы освоить базу. Сперва попробовал freecodecamp, понял что шляпа, пошел дальше. В итоге не нашел ничего лучше, чем курс Caltech CS179 GPU Programming, в котором даже нет видео лекций.
И оказалось, что курс просто потрясающий. Я уже потратил на него 8 часов. Разобрался как на самом деле работает видеокарта (озарение, шок контент🧠 ). Написал собственноручно код на C, который применяет сглаживающий фильтр на звуковую дорожку. Долго мерил прирост производительности с разными настройками на своей H100.
Вау, не ожидал, что будет так круто
По работе потребовалось разобраться с GPU инфраструктурой. С одной стороны нужно было запланировать железо. С другой понять как работает большое количество разных уже существующих сервисов и развернутся ли они у меня.
А я в GPU откровенно плаваю. В смысле, я умел
torch.cuda.is_available и model.to(device), но что там происходит внутри - вообще туман. До этого у меня все онлайн модели работали на CPU, и жил я вполне себе замечательно. Теперь нехватка знаний начала сказываться.Я пошел искать курсы по программированию на CUDA, чтобы освоить базу. Сперва попробовал freecodecamp, понял что шляпа, пошел дальше. В итоге не нашел ничего лучше, чем курс Caltech CS179 GPU Programming, в котором даже нет видео лекций.
И оказалось, что курс просто потрясающий. Я уже потратил на него 8 часов. Разобрался как на самом деле работает видеокарта (озарение, шок контент
Вау, не ожидал, что будет так круто
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍9❤6
Что происходит
Я перестал любить посты с итогами года. Не хочу вас грузить. Вместо этого будет побольше постов с лайфстайл контентом.
В субботу долетел до Грузии. Поехал на Смену, как 2 года назад. Писал про нее пост. Хочу подчерпнуть творческого вдохновения от Тбилиси и комьюнити, с которым у меня много общего.
Последние два фото еще из Мск - адвент календарь tasty coffee, который мне подарил брат. Хочу похвастаться им😌 , потому что он стал виральным. Мне очень зашел его дизайн. Не буду выкидывать коробку, буду в нее класть новые дрип пакеты.
Я перестал любить посты с итогами года. Не хочу вас грузить. Вместо этого будет побольше постов с лайфстайл контентом.
В субботу долетел до Грузии. Поехал на Смену, как 2 года назад. Писал про нее пост. Хочу подчерпнуть творческого вдохновения от Тбилиси и комьюнити, с которым у меня много общего.
Последние два фото еще из Мск - адвент календарь tasty coffee, который мне подарил брат. Хочу похвастаться им
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22❤9🎅5👍4🍾2
Прочитал на праздниках потрясающую обзорную статью State of LLMs 2025 от одного из авторов, на которого я подписан в LI.
Она что ли уложила в одну систему то обилие новостей и хайпа, которые влетали из новостных каналов. Про актуальные модели, про open source, про текущую школу мысли в области.
Не буду пересказывать, но хочу поделиться одной мыслью, точнее даже цифрами.
Обучение DeepSeek V3 стоило около 5 млн долларов. Это не 50, и не 500. DeepSeek R1 , который привлек много внимания, обучался на основе V3 и вообще стоил всего 250 тысяч долларов.
Это вам просто для ориентира. Делать свои претрейны вполне себе посильно многим компаниям. Вопрос нужно ли. Но посильно.
#tech@big_ledovsky
Она что ли уложила в одну систему то обилие новостей и хайпа, которые влетали из новостных каналов. Про актуальные модели, про open source, про текущую школу мысли в области.
Не буду пересказывать, но хочу поделиться одной мыслью, точнее даже цифрами.
Обучение DeepSeek V3 стоило около 5 млн долларов. Это не 50, и не 500. DeepSeek R1 , который привлек много внимания, обучался на основе V3 и вообще стоил всего 250 тысяч долларов.
Это вам просто для ориентира. Делать свои претрейны вполне себе посильно многим компаниям. Вопрос нужно ли. Но посильно.
#tech@big_ledovsky
Sebastian Raschka, PhD
The State Of LLMs 2025: Progress, Problems, and Predictions
A 2025 review of large language models, from DeepSeek R1 and RLVR to inference-time scaling, benchmarks, architectures, and predictions for 2026.
👍17❤7
Посоветуйте технических блогеров? 🤔
В этом году я решил выделять больше времени на чтение по теме ML. Больше всего меня интересуют англоязычные технические блоги: обычные, линкедины, ютубы итд.
При этом я все-таки инженер, а не рисерчер. Интересен скорее прикладной материал, чем разбор статей.
Кое-какой список авторов набирался, но я хотел бы его расширить.
Кого стоит почитать?
В этом году я решил выделять больше времени на чтение по теме ML. Больше всего меня интересуют англоязычные технические блоги: обычные, линкедины, ютубы итд.
При этом я все-таки инженер, а не рисерчер. Интересен скорее прикладной материал, чем разбор статей.
Кое-какой список авторов набирался, но я хотел бы его расширить.
Кого стоит почитать?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12
Ответ на пост Дани - Можно ли отказаться от университета в пользу занятий с AI? https://t.me/DS_avitotech/224
Сейчас будет мысль ооочень изделка 😃 Она посетила меня сегодня утром и очень кстати подошла к этому посту.
Я люблю слушать и смотреть youtube. Я замечаю, что моим любимым блогерам, очень успешным блогерам, приходится делать контент как на конвеере. Они часто повторяют свои мысли. Они искусственно ищут новую тему.
Почему бы им не снять несколько насыщенных видео, чтобы все их смотрели, стать великими и остановиться? Как с книгами в прошлом.
К сожалению, нам нужна каденция. Чтобы нашим вниманием регулярно завладевали. Чтобы нас заставляли учиться. Также со спортом, когда мы ходим заниматься в группы или с тренером.
Но если не учитывать нашу неорганизованность, то вот хороший пример - курс калтеха по gpu programming, который я к данному моменту прошел наполовину, и который уже принес мне бенефиты в работе. Завел на днях один очень непростой нейросетевой сервис.
На курсе я использовал pdf-ки, делал домашки и использовал Claude💎 . И я уверен, что мой опыт был лучше, чем у обычного студента, который учился очно, если он не сидел с AI как я.
Сейчас будет мысль ооочень изделка 😃 Она посетила меня сегодня утром и очень кстати подошла к этому посту.
Я люблю слушать и смотреть youtube. Я замечаю, что моим любимым блогерам, очень успешным блогерам, приходится делать контент как на конвеере. Они часто повторяют свои мысли. Они искусственно ищут новую тему.
Почему бы им не снять несколько насыщенных видео, чтобы все их смотрели, стать великими и остановиться? Как с книгами в прошлом.
К сожалению, нам нужна каденция. Чтобы нашим вниманием регулярно завладевали. Чтобы нас заставляли учиться. Также со спортом, когда мы ходим заниматься в группы или с тренером.
Но если не учитывать нашу неорганизованность, то вот хороший пример - курс калтеха по gpu programming, который я к данному моменту прошел наполовину, и который уже принес мне бенефиты в работе. Завел на днях один очень непростой нейросетевой сервис.
На курсе я использовал pdf-ки, делал домашки и использовал Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Доска AI-объявлений
Всем привет! На связи Данила Бочарников, DS-инженер из поиска Авито. Продолжаем разбирать новости из мира ML. Сегодня поговорим, как ИИ меняет образование прямо сейчас.
🧑🎓Без диплома, но в OpenAI
Традиционное образование теряет статус «обязательного» даже…
🧑🎓Без диплома, но в OpenAI
Традиционное образование теряет статус «обязательного» даже…
👍7🔥5🤔3❤2
Как размышление прикручивают к маленьким моделям
Если бы LLM были дешевле и быстрее, то половину продового ML можно было бы выключать🤪 . Поэтому нам с вами нужно пристально смотреть на тренды в оптимизации и поиске более дешевых решений. Направление мысли сейчас совсем поменялось.
В линкедине один блогер запостил статью, где исследователь из Samsung перенесла механизм размышлений (reasoning), который впервые изначально появился у больших LLM, на небольшой 7M энкодер. Т.е. модель в 1000 раз меньше небольшой LLM.
Размышления, кто не знает, это когда модель специально обучают решать задачу по шагам. Подход, который значительно повысил способность моделей писать код и решать математические задачи.
На вход модель берет входной запрос и выход с предыдущей итерации. И так ее прогоняют несколько раз. Между итерациями модель обменивается состояниями последнего слоя, а не токенами🧠 . То, что в традиционном ризонинге LLM обменивается информацией между шагами словами, выглядит мягко говоря неестественно .
#tech@big_ledovsky
Если бы LLM были дешевле и быстрее, то половину продового ML можно было бы выключать
В линкедине один блогер запостил статью, где исследователь из Samsung перенесла механизм размышлений (reasoning), который впервые изначально появился у больших LLM, на небольшой 7M энкодер. Т.е. модель в 1000 раз меньше небольшой LLM.
Размышления, кто не знает, это когда модель специально обучают решать задачу по шагам. Подход, который значительно повысил способность моделей писать код и решать математические задачи.
На вход модель берет входной запрос и выход с предыдущей итерации. И так ее прогоняют несколько раз. Между итерациями модель обменивается состояниями последнего слоя, а не токенами
#tech@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Less is More: Recursive Reasoning with Tiny Networks
Hierarchical Reasoning Model (HRM) is a novel approach using two small neural networks recursing at different frequencies. This biologically inspired method beats Large Language models (LLMs) on...
🔥7❤6🤓1
Спустя неделю после возвращения из моей поездки, у меня созрели выводы. Всего я провел в Грузии 4 недели. В основном в Тбилиси и немного на лыжах в Гудаури.
Мой главный вывод - есть большая ценность в том, чтобы уезжать раз в год на месяц. Знаю, что тут многие кочевники со стажем, но для меня месяц это много. В прошлом году был Бангкок, сейчас Тбилиси.
Во-первых, от больших поездок появляется ощущение свободы. Во-вторых, голове приходится адаптироваться к новому месту. Нужно создавать новый быт, вырабатывать новые привычки и маршруты. Это вводит нас в состояние открытого сознания. Когда можно придумать или понять в себе что-то совершенно новое.
А в Тбилиси очень интересно. Много русскоговорящей интеллигенции и даже ведущих богемный образ жизни. Квартирники, спешалти кофе, книжные магазины, галереи и вот это все. Думаю вайб вы поняли, если вам такое заходит, вам туда нужно.
#lifestyle@big_ledovsky
Мой главный вывод - есть большая ценность в том, чтобы уезжать раз в год на месяц. Знаю, что тут многие кочевники со стажем, но для меня месяц это много. В прошлом году был Бангкок, сейчас Тбилиси.
Во-первых, от больших поездок появляется ощущение свободы. Во-вторых, голове приходится адаптироваться к новому месту. Нужно создавать новый быт, вырабатывать новые привычки и маршруты. Это вводит нас в состояние открытого сознания. Когда можно придумать или понять в себе что-то совершенно новое.
А в Тбилиси очень интересно. Много русскоговорящей интеллигенции и даже ведущих богемный образ жизни. Квартирники, спешалти кофе, книжные магазины, галереи и вот это все. Думаю вайб вы поняли, если вам такое заходит, вам туда нужно.
#lifestyle@big_ledovsky
👍15❤12🔥9
Виной тому то, что я использовал только Opus в курсоре и очень быстро выжег месячный лимит. На работе коллега поделилась, что в этом месяце тоже быстро сожгла свой и сейчас у нее что-то вроде
Я решил, что нужно попробовать и Claude Code. Тем более опыт консольных агентов у меня был с Aider и c Codex. Codex на момент полгода назад мне показался совсем не юзабельным. А опенсорсный Aider
Claude Code
Установив Claude Code я ощутил, что нахожусь в центре сражения между курсором, Claude и догоняющими. Прямо сейчас Claude выпустил Opus 4.6 и дарит мне экстра 50$ на его тест. OpenAI пытается реабилитировать Codex
#tech@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍6❤🔥3❤1