ML physicist
2.01K subscribers
85 photos
2 videos
1 file
59 links
Download Telegram
Врываюсь сюда с новым онлайн бенчмарком LLMок, по которому gpt-4.5 - сота (openai возьмете меня на работу?).

https://habr.com/ru/articles/898934/

А если этот пост наберет 1 просмотр, то прогоню через него Llama-4 и посмотрим сколько она наберет (кажется что больше чем от нее ожидают)
Если AGI еще не достигнут - то что это

@yourleomatchbot

Посмотрите настолько четко LLM определяет ваши интересы и матчит другие профили
О прикольно, мою статью на хабре пассивно агресивно упомянул head of AI в МТС-е и по совместительству (вроде как) мой препод по ML на физтехе (о чем он скорее видимо не помнит 😢).

Про тест Тьюринга я конечно знаю, и не могу посоветовать вам почитать его препринт про прохождение LLMкой теста тьюринга.
Forwarded from Valuable AI
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга

я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал

второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела


P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5; ссылка на Хабр
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT
залетаем смотреть новый стрим openai про gpt-4.1, уже начали! Говорят она умнее 4.5 и имеет лям контекста

https://www.youtube.com/watch?v=kA-P9ood-cE;
небольшой TLDR
- новые 4.1 вышли дешевле, быстрее и умнее предшественников
- cached input подешевел
- API 4.5 задеприкейтили. Такое ощущение что ее запускали только для того, что бы стрясти денег с людей, которые ее через свои бенчмарки прогоняли
OpenAI покупают Windsurf – аналог Cursor

Говорят, сделка обойдется OpenAI в три миллиарда долларов.

Интересно зачем тратить 3 лярда баксов на стартап если можно новыми моделями, которые умнее 92.7% PHD студентов в америке навайбкодить то же самое за вечер? 🤔
ManusAI открыли бесплатный доступ к своему агенту без листа ожидания

Я попробовал его на задаче которой занимался вчера - попрофилировать выполнение LLM по слоям что бы понять куда уходит больше времени - на эмбединги, атеншн, LM_Head, или FC layers.

По итогу по одному промпту и 100 кредитов (из 300 бесплатных на день) он сделал то, на что я потратил чуть больше часа!

Из общения с ботом
- модель под капотом сильно тупее o3, где то между sonet-3.5 и gemini-2.5
- но она обвешана кучей хорошо работающих тулов, намного лучше чем в openai, не говоря уже о gemini
- к тому же она хорошо запромтирована, делает подробный план выполнения задачи, корректирует его

По итогу для бесплатного использования это просто офигенная фича, но платить 200 долларов на нее я бы наверное сейчас не стал)
Я начал делать технический контент почти 2 года назад, начав вот с этой статьи на хабр про LoRA адаптеры. В меньшей степени хорошее оформление и актуальность этой темы в тот момент, в большей - красивая девушка на заставке обеспечило мне больше 50к просмотров за первую неделю - это довольно хорошие показатели для хабра.
На радости от этого успеха я полтора года назад создал этот канал, и теперь хочу подвести небольшие итоги
- 1280 подписчиков на канале (вхожу в топ 30% каналов в телеграме)
- Больше 200 000 просмотров под постами, 3 перепоста в крупные каналы
- 4 хороших знакомых из моей профессиональной области с которыми я познакомился в коментах а затем и лично
- Больше 10 предложений о работе в холодную в телеграм, с явным указанием того, что меня нашли по каналу
- Возможность получить реалити чек от жизни - отрицательный ответ на вопрос "не никому не нужной фигней ли я занимаюсь?"
- Более 5 тысяч долларов доходов с консалтинга (в основном стартапы и небольшие компании). Не понятно какую часть в этом успехе сыграл канал, но думаю что значительную

К чему это я - создавайте личные блоги, каналы, делитесь интересностями о своей жизни/работе, увеличивайте датасет для претрейна ЛЛМ.
Если у вас уже есть технический персональный блог - кидайте на него ссылку в комментариях, давайте соберем подборку небольших личных каналов с интересным контентом!
Попробовал openai codex - за 5 промптов и 10 минут сегодня вечером смог закрыть почти все свои задачи на следующий спринт. Ща жду быдлокодеров, пооставляют коментов, тупо копипастю в кодекс и прошу подправить.

Так что очень советую попробовать, доступен всем с подпиской за 200 баксов

А если у вас, так же как и у меня после слива данных моей визы пару постов назад, нет денег - можно купить общий аккаунт в 10 раз дешевле чем продает openai на любом из сервисов типо этого sharegpt.ru
Как продать свои данные openai за 6000 $/ мес в токенах

У openai есть очень привлекательная программа, про которую мало кто знает, но она может сильно помочь создателям микропродуктов и pet проектов а так же тем кто пользуется курсором в режиме pay as you go (со своим токеном)

Вы можете дать право openai обучаться на своих запросах, а за это они дадут бесплатно до 1 млн токенов топовых моделей (4.5, o3 - да это те самые модели по 100-600 баксов за млн токенов) в день и до 10 млн для мини моделей.

Что бы получить настолько сладкие условия, надо быть Tier 3 (потратить хотя бы 100 баксов), что бы включить поищите Data Sharing в настройках платформы
Поехал из подмосковного Долгопрудного на метро в офис на Белоруской, чтобы сидеть в офисном кресле за компьютером с виндой и обсуждать с коллегами, как лучше написать промпт для ChatGPT. А потом вечером, когда станет темно, можно будет покинуть офис и поехать на метро обратно в подмосковный Долгопрудный, чтобы на следующий день поехать снова в офис. И потом когда-нибудь можно будет взять ипотеку на квартру поближе к метро, чтобы можно было удобнее ездить в офис писать документы в ворде и заполнять экселевские таблицы. А потом когда-нибудь наверно даже можно будет накопить на форд фокус, чтобы было удобнее ездить на рынок за дешёвой картошкой. А ещё, если хорошо работать, то через сколько-то лет могут сделать тимлидом — круто и уважаемо! Можно будет ходить и радоваться, что ты реализовался в этой жизни, что ты не прожил свою жизнь зря и чего-то добился, и коллеги будут смотреть на тебя с уважением. И каждое утро можно будет проводить дейли для своего отдела, начиная его каждый раз приятным слуху офисным обращением "коллеги", от которого жизнь сразу кажется ярче, насыщенней и прекрасней, ведь ты не просто человек — ты коллега, а это значит, что твоя жизнь не проходит зря за бессмысленными мазаньем холста краской, дёрганьем струн, рифмованием слов, преобразованием уравнений или просто шатанием по лесам, горам и городам — нет, ты не из этих, ты коллега, ты заполняешь экселевские таблицы и вордовские документы, твоя жизнь поистене имеет смысл, по-настоящему.

Собственно, именно то, о чём я всю жизнь мечтал, ради чего учился и превознемогал, не спал ночей, не жалел себя и продолжал мечтать о прекрасном, светлом и ярком офисном будущем.
Написал на харб статью как я навайбкодил за выходные sharegpt.ru и вышел на 7к USD месячного ревеню, вложив 800 долларов в трагет

https://vc.ru/id1586732/2009461-kak-sozdat-biznes-na-6000-dollarov

Залетайте ставить плюсики, а то на хабре такой формат не оч любят)
Вчера вышла o3-pro. Как обычно плюс пару процентов к бенчмарку, ничего мозговыносящего. UX аналогичный o1-pro.

Из более важного, o3 flex теперь стоит 1/4 бакса за млн токенов (это дешевле gpt-4o!!!). С такой ценой открывается куча новых юзкейсов для ризонеров от openai в задачах, в которых не справляются конкуренты.
Будущее неясно пока нам, однако в данный момент более привлекательного направления чем ML найти на рынке невозможно!

Я решил подтвердить это статистикой и собрал первый онлайн бенчмарк для айти рынка.

С 25 одинаковых джуновских резюме по 5и направлениям (ML/Back/Front итп) я откликался в разные компании на hh, и смотрел на конверсию из отклика в собеседование.

По итогу со статзначимо лучшей конверсией впереди оказалось ML, уступив 1.5 процентных пункта разработке на Golang.

Как считаете, такой подход лучше чем просто смотреть на число вакансий на hh? Стоит сделать такое же исследование уже на сеньерские позиции?