Алексей Цыкунов | Про AI и не только
195 subscribers
157 photos
25 videos
1 file
86 links
ML Engineer & AI Enthusiast.

Пишу про ML/AI, о личном опыте взаимодействия с ChatGPT и другими нейронками.
Download Telegram
Ещё никогда не было так просто искать мемы/крылатые выражения

Просто надиктовал и получил ссылку на оригинал
👍1
Just another day: Вчерашний вечер, клип от Дорна "Foreign Root", я — вдохновлён.

Мысли после просмотра: "Хочу обсудить это с AI, не с кожаными же глубокие смыслы обсуждать. Делюсь ссылкой с Gemini 2.5 Pro — пусть пофилософствует со мной."

А он мне: “Вот описание с YouTube”. И всё!

Пауза.

Скидываю то же в o4-mini-high. Он: "Вот смысл и посыл, вот стилистика и лирика, вот культурные отсылки" — и я: "Тот, что я и хотел".

Ещё попытка: запускаю Gemini в режиме «Deep Research». Жду 5 минут, открываю почитать его "рассуждения" и вижу там анализ трека "Судно (Борис Рыжий)"…

На этом наша беседа закончилась.

📍Вывод: Тест продолжается, не зря ведь я подписку Pro на месяц взял

Кто Gemini Pro подписку юзает? Какой у вас опыт?
Forwarded from Адель и МЛь
Команда ARC-AGI про Grok 4:

“Мы получили звонок от @xai 24 часа назад

«Мы хотим протестировать Grok 4 на ARC-AGI»

Были слухи, мы знали, что будет хорошо. Мы не ожидали, что он станет моделью номер один на ARC-AGI.

Вот как проходило тестирование и что значат результаты:

Вчера мы общались с Джимми из xAI team, он попросил нас проверить их скор Grok 4. Они сами прогнали тесты на публичном наборе ARC-AGI-1 & 2

Чтобы подтвердить цифры и проверить переобучение, мы сами прогнали новую модель на нашем полуприватном датасете.

Мы объяснили им наши правила тестирования:
- никакого сохранения данных
- чекпойнт модели должен быть предназначен для паблика
- временное увеличение rate limits для burst-тестов

Они согласились, так что мы начали тесты.

Сначала словили таймауты на обычных запросах, перешли на streaming и рроблема ушла.

Что значат эти результаты?

Во-первых, факты: Grok 4 теперь топовая публично доступная модель на ARC-AGI. Она даже обходит заточенные решения с Kaggle.

Во-вторых, ARC-AGI-2 сложен для текущих AI моделей. Чтобы набрать хороший балл, модели должны выучить мини-скилл по серии обучающих примеров и показать его на тесте.

Предыдущий топ был около 8 % (у Opus 4). Всё ниже 10 % - это шум.

Скор 15.9 % пробивает шумовой барьер, Grok 4 показывает ненулевой уровень fluid intelligence”

Source
«Чем равнее становятся условия среды, тем больше становится вклад генетики в разницу между людьми»
2
Алексей Цыкунов | Про AI и не только
https://www.youtube.com/watch?v=1SLvIof4-Zw
Если кому-то вдруг алгоритмы ютуба ещё не подкинули этот выпуск
👍1
Алексей Цыкунов | Про AI и не только
https://www.youtube.com/watch?v=1SLvIof4-Zw
Мысли во время просмотра:

«А что если через 5-10-20 лет наступит прорыв в медицине, что каждый год мы будем увеличивать продолжительность больше чем на год (ну какое-то бессмертие, чтоли).

И что тогда? Ты готов к этому(бессмертию)?

Если да, то готов ли ты сейчас приложить усилия, чтобы до жить то этого момента?

А что с родными/близкими/друзьями? Будешь ли ты им это доносить?»
Forwarded from Denis Sexy IT 🤖
Раз 5 передавал между GPT 5 Pro ︎ Gemini 2.5 Pro Deep Think довольно сложный вопрос:

Если бы за всю жизнь, человек мог бы прочитать строго 10 книг, не больше; какие книги это были бы и почему? 


Получился такой список, я не все читал так что побежал качать:

Научная и системная оптика

📔 1. Карл Саган - «Космос»
Формирует картину мира от атомов до галактик и показывает научный метод «в деле»: скептицизм, проверяемость, красота сомнения. Даёт масштаб и смирение - противоядие от догматизма и узости перспективы.

📔 2. Донелла Медоуз - «Азбука системного мышления» (Thinking in Systems)
Базовый набор инструментов: запасы/потоки, петли обратной связи, задержки, точки рычага. Помогает понимать экосистемы, рынки, политику и ИТ-платформы как сложные системы с непреднамеренными последствиями.

📔 3. Даниэль Канеман - «Думай медленно… решай быстро»
Грамматика когнитивных искажений: вероятности, причинность, риск. Инструкция по выживанию в мире манипуляций и инфошума.

📔 4. Элизабет Колберт - «Шестое вымирание»
Трезвая оптика антропогенных изменений: биоразнообразие, климат, пороги необратимости. Сшивает экологию с экономикой и политикой.

Практическая философия и жизнестойкость

📔 5. Марк Аврелий - «Размышления»
Стоический «тулкит» для высокой турбулентности: различение контролируемого/неконтролируемого, тренировка внимания, дисциплина и мягкая доброта.

Технологии, власть и общество

📔 6. Мэри Шелли - «Франкенштейн, или Современный Прометей»
Пророческая этика создателя: «способность» ≠ «право», ответственность за побочные эффекты. Рифмуется с ИИ, синбиотехом и «быстрыми» R&D-циклами.

📔 7. Вирджиния Вулф - «Своя комната»
Про невидимую инфраструктуру неравенства: деньги, время, тишина, двери. Учебник по распознаванию структурных барьеров и дизайну условий для таланта.

📔 8. Джордж Оруэлл - «1984»
Язык как инструмент власти, контроль памяти и восприятия. Мини-словарь для распознавания новояза и архитектур наблюдения в цифровой среде.

📔 9. Чинуа Ачебе - «Распад» (Things Fall Apart)
Деконструирует колониальный взгляд; показывает цену «прогресса» и хрупкость культурных систем. Расширяет моральный круг.

Художественные «симуляторы» глубокой этики

📔 10. Фёдор Достоевский - «Братья Карамазовы»
Лаборатория свободы и ответственности. «Великий инквизитор» как модель алгоритмического патернализма: комфорт и предсказуемость в обмен на свободу и данные.

***

А вот мотивация, почему список такой:

Когнитивистика вместо «истории науки»: в мире информационного шума важнее понимать собственные ошибки мышления, чем историографию их опровержения.

Экология и системность: кризисы теперь связаны - климат, биоразнообразие, энергетика, эпидемии. Нужен взгляд на взаимосвязи, а не только на «величие идей».

Технологическая этика: ИИ/генетика ставят вопросы ответственности творца и границ контроля.

Практическая философия и устойчивость: инструменты самообладания, когда неопределённость - норма.

Баланс перспектив: добавляем женские голоса и неевропейские оптики, чтобы «карта мира» не была однобокой.


P.S. Для кино сделаю такой же попозже
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Denis Sexy IT 🤖
Раз 5 передавал между GPT 5 Pro ︎ Gemini 2.5 Pro Deep Think довольно сложный вопрос: Если бы за всю жизнь, человек мог бы прочитать строго 10 книг, не больше; какие книги это были бы и почему?  Получился такой список, я не все читал так что побежал качать:…
Добавлю ещё вот эти две подборки от моих GPTs (Под капотом GPT-5 thinking + system prompt)

Кстати первый раз в жизни захотелось эти книги из подборки в печатном виде и чтобы стояли на полке в спальне или зале(гостинной).
Информация может иметь такой же фундаментальный статус, как энергия или масса.

Год назад я уже писал об этом, и вот на днях посмотрел подкаст с Семихатовым, в котором он на интересном мысленном эксперименте про "Демона Максвелла" и принцип Ландауэра (ссылка на таймкод) показал, что информация, как абстрактное явление, вдруг оказывается вполне физическим понятием.

А вот список фундаментальных "единиц реальности" от GPT-5:
- пространство-время
- масса/энергия
- импульс
- заряд
- спин
- поля взаимодействий
- набор универсальных констант (c, ħ, G, kB и т.д)
YouTube - новая нефть для AI? Мысли после пары каток в Доту

В школьные и студенческие годы много играл в Доту. Сейчас тоже бывает раз в месяц сажусь с братьями сыграть пару игр и каждый раз чувствую себя нубом. Игра постоянно меняется, выходят патчи, и я совершенно не в теме, как играть на своих любимых героях в новой мете.

Раньше апдейты выходили реже и не так сильно меняли механику игры, а гайды по героям и игре были на форумах и долгое время оставались актуальными. Теперь же всё актуальное на YouTube. Получается, чтобы знать как играть на своём герое в новой мете, мне нужно несколько часов посмотреть новые видео-разборы 🤪

Попытка обратиться к ChatGPT предсказуемо провалилась. Его знания обрываются на каком-то старом патче, и он не способен проанализировать свежий ролик с разбором апдейтов и дать мне краткую выжимку и советы/гайды.

И ведь Дота - это лишь один пример. Ценнейшие и, что важнее, актуальные данные по множеству тем сейчас создаются именно на YouTube. Текстовый интернет, на котором обучались все текущие языковые модели, перестал быть единственным и главным источником знаний.

Получается, что обученный условный ChatGPT только на текстовых данных, уже на старте слеп к огромной и самой актуальной части человеческих знаний. И я вижу огромный потенциал пайплайна для системы, которая сможет полноценно обучаться на видео, обрабатывая картинку, звук и текст как “единое целое”. Как будто это откроет доступ к гигантскому пласту знаний для будущих систем AI.

Интересно, как далеко лабы уже продвинулись в этом направление 🤔?
👍2
LLM Chess Benchmark — тест для LLM, где они играют чёрными против Random Player (белые делают случайные ходы). Проверяет не шахматный IQ, а дисциплину и точность работы по протоколу.

Основные правила:
▪️ Каждый ход = новый мини-диалог. Модель обязана использовать только команды: get_current_board, get_legal_moves, make_move <ход>
▪️ 30+ партий на модель → считаем winrate.
▪️ На один ход: ≤10 сообщений.
▪️ На партию: ≤3 ошибок (неверный формат/нелегальный ход).
▪️ Лимит партии: 200 ходов (если не закончилось — решает Stockfish).

📊 Метрики:
- Win/Loss
- Cost/Game
- Tokens per move
- Cost/Game
- Game Duration: % от лимита в 200 ходов
- Mistake/1k: сколько ошибок на 1000 ходов
- Games Interrupted: % партий, завершённых из-за ошибок/лимитов.

👉 Суть: если LLM не может выйграть против рандома, значит проблема не в шахматах, а в дисциплине и точности API-взаимодействия

- - - - - - - - -
Очень крутой бенч, ещё бы прогнали на 500–1000 партиях 🙂
Ну и наглядно видно, что LLM прогрессируют, а OpenAI в лидерах
Алексей Цыкунов | Про AI и не только
YouTube - новая нефть для AI? Мысли после пары каток в Доту В школьные и студенческие годы много играл в Доту. Сейчас тоже бывает раз в месяц сажусь с братьями сыграть пару игр и каждый раз чувствую себя нубом. Игра постоянно меняется, выходят патчи, и я…
Notebook LM реально неплохо справился. Я загрузил туда 7 роликов про новый патч и как играть на Спектре (сам их до этого посмотрел) и потом задавал вопросы. Ответы получились вполне адекватные 👍

P.S. Notebook LM не анализирует само видео, а просто использует автосгенерированные субтитры и строит RAG на их основе. Работает довольно быстро.

P.P.S. Пробовал загружать видео напрямую в Google AI Studio: он вроде как нарезает их по кадрово на изображения и анализирует, но результат никакой. Я даже проверил на 8-минутном видео почти без слов - и он всё равно нафантазировал что-то на основе названия и описания.
Я проверил ChatGPT и Gemini на одной из самых спорных тем в истории - Октябрьская революция и гражданская война 1917–1922. Короткий вывод: для мнея модели полезнее поточного контента, потому что отвечают на точечные вопросы и помогают отсеивать предвзятость.

Что я сделал
— 6 документалок (~8 ч)
— >10 подкастов (~20 ч)
— Диалог с Gemini 2.5 Pro и ChatGPT (o3-mini-high) ~5 ч

Наблюдения
— Модели давали сопоставимую по достоверности информацию, не «придумывали» факты и помогали проверять спорные тезисы, которые затем подтверждались в других источниках.
— После 7–8-го подкаста ~90% — повтор, ~10% — новое.
— У авторов заметны ценностные перекосы (байас)..
— Главное - интерактивность: можно зумить именно те детали, которые нужны мне сейчас, а не ждать, когда до них дойдет автор.

Итог
Документалки и подкасты — отличный фон и контекст. Но для быстрых ответов, проверки версий и погружения в детали ИИ (LLM) работает быстрее и гибче. Кажется очевидным, что дальше любой исследователь будет использовать модели как ускоритель.

p.s.: вариант 1
Октябрьская революция: 28 часов подкастов vs. 5 часов с ChatGPT

Пару недель назад меня заинтересовал период истории с 1917 по 1922 год, то есть годы Октябрьской революции в Российской империи и последующей гражданской войны. (Около 70% внимания я уделил 1917–1918 годам, а 30% — оставшимся годам.)

Сначала я посмотрел 6 документальных фильмов о тех событиях, затем прослушал больше десятка подкастов разных историков. В целом у меня сложилась общая картина, но всё же остались вопросы и пробелы, которые было интересно заполнить. С каждым новым подкастом (примерно начиная с 7–8-го подкаста), который я слушал, там было, наверное, 90% уже знакомой информации и лишь около 10% новой. Кроме того, у большинства историков был заметен определённый «байас» (предвзятость) в зависимости от их личного отношения к советской или царской власти.

После этого я открыл Gemini 2.5 Pro и ChatGPT (o3-mini-high), задал им вопросы (дублируя), сравнивал ответы, и в процессе у меня возникали новые уточнения. Общение с моделями заняло у меня примерно 5 часов за два дня. В итоге я посмотрел документальные фильмы общей продолжительностью около 8 часов и послушал подкасты примерно на 20 часов.

Могу сказать, что Gemini 2.5 Pro и ChatGPT давали мне такую же достоверную и объективную (насколько это возможно) информацию, какую я находил и в видео. Модели не выдумывали фактов, которых на самом деле не было, а иногда, наоборот, помогали опровергнуть противоречивые или субъективные утверждения отдельных авторов или историков (и в других источниках это тоже подтверждалось).

Но самое ценное для меня - это то, что моделям можно задавать точечные вопросы, возникающие прямо в процессе диалога, и они позволяют углубиться именно в те детали, которые интересны мне. В случае с видео или подкастами информация идёт в одну сторону: она не всегда объективна, может содержать предвзятость, а главное - ты остаёшься с открытыми вопросами. С моделью же можно вести динамичный обмен знаниями.

Документалки и подкасты - это тоже интересно и полезно, но они статичны, а взаимодействие с моделями даёт живой, гибкий процесс изучения.

После этого опыта мне кажется очевидным, что в будущем каждый учёный будет использовать ИИ как помощника, который значительно ускоряет процесс исследования.

p.s.: вариант 2
Какой из двух вариантов/форматов постов вам понравился больше?
Anonymous Poll
0%
Вариант 1
50%
Вариант 2
33%
Оба варианта
17%
Никакой