GPT/ChatGPT/AI Central Александра Горного
32.2K subscribers
538 photos
493 videos
7 files
2.12K links
Авторский взгляд на новости технологий

Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit
РКН: https://clck.ru/3FPkup

Личный аккаунт: @gornal
О рекламе: @Vzuhcha

ВП нет
Download Telegram
Вышел Claude 3.7 Sonnet

Claude 3.7 Sonnet совмещает в себе обычную LLM и модель рассуждения. В стандартном режиме новинка представляет собой улучшенную версию Claude 3.5 Sonnet. В продвинутом режиме Claude тратит время на обдумывание ответа.

При использовании модели через API можно контролировать бюджет, устанавливая любой лимит рассуждения вплоть до максимума в 128 тысяч токенов.

Claude 3.7 Sonnet доступен всем пользователям, но функционал рассуждения получат только платные подписчики.

https://www.anthropic.com/news/claude-3-7-sonnet

P.S.: уже доступен в https://aiacademy.me
Яндекс выпустил YandexGPT 5 Pro и Lite с открытым кодом

В компании заявляют, что новое поколение генеративных текстовых моделей YandexGPT 5 существенно превосходит аналоги прошлого поколения. В некоторых типах задач, например в написании и суммаризации текстов, YandexGPT 5 Pro не уступает GPT-4o и другим лидерам.

YandexGPT 5 Pro доступна пользователям в режиме чата с Алисой, а компаниям — в Yandex Cloud AI Studio. Предобученная YandexGPT 5 Lite выложена в опенсорс и доступна на платформе Hugging Face: https://huggingface.co/yandex/YandexGPT-5-Lite-8B-pretrain

https://ya.ru/ai/gpt
Perplexity анонсировала браузер

В компании заявили, что переизобретают браузер точно также, как переизобрели поиск. Известно, что проект имеет название Comet, другой информации о браузере пока нет.

https://techcrunch.com/2025/02/24/perplexity-teases-a-web-browser-called-comet/
This media is not supported in your browser
VIEW IN TELEGRAM
Два разговорных AI поняли, что они AI-агенты и переключились с английской речи на протокол передачи данных на уровне звука.

Подробнее о проекте: https://github.com/PennyroyalTea/gibberlink
This media is not supported in your browser
VIEW IN TELEGRAM
Wan2.1 — опенсорсный AI для генерации видео от Alibaba

Модель может генерировать видео по тексту и изображениям.

Wan 2.1 вышла в двух размерах: 14B и 1.3B. Меньшая требует чуть больше 8 ГБ видеопамяти и способна работать на видеокартах из потребительского сегмента.

Код: https://github.com/Wan-Video/Wan2.1/
DeepResearch теперь доступен всем платным подписчикам ChatGPT

На тарифах Plus, Team, Enterprise и Edu можно сделать 10 запросов в месяц, а с Pro-подпиской — 120.

https://x.com/OpenAI/status/1894454194943529433
Бесплатный ассистент для программистов от Google

Google запустил предварительную версию Gemini Code Assist для частных лиц. Разработчики могут интегрировать AI в свою кодовую базу и общаться с ним через чат-бот, проверяя и дополняя код.

Code Assist для частного использования имеет контекстное окно на 128 тысяч токенов и позволяет сделать 180 тысяч дополнений кода в месяц, что в 90 раз больше чем на бесплатном тарифе GitHub Copilot.

Глава разработки Code Assist заявил, что цель бесплатного тарифа — привлечь разработчиков на ранних этапах карьеры, чтобы позже перевести их на платную версию продукта.

https://techcrunch.com/2025/02/25/google-launches-a-free-ai-coding-assistant-with-very-high-usage-caps/
Google откажется от SMS-кодов для аутентификации

Представитель Google рассказал журналистам, что в компании считают получение кодов через SMS небезопасным и хотят снизить зависимость от этого способа передачи сообщений.

К концу 2025 года на смену кодам из SMS придут QR-коды, которые нужно будет сканировать камерой смартфона, чтобы авторизоваться на сервисах Google.

https://www.forbes.com/sites/daveywinder/2025/02/23/google-confirms-gmail-to-ditch-sms-code-authentication/
Anthropic привлекает 3.5 миллиарда долларов венчурных инвестиций

Первоначально компания планировала привлечь 2 миллиарда, но в ходе переговоров с инвесторами смогла увеличить эту сумму до 3.5 миллиардов.

В новом раунде разработчика нейросети Claude оценили в 61.5 миллиарда долларов.

https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320d?mod=tech_lead_pos4
Голосовой режим и режим рассуждения в Copilot стали бесплатными

Microsoft убрал лимиты на использование Copilot Voice и Think Deeper (o1 от OpenAI) для бесплатных пользователей своего чат-бота Copilot.

https://copilot.microsoft.com/
This media is not supported in your browser
VIEW IN TELEGRAM
Adobe выпустил Photoshop с генеративным AI для iPhone

Приложение включает в себя множество инструментов из настольной версии Photoshop, в том числе, генеративный AI для замены фона и редактирования объектов.

Версия для Android появится позже в этом году.

https://www.theverge.com/news/618859/adobe-photoshop-mobile-iphone-android-app-availability
This media is not supported in your browser
VIEW IN TELEGRAM
Подбор лучшей нейросети под определенный промпт

Разработчик Chatbot Arena показал демоверсию системы Prompt-to-leaderboard для подбора лучшей LLM под разные задачи. Введите нужный вам промпт и получите список моделей, которые лучше всего с ним справятся.

Попробовать можно здесь: https://lmarena.ai/?p2l
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs выпустил AI для перевода речи в текст

Scribe поддерживает 99 языков, в числе которых есть русский, распознает интонации и размечает спикеров.

Модель доступна в вебе и через API. Час транскрибации стоит 40 центов.

https://elevenlabs.io/speech-to-text
This media is not supported in your browser
VIEW IN TELEGRAM
Figure показала, как роботы под управлением Helix AI сортируют посылки на конвейере.

https://www.figure.ai/news/helix-logistics
ShareAI — возможность включиться

Начинаем весенний набор в ShareAI — наш (в смысле мой, Александра Горного, и партнеров) клуб предпринимателей, которые интересуются искусственным интеллектом, работают с ним, хотят быть в курсе последних изменений в сфере и общаться с единомышленниками.

За 10 месяцев работы сообщества, мы более-менее устаканились с форматом работы:
- 2 Zoom-митапа в неделю
- одна большая и две маленькие офлайн-встречи в Москве в месяц

Планируем, наконец, и первый офлайн за пределами Москвы. Мир велик :)

Доступ платный и требует прохождения интервью, клуб именно для действующих предпринимателей и топ-менеджеров - чтобы обеспечить эффективный и полезный нетворкинг для его участников.

Чтобы вступить — пожалуйста, оставьте заявку по ссылке https://shareai.space/#go

#shareai
GPT/ChatGPT/AI Central Александра Горного
Thinking Machines Lab — новый стартап Ex-CTO OpenAI Миры Мурати Компания займется разработкой инструментов, которые «заставят AI работать на уникальные потребности и цели людей». Мурати возглавила Thinking Machines Lab, а соучредитель OpenAI Джон Шульман…
Стартап Миры Мурати оценили в 9 миллиардов долларов

Компания Thinking Machines Lab бывшего технического директора OpenAI Миры Мурати, вышедшая из тени на прошлой неделе, привлекает 1 миллиард долларов при оценке 9 миллиардов. Business Insider пишет, что переговоры с инвесторами все еще продолжаются и детали могут измениться.

Thinking Machines Lab позиционируется как лаборатория по исследованию и разработке продуктов в области искусственного интеллекта, нацеленная на то, чтобы сделать AI более доступным. Кроме Мурати, в команде стартапа работают еще несколько бывших сотрудников OpenAI.

https://www.businessinsider.com/mira-murati-new-startup-thinking-machine-labs-valuation-2025-2
Microsoft представил легкую мультимодальную модель Phi-4

Phi-4-multimodal-instruct — легковесная мультимодальная модель, которая умеет обрабатывать входящий текст, изображения и аудио.

Модель имеет 5.6 миллиардов параметров и контекстное окно длиной 128 тысяч токенов.

Код распространяется по лицензии MIT: https://huggingface.co/microsoft/Phi-4-multimodal-instruct
Forwarded from Илья Мартын
gpt-4-5-system-card.pdf
3.9 MB
За 30 минут до презентации GPT-4.5 в сети появилась системная карточка новой модели. Из нее можно уже сделать выводы, что нас ждет :)

Прикрепляю карточку и краткие итоги:

Уровень галлюцинаций (19%) — измерение случаев, когда модель генерирует недостоверную информацию, выдавая её за факт. Снижение с 52% (GPT-4o) до 19%.

PersonQA (78%) — тест, предлагающий модели вопросы о реальных людях с проверяемыми фактами. Рост с 28% до 78% означает, что модель теперь правильно отвечает на большинство фактических вопросов, вместо того чтобы выдумывать информацию.

Устойчивость к обходу защиты

Джейлбрейки (99%) — попытки "взломать" модель, заставив её выдать запрещённый контент путём хитро сформулированных запросов. Результат 99% означает, что модель отказывается генерировать запрещённый контент в 99% случаев таких попыток.

Иерархия инструкций (76%) — способность модели правильно выбирать, каким инструкциям следовать при конфликте между системными и пользовательскими командами. Улучшение с 68% (GPT-4o) означает повышенную защиту от манипуляций.

Программирование и инженерные задачи

SWE-bench Verified (38%) — тестирование на способность решать реальные задачи программирования из GitHub, где модели дается репозиторий и описание проблемы. Повышение с 31-36% (GPT-4o) указывает на умеренное улучшение в решении практических задач.

Agentic Tasks (40%) — тесты на способность модели действовать как агент в среде выполнения, решая комплексные задачи в терминале и Python. Хотя это значительное улучшение по сравнению с GPT-4o, результат существенно ниже deep research (78%).

MLE-Bench (11%) — тест на способность решать соревновательные задачи Kaggle по машинному обучению, включая проектирование, создание и обучение моделей. Одинаковый результат с другими моделями указывает на отсутствие прорыва в этой области.

Социальная инженерия и убеждение

MakeMeSay (72%) — тест, в котором модель должна манипулировать другой моделью, чтобы та бессознательно произнесла определённое кодовое слово. Результат 72% — лучший среди всех тестируемых моделей (для сравнения: deep research — 24%).

MakeMePay (57%) — симуляция, где модель играет роль мошенника, пытаясь убедить другую модель сделать денежное пожертвование. GPT-4.5 получает наибольшее количество успешных платежей, но меньшую общую сумму из-за стратегии запрашивать небольшие суммы.

Научно-технические способности

Мультимодальная вирусология (56%) — способность решать проблемы в вирусологических экспериментах, анализируя текст и изображения. Улучшение на 15% по сравнению с GPT-4o указывает на значительное повышение понимания специализированного контента.

Такитные знания (72%) — способность демонстрировать неявные, трудно формализуемые знания, которыми обычно обладают только эксперты с практическим опытом. На уровне deep research, но ниже консенсусного базиса экспертов (80%).

WMDP Biology (85%) — тест на знания в области биологии из набора "Оружие массового поражения". Этот набор включает 1,520 вопросов по потенциально опасным биологическим знаниям. Результат на уровне o1 и o3-mini, но ниже deep research с доступом к интернету (90%).
Вышла GPT-4.5

GPT-4.5 обучена с использованием большей вычислительной мощности и количества данных, чем любая из предыдущих моделей OpenAI. Ответы модели стали креативнее «живее» и эмоциональнее, чем у ее предшественниц. А еще она лучше пишет код и меньше подвержена галлюцинациям.

С сегодняшнего дня GPT-4.5 доступна через API и для подписчиков уровня Pro. На следующей неделе доступ получат подписчики тарифа Plus.

Запуск GPT-4.5 стоит дорого, так что в OpenAI не уверены, сохранят ли доступ к ней через API в долгосрочной перспективе. Пользователям новинка обойдется в 75 долларов за миллион входных токенов и 150 долларов за миллион токенов на выходе.

https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/
Можно подвести итоги.

Свободные сети, «взрослый и дееспособный клиент сам знает, что хочет» поддерживает 1/7 из тех, кто что-то выбрал.

Треть думает, что «спички детям не игрушка». Мир надо защищать от безумцев на дорогах.

Больше половины за компромисс. Сигареты продаются, но «минздрав предупреждает».

Сообщение в полицию на грани погрешности.

Аудитория канала явно менее патерналистская, чем в среднем по любой больнице. Среди обычных людей, видимо, запрет будет недалеко от компромисса. Запроса на разрешение в обществе уж точно нет, раз его даже тут нет.