Сиолошная

В июне Google закрыл Google Podcasts, которым я пользовался долгое время. Идеально минимальный дизайн без ненужных фич, простое бесплатное скачивание + прослушивание в оффлайне хоть где, никакой регистрации (просто обычный аккаунт Google), и большинство авторов там постили.

Очень грустно 😢 мне завтра лететь 7 часов, придётся как-то по другому слушать(

1. Spotify - вне своей страны нельзя больше 14 суток пользоваться
2. Apple Podcasts - у меня андроид 🤷‍♂️
3. YouTube Music - не пробовал, но там нет двух из двух подкастов, которые я сейчас проверил

👍 офигенно. Берите на заметку, незанятая ниша. Ну или подскажите мне, пожалуйста, чем пользоваться.

Очередной убитый гуглом сервис 😂

The podcast in the question: https://www.latent.space/p/yitay

Please open Telegram to view this post

VIEW IN TELEGRAM

23.9K viewsedited 21:29

Сиолошная

Forwarded from Gamedev suffering (Andrei Apanasik (Balancy))

Индюк: отправил питч дек с AI-артом
Инвестор: сразу отклонил чисто из-за этого

И в таких тредах опять улюлюканье и полная поддержка этих чуваков, что очень грустно видеть. Особенно от Рами такое читать печально, учитывая его прошлый вклад в инди-индустрию.

Я не касаюсь вопроса легальности и авторских прав на арт. Первый пчел в треде даже этот момент не свалидировал, а просто реджектнул проект. Это реально просто слепая ненависть к технологии.

Чем AI-арт в этом контексте отличается от купленного/взятого бесплатно (не своего) арта в ассет сторе? Откуда уверенность, что все AI-шки на тыренном арте работают?
1. Есть базы с работами, на использование которых дали добро
2. Есть уже сети, обученные на своём арте

Кто что думает?

UPD: мой основной посыл в том, что сейчас слишком много ненависти чисто вокруг самой технологии. Оно, конечно, помогает в деле форсирования законотворцев, но я всё больше наблюдаю именно слепую ненависть, что может много вреда нанести.

#AI

27.0K views13:27

Сиолошная

Forwarded from Love. Death. Transformers.

Привет!
Мы в ~~лабараторию ебаного ресерча~~ Vikhr models открываем летние стажировки
Что по задачам:

- Мержинг, стакинг, замеринг, эволюционка поверх LLM cтакинга
- собирать крутые инструкт сеты, у нас много gpt4 токенов, если хочется трогать руками RAG, агентность, function calling и прочие хайповые слова - велком!
- Учить Lora на разные задачи и трогать кучу очень интерсных задач (SPPO, DPO, KTO)
- Есть целых! 4v100 и к конце лета приедет а6000
- Собрать самые крутые и самые мемные бенчмарки😎
- развлекатся с vllm, быстрым инференсом и при желании строить опенсуср
- если вам хочется заводить свою шизо идею а на работе не дают - велком, мы сами такие

Оплата: в авторах на хабре, вероятно на arxiv, уникальный опыт(сорян денег реально нет, мы реально работаем на энтузиазме)

Скидывать cv, нюдсы, вопросы, ответы, предложения в: https://forms.gle/54BLnMMxZuNNboev6

Please open Telegram to view this post

VIEW IN TELEGRAM

21.8K views11:59

Сиолошная

Forwarded from БлоGнот

Ходят слухи, что концепция поменялась — Microsoft отказалась от места наблюдателя в борде OpenAI, Apple тоже не станет таким наблюдателем. Вместо этого OpenAI будет проводить регулярные встречи для инвесторов, на которых Apple, Microsoft и ряд других компаний-инвесторов будут получать всю информацию.

Так делается для того, чтобы снять возможную точку для претензий антимонопольных регуляторов — кое-кто даже уже начал расследование участия Microsoft в OpenAI с точки зрения соблюдения требований законодательства.

Стоит понимать, что это не просто формальные шаги — какими бы не были регулярными встречи инвесторов, они не заменят присутствия на реальных заседаниях совета директоров, где принимаются решения, пусть и без права голоса.

https://www.ft.com/content/ecfa69df-5d1c-4177-9b14-a3a73072db12

19.5K views09:47

Сиолошная

Послушал свежее интервью Microsoft CTO Kevin Scott, и почти всё обсуждение строилось вокруг AI и дальнейшего развития. Microsoft вообще чем-то другим занимается? 🤣

— вопреки мнению многих скептиков, пока не видно уменьшения эффективности масштабирования моделей. Делаешь больше, учишь дольше — получаешь модель лучше
— к сожалению, людям это сложнее прочувствовать, так как вместо наблюдения за кривой развития мы лишь получаем одну точку (фронтир модель) раз в сколько-то месяцев или лет, так как датацентры нужно построить, инженерные задачи для масштабирования — решить
— и несмотря на то, что размеры тренировочных кластеров и не думают уменьшаться, с ростом полезности моделей и проникновения их в экономику затраты на развёртывание и применение будут в разы больше оных на обучение. Тем более кластер для применения можно делать куда меньше, а инженерных задач хоть и больше (или скорее они разнообразнее, и позволяют креатив), но и скорость итераций выше — ведь обучение моделей занимает месяцы и стоит сотни миллионов долларов.
— Scott снова рассказывает (прошлый раз был весной), что следующая фронтир модель OpenAI докажет тезисы выше, мол, развитие не замедляется, масштабирование как работало последние 6 лет, так и продолжает, и стоит рассчитывать на существенные улучшения по всем направлениям. Конечно, легко списать все подобные заявления на хайп или попытку втюхать что-то, и именно поэтому следующее поколение моделей будет важным (хотя даже там найдутся дурачки, которые будут говорить «не ну это то понятно, но вот ДАЛЬШЕ-то уже не будет развития!»). Хорошо, что хотя бы слова и дела Microsoft не расходятся — ведь они инвестируют десятки и сотни миллиардов долларов в инфраструктуру в расчёте получить с этого прибыль

И как раз к вопросу про тренировочные кластера и вычислительные мощности:
1. Elon Musk говорит, что Grok 2 уже дотренировали и сейчас полируют, скоро должен выйти (мб в следующем месяце)
2. Grok 3 планируется на конец года, и по словам Elon будет тренироваться на кластере из 100'000 H100. Очень лихо Musk запрыгнул на поезд кластеров, карты-то в дефиците, а он смог раздобыть мощности. Для справки: GPT-4 в 2022м году тренировали на 25'000 карт прошлого поколения.
3. OpenAI и Microsoft не спят и тоже заключают партнёрство с Oracle, чтобы ко второй половине 25го года построить кластер на 100'000 GB200 — это уже карты следующего поколения, каждая состоит из двух чипов, а значит как минимум в два с копейками раз мощнее. Мысленно можете читать это как 200'000 карт 🔼. Интересно, на нём ли будут тренировать GPT-6?

Please open Telegram to view this post

VIEW IN TELEGRAM

24.8K viewsedited 09:28

Сиолошная

Forwarded from Время Валеры

В который раз поражаюсь. Запросил резюме на найм в Куала Лумпур, компания British Petroleum, упомянул релокацию. Разбираю резюме - четверть на русском языке. Занавес

18.5K views11:00

Сиолошная

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

Что ж, когда-то это должно было произойти. После 335 успешных миссий подряд (!) у компании SpaceX произошла осечка.

Первая ступень успешно села на платформу посреди океана — это был её 19й полёт. Проблема возникла со второй ступенью — через 2 минуты после перезапуска двигателя наблюдалось образование большого количества инея (небольшое его количество - это нормально, он всегда намораживается из дренажа, но в этот раз его было необычно много). Потенциально, это могло указывать на утечку кислорода.

Полезной нагрузкой миссии были спутники самой SpaceX — Starlink. На данный момент все спутники (20 штук) находятся ниже расчётных орбит, и хоть и начали подъем, но скорее всего сгорят в атмосфере.

❌ счётчик успешных миссий сбросился до нуля, потребуется ~3 года, чтобы снова дойти до четвёртой сотни
✅ счётчик успешных посадок подряд обновился до 255. Это был 291й полёт на уже ранее летавших ускорителях.

Видео отсюда, за часть текста с деталями и счётчики спасибо @spacex_rus

P.S.: но не унываем! В начале августа нас ждёт куда более важный полёт с попыткой посадки самого тяжелого ускорителя из когда-либо созданных!

P.P.S.: это второй за неделю пример неудачной работы второй ступени — первый был во время первого полёта новой ракеты Европейского космического агентства Ariane 6. Походу, инопланетяне гасят.. 👽не хотят, чтобы мы летали далеко.

Please open Telegram to view this post

VIEW IN TELEGRAM

22.6K viewsedited 13:12

Сиолошная

Please open Telegram to view this post

VIEW IN TELEGRAM

22.1K views16:20

Сиолошная

Please open Telegram to view this post

VIEW IN TELEGRAM

23.3K viewsedited 16:59

Сиолошная

😏 Клубничку не хотите? 😏Ну, Strawberry? Тут Reuters пишут, что это — кодовое название проекта OpenAI, ранее известного как Q* (всплывал ранее тут 8 месяцев назад). Это следует из внутренней документации, раскрытой источником и отсмотренной Reuters.

TLDR новостной заметки:
— документ является подробным планом того, как OpenAI намерены использовать Strawberry для проведения «deep research» (исследований) — для этого сильно прокачали reasoning, то есть «рассуждения» модели
— деталей о публичном появлении системы нет, равно как и нет деталей о принципе работы. Последнее хранится в секрете даже от большинства сотрудников компании
— ранее в этом году два источника описывали увиденную ими демонстрацию Q*: система была способна отвечать на сложные научные и математические вопросы, находящиеся за пределами возможностей моделям сегодняшнего дня. Данная информация о двух источниках появляется впервые (то есть скорее всего Reuters не были убеждены на 100%, и не публиковали новость. Сейчас информация, вероятно, каким-то образом подтвердилась)
— в четверг в OpenAI была еженедельная встреча «на всех», где показывали свежие навыки моделей (об этом писал Bloomberg). Однако не ясно, имеет ли это хоть какую-то связь с Strawberry/Q*
— также в документе подчёркивается, что «среди возможностей, на которые нацелен проект Strawberry, входит выполнение задач с длинным горизонтом планирования». Тут имеются в виду сложные задачи, которые требуют от модели выполнения ряда действий в течение длительного периода времени
— дообучение модели производилось на «deep-research» наборе данных. Не уточняется, что это такое, но сделаю аккуратное предположение, что это грубо говоря промежуточные мысли, которые приводят к некоторым выкладкам. Именно эта часть данных обычно нигде не сохранена и не описана, и потому модели не могут ей научиться — мол, почему было сделано так, а не эдак
— OpenAI также планирует протестировать возможности Strawberry в выполнении работы программистов и инженеров машинного обучения

===

Моё мнение: в целом всё достаточно верхнеуровнево и правдоподобно-логично, очевидного бреда нет. Однако это не говорит о том, что это правда. OpenAI, как и другие, 100% работают по этим направлениям, главный вопрос в конкретных достижениях.

Появление аж двух новостей за неделю (Bloomberg и Reuters), а также проведение внутреннего демо скорее указывает на приближение к релизу. Это не значит, что систему анонсируют через пару недель, но ждать, должно, осталось не долго. Хоть до ноябрьского DevDay ещё... 😪

Такие демо недолго живут без анонса, потому что быстро утекают: Sam Altman говорил, что увидел приложение с голосовым режимом GPT-4o буквально за неделю до мини-презентации: до этого работа шла маленькой командой.

Please open Telegram to view this post

VIEW IN TELEGRAM

75.2K viewsedited 23:29

Сиолошная

И отдельно хочу показать визуализацию планируемой ловли ускорителя руками Мехазиллы (да, башню так называют). Глядя на видео не забывайте, что серебристая цистерна из нержавейки имеет высоту 71 метр (24-этажное здание) и массу без топлива порядка 200 тонн.…

Увидел сравнение Starship и Saturn V (в масштабе), решил написать пост для того, чтобы давать ссылку в будущем. В комментариях часто спрашивают «так а чё, ну другие ракеты же есть ❓».

Основных тезиса три, и все они связаны между собой:
— стоимость запуска
— многоразовость
— конструкция, созданная с прицелом на масштабирование производства

Многие ракеты уходящей эпохи — продукты почти штучные. Их всегда было дорого запускать (особенно сверхтяжёлые, выводящие более 100 тонн на орбиту), и было ясно, что максимум будут десятки запусков, так как заказчиков не так много (в самом начале и вовсе один — государство).
До настоящего времени было всего 4 программы сверхтяжей: Saturn V и Н1 (для Лунной гонки), Энергия, SLS (разработка началась после 2010-го), в сумме 20 полётов — из которых 13 у Saturn V с 7 6 высадками на другое небесное тело. В настоящее время есть другие программы либо без даты пусковых испытаний, либо 2027 (Китай).

Легко увидеть, почему так вышло — все проекты государственные, большая часть сделана для престижа, денег не экономили, но и поддерживать программы долго не собирались. Отсюда следуют бешеные цены на запуск — во-первых, нужно учитывать стоимость разработки проекта (десятки миллиардов долларов), которая делится на очень маленькое число пусков, а, во-вторых, гнаться за дешевизной не было смысла/времени/желания.

SpaceX подошли к проблеме с кардинально другой стороны — они поняли, что если пусков будет много, то имеет смысл вложиться в разработку и сделать технологическое чудо: обеспечить полную многоразовость и при этом держать цену производства как можно ниже. Starship показал, что корабль, сделанный 1) из дешёвой и доступной нержавейки 2) без специальных чистых комнат, на пустыре около океана 3) с дешёвыми легко заменяемыми компактными двигателями 4) специально с прицелом на конвейерное производство и масштабирование — возможен.

Ну а с многоразовостью всё понятно — мы не выбрасываем самолёты после каждого рейса, так почему ракетам оставаться одноразовыми? Давайте пробовать спасать сначала части, а затем и всю систему — и корабль, и ускоритель. Хоть их производство и не такое дорогое, всё же дешевле просто залить топлива и пустить ещё раз. И ещё раз. И ещё... вот так это будет выглядеть.

Прочитать про экономику пусков можно в предыдущем посте.

На картинке: выделил примерный объем отсека с полезной нагрузкой. Starship может вывести на орбиту тысячу кубометров груза (это больше, чем жилой объем МКС, собираемой несколькими государствами) ЗА ОДИН РАЗ.

===

Ой, и ещё — будущие версии корабля будут ещё больше и ещё выше 😵

Please open Telegram to view this post

VIEW IN TELEGRAM

25.6K viewsedited 14:09

Сиолошная

Что-то все модели выпускают, а от Mistral🇫🇷давно новостей не было. Сегодня они выпустили две модели, одна заточена на математику, другая — на написание кода.

MathΣtral — компактная модель размера 7B, по архитектуре эквивалентная ранним релизам компании. Её доучили на решение сложных математических задач, требующих комплексных, многосутпенчатых логических рассуждений.

На MMLU модель показывает прирост более чем в 10% в отдельных под-категориях, и целых 15% в элементарной математике, физических задачах старшей школы/колледжей и, внезапно, машинном обучении.

Модель справилась с 2мя задачами из 30 на American Invitational Mathematics Examination (AIME). Это второй из трёх этапов отбора команды на международную олимпиаду по математике в США — тут задачки уже поинтереснее, но всё ещё не как на финалах. Кажется, что 2 задачи это мало, но из моделей сопоставимого размера лишь китайский Qwen 2 7B тоже решает 2; большинство остальных — нуль.

Проценты решений задач других олимпиад можете увидеть на картинке

Модель уже доступна на HF (не торрент!). Её, кстати, делали совместно с Project Numina — это проект, члены которого также недавно выиграли соревнование AIMO по решению олимпиадных задач LLMками (писал тут). Там победное решение использовало DeepSeek Math 7B (вторая строчка в таблице). Так что при следующем запуске соревнования можно ожидать, что результат первого места ещё подскочит вверх — просто за счёт смены одной модели на другую, чуть более мощную.

Для справки: maj@16 означает, что модель независимо генерирует 16 решений на задачу, после чего проводится голосование большинством, и выбирается тот ответ, который чаще попадался. Важно понимать, что это не означает, что система даёт 16 ответов с 16 попыток — попытка одна, а maj позволяет выбрать один ответ, который модели кажется наиболее правильным.

Please open Telegram to view this post

VIEW IN TELEGRAM

26.7K viewsedited 15:01

Сиолошная

Судя по комментариям, почти все выбирают одну тему из трех. Давайте проголосуем.

Andrey Karpathy, ко-фаундер OpenAI и ex-Директор по AI в Tesla, не дождался моего лонга по образованию и открыл Eureka Labs, школу нового типа, основанную на искусственном интеллекте.

Текст анонса:
===
Как мы можем приблизиться к идеальному опыту изучения чего-то нового? Например, в случае с физикой можно представить, как вы работаете над высококачественными учебными материалами вместе с Фейнманом, который будет сопровождать вас на каждом этапе пути. К сожалению, экспертов в предметной области, которые глубоко увлечены, прекрасно преподают, бесконечно терпеливы и свободно говорят на всех языках мира, также очень мало и они не могут лично обучать все 8 миллиардов людей.

Однако с учетом недавнего прогресса в области генеративного искусственного интеллекта этот опыт обучения кажется вполне достижимым. Преподаватель по-прежнему разрабатывает материалы курса, но они поддерживаются, активно используются и масштабируются с помощью ИИ-помощников преподавателя, которые оптимизированы для помощи учащимся в их изучении. Этот симбиоз Учитель + ИИ может проводить целую программу курсов на общей платформе. Если мы добьемся успеха, любому будет легко научиться чему-либо, расширяя образование как по доступности (большое количество людей, изучающих что-то), так и по объему (любой человек изучает большое количество предметов, сверх того, что сегодня возможно без посторонней помощи).

Нашим первым продуктом станет, очевидно, лучший в мире курс по искусственному интеллекту LLM101n. Это курс для студентов бакалавриата, и он поможет студенту натренировать собственный ИИ, очень похожий на уменьшенную версию этого самого помощника преподавателя по искусственному интеллекту. Материалы курса будут доступны онлайн, но мы также планируем вести как цифровую, так и физическую группы для прохождения курса.

Сегодня мы с головой уходим в создание LLM101n, но мы с нетерпением ждем будущего, в котором ИИ станет ключевой технологией для увеличения человеческого потенциала.

Чему бы вы хотели научиться?

23.6K viewsedited 18:07

Сиолошная

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

Хорошие бенчмарки для ИИ-агентов — это нам надо обязательно (особенно в преддверии GPT-5 / Gemini-2). Есть отдельное направление бенчмарков, которые симулируют работу с привычными нам инструментами — с сайтами или приложениями, которыми специалисты пользуются в работе каждый день (WorkArena, WebArena, OSWorld).

В данной работе, созданной в коллаборации нескольких компаний и учебных заведений (преимущественно, китайских), создается бенчмарк для оценки ИИ-агентов в дата-инженерии и дата-саенс (джуны-вкатыватели напряглись). Покрыт полный цикл, разделённый на 5 компонент (в скобках — поддерживаемые инструменты):
— Data Warehousing (Snowflake, BigQuery)
— Data Ingestion (Airbyte, никогда не пользовался)
— Data Transformation (dbt)
— Data Visualization (Superset, Metabase)
— Data Orchestration (Airflow, Dagster)
(а ещё есть эксели, куда без них, 😥)

В общем, если вы касались дата-инженерии, то понимаете, что набор увесистый, и хоть и не покрывает всего зоопарка решений, которые встречаются на местах. Но самое интересное тут — принцип сбора данных. Суммарно 10 разметчиков подготовили 494 задачи, в среднем на одну уходило 4 часа. В самом начале процесса они искали и изучали учебные курсы/туториалы (больше 200 ссылок для доп. информации).

Из этих туториалов создавались задачи, но требовалось, чтобы как минимум 2 ключевых аспекта задачи были изменены. На практике это означает, что скорее всего используются те же инструменты, что и в туториале, но с немного другой целью / условиями и ограничениями по данным — всё это помогает предотвратить переобученность LLM под задачи. Например, в задаче оркестрации скриптов один проект для запуска меняется на другой, а также добавляется условие запуска ежедневно в 10 утра (в оригинальном уроке этого условия вообще не было).

Также каждая задача сопровождается некоторым количеством вспомогательного кода, который позволяет развернуть среду и запустить нужные приложения, то есть как бы имитировать рабочее пространство в момент времени начала решения. После окончания работы над задачей она независимо проверяется ещё двумя разметчиками, что они могут сами взять и повторить решение, и что всё работает. Так что потолок метрики доли решенных задач тут 100%.

В среднем, каждая задача требует обращения к 2.5 разным приложениям (включая терминал и IDE для написания кода). Все таски разделены на простые (не более 5 шагов для решения, где шаг — это нажатие на кнопку или этап написания кода) - 20%, средние (6-16 шагов) - 63%, и 17% сложных задач с более чем 15 шагами.

Please open Telegram to view this post

VIEW IN TELEGRAM

20.1K viewsedited 11:16

Сиолошная

Примеры пары простых задачек:

1. Закинуть данные из папки в Google Drive в таблицу в BigQuery
2. Выгрузить топ-20 драматических фильмов из IMDB-таблички в Snowflake в csv доп. требованиями

Обе задачи решаются только кликами в UI и написанием простого кода запросов (тоже в браузере).

Больше примеров можно посмотреть вот тут — там прямо целые видео того, как GPT-4o справляется с задачами (больше 30 примеров)

20.6K viewsedited 11:19

Сиолошная

Выводы и результаты такие:
— для открытых LLM использовалось текстовое описание происходящего на экране, без картинок. Потому качество сильно хуже и его даже рассматривать не будем
— для фронтир VLM (GPT-4o, Claude-3) подаются картинки с экрана, а также ещё пара трюков: дополнительная информация в контекст (RAG над документацией) + Set-of-Mark (когда кнопки/текст на экране распознают и выделяют на картинке для модели)
— глобально решается 14% задач, что очень мало, но тут можно сделать много срезов
— например, простых задач решается уже 40% (сложных — 1.2%)
— также решается 20% задач, требующих только работу с графическим интерфейсом, без консоли или IDE
— (см. картинку) GPT-4V решает 25% задач на визуализацию, GPT-4o 24% на Data Ingestion
— GPT сильно превосходит модели Google и Anthropic

Так что пока живём, джунов не заменит. Но очень хочется, чтобы при релизе GPT-5 и Claude-3.5-Opus прям сразу рассказали про метрики на этом и схожих бенчмарках — чтобы понимать, какую долю работу мы скоро потеряем...

21.3K views11:32

Сиолошная

Понятно ли вам примерно, как именно «простая LLM которая генерирует следующее слово» решает эти задачи?

Anonymous Poll

15%

Да, прекрасно понимаю функционал агента

48%

Нууу очень примерно, плюс минус

37%

Нет, вообще не понимаю, модель же просто текст генерирует?

3.1K voters22.2K views11:34

Сиолошная

Please open Telegram to view this post

VIEW IN TELEGRAM

21.1K views17:30

Сиолошная

Кто-то в редакции CNBC немного облажался, нажал не ту кнопку, и выпустил в релиз вот эту новость: OpenAI debuts mini version of its most powerful model yet

Речь идёт о запуске GPT-4o mini, и что якобы она была запущена в четверг (сегодня). Однако никаких анонсов или релизов нет, в API её нет, на сайте ChatGPT тоже. И всё же я думаю, что это просто ранний анонс, который должен был случиться вечером (по Калифорнии — утром).

Почему? Ранее на неделе на LMSYS Arena была замечена тестовая модель upcoming-gpt-mini, вероятно, также как и в случае gpt2-chatbot, OpenAI перед релизом проводили тестирование и оценку.

GPT-4o-mini должна стать заменой GPT-3.5, которую не обновляли больше года, и, по идее, за схожую цену предлагать сильно более умную модель. Позже в этом году в неё планируют добавить обработку видео и аудио (и может даже генерцию?). Этого нет в новости, но полагаю, что у неё может быть увеличенная длина контекста (как раз для работы с новыми модальностями) — потому что маленькую модель проще разворачивать на инфраструктуре, и нужно меньше ресурсов.

Модель будет доступна и бесплатным пользователям тоже.

Новость показал автор канала @cgevent, спасибо!

UPD: такую же новость запостил bloomberg.

CNBC

OpenAI debuts mini version of its most powerful model yet

OpenAI on Thursday launched a new AI model, "GPT-4o mini," the artificial intelligence startup's latest effort to expand use of its popular chatbot.

21.2K viewsedited 14:47

Сиолошная

Вышла

Вот картинка с бенчмарками, сравнивать можно с Gemini Flash от Google (обе на графике — в оранжевых тонах).

Очень заметен отрыв на датасете MATH (задачи по математике 🧐). Одни скажут «прорыв😏», другие — «да переобучились на данных!». А правду узнаем уже из опыта использования моделей!

Правда модель от OpenAI ... дешевле в 2 раза! Всего 15 центов за миллион входных токенов, и 60 за миллион на выходе — это ОЧЕНЬ мало. Дешевле GPT-3.5-Turbo на 65%!

И напомню, что даже эти копейки можно срезать на 50%, если пользоваться Batch API (это когда вы загружаете файл с сотнями-тысячами запросов, и он в течение суток обрабатывается; не подходит для чатов, но подходит для разных неприоритетных фоновых задач).

К сожалению, контекст так и остался на отметке в 128000 токенов.

P.S.: с этим релизом GPT-3.5-Turbo, представитель прошлого поколения моделей, уходит на покой 🫡 спи сладко. Но ещё на покой ушли десятки опенсурсных моделей: многие 70B варианты дороже даже у демпингующих провайдеров 🥺 Да что там, gemma-2-27b (крутая моделька гугла) стоит $0.27 — почти в два раза дороже 🤯

Please open Telegram to view this post

VIEW IN TELEGRAM

23.7K viewsedited 17:06

Сиолошная

В прошлом году, когда ведущие разработчики ИИ стремились ускориться за счёт все более крупных кластеров, Sam Altman планировал игру вдолгую. Он решил основать новую компанию, которая могла бы разработать и произвести новые ИИ-специализированные чипы, а также помочь создать фабрики по производству чипов и центры обработки данных для их размещения.

Некоторые детали планов просочились в прессу, о них написали в The Information. Ниже моя тезисная выжимка:
— OpenAI ещё в прошлом году начали нанимать команду по разработке чипов. В частности, к ним присоединилась часть ветеранов из Google, работавших над TPU — в том числе руководитель проекта Richard Ho
— скорее всего, дизайн чипов ещё не начался, и первые образцы массового производства не стоит ждать ранее 2026-го
— однако команда уже сейчас рассматривает разные варианты компоновки памяти/форма-факторы/etc
— Sam говорил с Broadcom (американский производитель чипов с рыночной оценкой $750B), TSMC (тайваньский гигант, $880B) и даже Intel о совместной работе над чипом
— «ну говорил и говорил, видимо сами не могут сделать?», могли подумать вы. Думаю, проблема куда шире — как говорил Sam, мир не понимает, СКОЛЬКО мощностей нам нужно будет (помните шутки про 7 триллионов?), и просто пытается выстроить огромную сеть производства, взяв лучшее от каждого
— «Амбиции Sam'а по расширению производства показались многим руководителям маловероятными, поскольку для этого потребуется много капитала и специализированной рабочей силы. Altman был «слишком агрессивен, чтобы я мог в это поверить», — заявил генеральный директор TSMC на пресс-конференции в прошлом месяце, когда его спросили о перспективах открытия новых заводов»
— запросы о расширении производства/постройки заводов/другие эксклюзивные договоренности с OpenAI кажутся рисковыми, так как требуют инвестиций, которые не окупятся без покупателей
— Но Sama к этому готов — недавно он сказал одному руководителю из отрасли, что намеревается создать одну или несколько компаний с внешними инвесторами для оплаты недвижимости, электроэнергии, центров обработки данных и специализированных серверов с чипами искусственного интеллекта. И добавил, что OpenAI возьмет на себя обязательство арендовать эти серверы
— OpenAI будет являться акционером (и возможно контролирующим лицом) в новой компании/ях, и совет директоров уже ознакомился с планами

И финальное:
В приватной беседе с директорами из отрасли Sam сказал, что публично представит проект в этом году. Так что ждём, будем смотреть вот так 😳 на грандиозные планы по изменению индустрии.

На фото Sam летит на своём суперкаре за $4M с одной встречи на другую, торопится парень.

UPD: Broadcom — это компания, которая делает TPU для Google (источник)

Please open Telegram to view this post

VIEW IN TELEGRAM

20.9K viewsedited 21:27

About

Blog

Apps

Platform