Data Secrets
Исследователи из Tsinghua University разработали первый в мире оптический вычислительный модуль OFE² Optical Feature Extraction Engine – это устройство, которое использует для вычислений фотоны вместо электронов. Световые сигналы проходят через систему дифракционных…
Вчера рассказывали вам про оптические чипы, а сегодня на очереди термодинамические
(Да, чего только не придумают)
Ну так вот. Стартап Extropic представил XTR-0 – аппаратную платформу, в которой вычисления происходят не в порядке строгой цифровой логики, а на основе стохастических тепловых процессов.
Чип состоит из так называемых Thermodynamic Sampling Unit (TSU). Это блоки, построенные на p-битах. Суть в том, что в отличие от обычных битов, р-биты не просто принимают значения 0 или 1, а колеблются между ними с заданным распределением вероятностей.
Звучит как бред, но идея за этим стоит следующая. Все современные модели упираются в вероятностные принципы. Например, LLM во время генерации, по факту, выбирают просто самые вероятные следующие токены.
И если мы хотим работать с вероятностными системами, зачем исполнять их на детерминированном железе? Extropic считают, что сэмплинг можно перенести на аппаратный уровень, и это будет в разы эффективнее.
По предварительной оценке, такая система может оказаться в 10 000 раз более энергоэффективной, чем GPU. Но пока это только прототип, увы.
И, кстати, обратите внимание на дизайн ускорителя. Его, видимо, закастомили под кортильный стэк из книги Altered Carbon. В произведении это устройство хранило личность и память человека и представляло из себя, фактический, флешку с сознанием. Так что (как минимум) за отсылку ребятам респект, конечно.
extropic.ai/writing/inside-x0-and-xtr-0
(Да, чего только не придумают)
Ну так вот. Стартап Extropic представил XTR-0 – аппаратную платформу, в которой вычисления происходят не в порядке строгой цифровой логики, а на основе стохастических тепловых процессов.
Чип состоит из так называемых Thermodynamic Sampling Unit (TSU). Это блоки, построенные на p-битах. Суть в том, что в отличие от обычных битов, р-биты не просто принимают значения 0 или 1, а колеблются между ними с заданным распределением вероятностей.
Звучит как бред, но идея за этим стоит следующая. Все современные модели упираются в вероятностные принципы. Например, LLM во время генерации, по факту, выбирают просто самые вероятные следующие токены.
И если мы хотим работать с вероятностными системами, зачем исполнять их на детерминированном железе? Extropic считают, что сэмплинг можно перенести на аппаратный уровень, и это будет в разы эффективнее.
По предварительной оценке, такая система может оказаться в 10 000 раз более энергоэффективной, чем GPU. Но пока это только прототип, увы.
И, кстати, обратите внимание на дизайн ускорителя. Его, видимо, закастомили под кортильный стэк из книги Altered Carbon. В произведении это устройство хранило личность и память человека и представляло из себя, фактический, флешку с сознанием. Так что (как минимум) за отсылку ребятам респект, конечно.
extropic.ai/writing/inside-x0-and-xtr-0
❤115👍44🔥31😁7 6 4🤯3 3
Please open Telegram to view this post
VIEW IN TELEGRAM
😁334 40👍25❤8😎5☃2🕊1🤨1
О, Гарвард опубликовал отличную книгу по ML-системам
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.
Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.
В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.
pdf-ка и онлайн версия доступны здесь, репозиторий тут
2🔥132❤49👍12😍9😁1🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот так Tesla поздравила всех с Хэллоуином 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
😁141 47🗿11❤5 3🔥2☃1👍1🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
Как прошла CVPR 2025: главные выводы
CVPR – это главная мировая конференция по ИИ и компьтерному зрению. В этом году на нее подали около 13000 работ (accept rate составил ~ 22% процентов). Доклады точно стоят внимания, но изучить 2800+ работ самостоятельно...🪢
Мы нашли прекрасную презентацию на русском языке, в которой оказались собраны и разжеваны все главные идеи и выводы с конференции. Ее представил на встрече ComDS (Community of data scientists ВТБ) Олег Милосердов – Lead DS Лаборатории компьютерного зрения ВТБ.
Каждое направление (диффузионки, animation, editing, VLM и тд) в презентации разобрано отдельно, а в конце перечислены как новые, так и угасающие тренды. Главное:
➖ Технологии, ориентированные на узкие задачи, теряют актуальность. На смену приходят универсальные, мультимодальные, архитектурно адаптивные модели, способные к обобщению и логике.
➖ Генеративки в целом дешевеют. Появляется все больше подходов, которые позволяют эффективно "сжимать" навыки модели, сохраняя высокое качество.
➖ Рабочий автопилот становится реальнее: в этом году четко видно, что исследователями уже заложена хорошая база для Embodied AI, так что скоро ожидаем прорывов.
На эти тренды можно ориентироваться как на глобальные, потому что CVPR уже давно считается главным термометром по ИИ и CV и ежегодно формирует векторы развития области.
Изучаем полную презентацию по ссылке и берем на заметку
CVPR – это главная мировая конференция по ИИ и компьтерному зрению. В этом году на нее подали около 13000 работ (accept rate составил ~ 22% процентов). Доклады точно стоят внимания, но изучить 2800+ работ самостоятельно...
Мы нашли прекрасную презентацию на русском языке, в которой оказались собраны и разжеваны все главные идеи и выводы с конференции. Ее представил на встрече ComDS (Community of data scientists ВТБ) Олег Милосердов – Lead DS Лаборатории компьютерного зрения ВТБ.
Каждое направление (диффузионки, animation, editing, VLM и тд) в презентации разобрано отдельно, а в конце перечислены как новые, так и угасающие тренды. Главное:
На эти тренды можно ориентироваться как на глобальные, потому что CVPR уже давно считается главным термометром по ИИ и CV и ежегодно формирует векторы развития области.
Изучаем полную презентацию по ссылке и берем на заметку
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤46👍14😁7🤨2🤯1🕊1
Media is too big
VIEW IN TELEGRAM
Илон Маск говорит, что скоро смартфоны уйдут в прошлое
Их подвинет ИИ, и вместо привычного телефона уже через 5-10 у нас в руках будет простой дисплей, который будет связывать ваши локальные LLM с облачными, и все.
Посредством таких дисплеев люди будут общаться и потреблять мгновенно сгенерированный персонализированный контент. Не будет ни операционных систем, ни приложений.
Как вам идея, а?
Их подвинет ИИ, и вместо привычного телефона уже через 5-10 у нас в руках будет простой дисплей, который будет связывать ваши локальные LLM с облачными, и все.
Посредством таких дисплеев люди будут общаться и потреблять мгновенно сгенерированный персонализированный контент. Не будет ни операционных систем, ни приложений.
Как вам идея, а?
2🤨278 83😁51🗿33👍29 18🤔9❤8 7⚡5🤩1
Илья Суцкевер поделился некоторыми новыми подробностями увольнения Альтмана осенью 2023 года
Да, прошло два года, а интересные детали все продолжают всплывать. В этот раз новая информация утекла в СМИ благодаря Маску. Он продолжает судиться с OpenAI, обвиняя их в том, что стартап ушел от своей изначальной некоммерческой миссии «разработать AGI ради блага человечества» и превратился в коммерческую машину.
В ходе расследования стороны привлекают свидетелей, и недавно в судебный реестр попала стенограмма почти десятичасовой депозиции Ильи Суцкевера по поводу того, что происходило в OpenAI в 2023, и как управлялась компания.
Прямо о своей роли в тех событиях Илья не говорит, но оказывается, тогда именно он подготовил для совета директоров 52-страничный внутренний меморандум, в котором объяснял, почему Сэму больше нельзя доверять + прикладывал доказательства.
Дело было не в какой-то фатальной тайне и не в споре по поводу безопасности ИИ. Просто Альтман, по словам Суцкевера, систематически вёл себя так, что совету было уже невозможно было контролировать ситуацию: скрывал критически важную информацию, сталкивал руководителей между собой, создавал внутри компании противоречивые версии реальности.
Все это привело компанию к внутреннему кризису управления, и дошло до того, что начало обсуждаться даже слияние OpenAI и Anthropic (да-да). При этом Дарио Амодеи рассматривался как возможный новый CEO объединенной структуры. Сделка в итоге не состоялась, потому что это было крайне сложно с юридической и финансовой точки зрения, но сам факт переговоров уже о многом говорит.
Несмотря на все это, непосредственно после увольнения Сэма, за которым собрались уйти не менее 700 сотруднников, мнение Суцкевера изменилось. В итоге он, как и Мира Мурати, поддерржали совет в решении восстановить Альтмана в должности.
Сейчас суд дополнительно требует от Илья текст той самой 52-страничной записки об Альтмане. Как известно, примерно такой же донос был составлен и на Грега Брокмана. Этот документ судья также требует предоставить, чтобы сопоставить версии разных членов совета.
https://www.theinformation.com/articles/openai-founder-discusses-anthropic-merger-talks-internal-beefs-deposition
Да, прошло два года, а интересные детали все продолжают всплывать. В этот раз новая информация утекла в СМИ благодаря Маску. Он продолжает судиться с OpenAI, обвиняя их в том, что стартап ушел от своей изначальной некоммерческой миссии «разработать AGI ради блага человечества» и превратился в коммерческую машину.
В ходе расследования стороны привлекают свидетелей, и недавно в судебный реестр попала стенограмма почти десятичасовой депозиции Ильи Суцкевера по поводу того, что происходило в OpenAI в 2023, и как управлялась компания.
Прямо о своей роли в тех событиях Илья не говорит, но оказывается, тогда именно он подготовил для совета директоров 52-страничный внутренний меморандум, в котором объяснял, почему Сэму больше нельзя доверять + прикладывал доказательства.
Дело было не в какой-то фатальной тайне и не в споре по поводу безопасности ИИ. Просто Альтман, по словам Суцкевера, систематически вёл себя так, что совету было уже невозможно было контролировать ситуацию: скрывал критически важную информацию, сталкивал руководителей между собой, создавал внутри компании противоречивые версии реальности.
Все это привело компанию к внутреннему кризису управления, и дошло до того, что начало обсуждаться даже слияние OpenAI и Anthropic (да-да). При этом Дарио Амодеи рассматривался как возможный новый CEO объединенной структуры. Сделка в итоге не состоялась, потому что это было крайне сложно с юридической и финансовой точки зрения, но сам факт переговоров уже о многом говорит.
Несмотря на все это, непосредственно после увольнения Сэма, за которым собрались уйти не менее 700 сотруднников, мнение Суцкевера изменилось. В итоге он, как и Мира Мурати, поддерржали совет в решении восстановить Альтмана в должности.
Сейчас суд дополнительно требует от Илья текст той самой 52-страничной записки об Альтмане. Как известно, примерно такой же донос был составлен и на Грега Брокмана. Этот документ судья также требует предоставить, чтобы сопоставить версии разных членов совета.
https://www.theinformation.com/articles/openai-founder-discusses-anthropic-merger-talks-internal-beefs-deposition
5 82🔥46❤22👍15😁5🤔5👀3⚡1
OpenAI подписали большой контракт с Amazon
На данный момент сумма сделки составляет 38 миллиардов, с возможностью масштабирования.
AWS предоставит OpenAI доступ к серверам Amazon EC2 UltraServers. Сейчас стартап может пользоваться сотнями тысяч процессоров, но уже в 2026 это могут быть десятки миллионов видеокарт.
Короче, OpenAI собрали уже целую перчатку Таноса: Nvidia, AWS, Broadcom, AMD, Oracle, ну и Microsoft. Осталось щелкнуть пальцами😊
На данный момент сумма сделки составляет 38 миллиардов, с возможностью масштабирования.
AWS предоставит OpenAI доступ к серверам Amazon EC2 UltraServers. Сейчас стартап может пользоваться сотнями тысяч процессоров, но уже в 2026 это могут быть десятки миллионов видеокарт.
Короче, OpenAI собрали уже целую перчатку Таноса: Nvidia, AWS, Broadcom, AMD, Oracle, ну и Microsoft. Осталось щелкнуть пальцами
Please open Telegram to view this post
VIEW IN TELEGRAM
😁163🔥39👍20🤯7❤3👏2🦄2
Data Secrets
Датацентры могут перенестись в космос Nvidia заключили очень занятную сделку со стартапом под названием Starcloud. Они планируют начать создавать датацентры на орбите Земли. Утверждается, что у таких кластеров есть целый ряд преимуществ: 1. Можно экономить…
This media is not supported in your browser
VIEW IN TELEGRAM
На этой неделе первая мощная видеокарта Nvidia отправилась в космос 🚀
Помните, мы рассказывали вам о стартапе Starcloud? Они пытаются вынести датацентры на орбиту и утверждает, что это во много раз удешевит вычисления.
Так вот: пару дней назад они, в рамках тестов, уже отправили в космос первую в истории Nvidia H100. Для контекста: самый мощный космический компьютер до этого, Spaceborne Computer-2 от HPE на МКС, работал со скоростью около 2 терафлопс и использовал NVIDIA T4. H100 же выдает около 2000 терафлопс.
Спутник с видеокартой по размеру не превосходит холодильник. На нем планируют зафайнтюнить Gemma от Google.
Если все заработает, к 2026 на орбите может появится первый полноценный датацентр. А к 2030 в планах у компании вынести в космос примерно 100 тонн ускорителей.
Помните, мы рассказывали вам о стартапе Starcloud? Они пытаются вынести датацентры на орбиту и утверждает, что это во много раз удешевит вычисления.
Так вот: пару дней назад они, в рамках тестов, уже отправили в космос первую в истории Nvidia H100. Для контекста: самый мощный космический компьютер до этого, Spaceborne Computer-2 от HPE на МКС, работал со скоростью около 2 терафлопс и использовал NVIDIA T4. H100 же выдает около 2000 терафлопс.
Спутник с видеокартой по размеру не превосходит холодильник. На нем планируют зафайнтюнить Gemma от Google.
Если все заработает, к 2026 на орбите может появится первый полноценный датацентр. А к 2030 в планах у компании вынести в космос примерно 100 тонн ускорителей.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89❤35🤯34🔥17😁14🦄4 3👨💻2
Cache-to-Cache: занятная статья о том, как модели могут общаться на "собственном языке"
Работа очень напоминает папиру от Microsoft, вышедшую примерно год назад (наш разбор). И все-таки есть ключевое отличие: если у майкрософтов получилось научить общаться без токенов только разные экземпляры одной и той же модели, то здесь предложен способ, который работает для любой пары моделек, даже из разных семейств, от разных компаний и разных по архитектуре.
Немножко контекста. Когда два агента общаются мультимодельной системе, они обычно делают это текстом. Это довольно неэффективно, потому что вообще-то у каждой модели есть Key-Value Cache – внутренние состояния внимания, хранящие, по сути, всю информацию о мыслях модели. И вот если бы агенты научились общаться не токенами, а именно KV-кэшем, это было бы в разы быстрее, а информация была бы полнее.
Так появляется Cache-to-Cache (C2C) – парадигма прямого обмена смыслом, а не словами. Источник (Sharer) передаёт свой кэш, а получатель (Receiver) через нейросеть-проектор встраивает этот кэш в своё пространство.
Напрямую, без проектора, это сделать бы не получилось, потому что у разных моделей разное скрытое пространство. Поэтому авторы и обучили Projection module, который как бы соединяет кеши Sharer и Receiver в единый эмбеддинг, понятный обеим моделькам. Кроме Projection module в протоколе еще появляется weighting module, который решает, какую информацию вообще стоит передавать от Sharer.
Что это дает?
1. Скорость, очевидно. Относительно Text-to-Text все происходит в 2-3 раза быстрее.
2. Прирост к точности. Если объединить две модели таким образом и поставить их решать одну задачу, метрика подлетает в среднем на 5% относительно случая, когда модели также объединяются, но общаются текстом.
То есть: обмениваясь кэшем, модели действительно лучше понимают друг друга, чем когда обмениваются токенами. Это крутой результат.
Большой практический минус в том, что подход не универсальный. Для каждой пары моделек придется обучать свой "мост". Там всего несколько MLP слоев, но все же. Ну и если у моделей совсем разные токенизаторы – тоже запара, придется делать Token alignment.
GitHub
Статья
Работа очень напоминает папиру от Microsoft, вышедшую примерно год назад (наш разбор). И все-таки есть ключевое отличие: если у майкрософтов получилось научить общаться без токенов только разные экземпляры одной и той же модели, то здесь предложен способ, который работает для любой пары моделек, даже из разных семейств, от разных компаний и разных по архитектуре.
Немножко контекста. Когда два агента общаются мультимодельной системе, они обычно делают это текстом. Это довольно неэффективно, потому что вообще-то у каждой модели есть Key-Value Cache – внутренние состояния внимания, хранящие, по сути, всю информацию о мыслях модели. И вот если бы агенты научились общаться не токенами, а именно KV-кэшем, это было бы в разы быстрее, а информация была бы полнее.
Так появляется Cache-to-Cache (C2C) – парадигма прямого обмена смыслом, а не словами. Источник (Sharer) передаёт свой кэш, а получатель (Receiver) через нейросеть-проектор встраивает этот кэш в своё пространство.
Напрямую, без проектора, это сделать бы не получилось, потому что у разных моделей разное скрытое пространство. Поэтому авторы и обучили Projection module, который как бы соединяет кеши Sharer и Receiver в единый эмбеддинг, понятный обеим моделькам. Кроме Projection module в протоколе еще появляется weighting module, который решает, какую информацию вообще стоит передавать от Sharer.
Что это дает?
1. Скорость, очевидно. Относительно Text-to-Text все происходит в 2-3 раза быстрее.
2. Прирост к точности. Если объединить две модели таким образом и поставить их решать одну задачу, метрика подлетает в среднем на 5% относительно случая, когда модели также объединяются, но общаются текстом.
То есть: обмениваясь кэшем, модели действительно лучше понимают друг друга, чем когда обмениваются токенами. Это крутой результат.
Большой практический минус в том, что подход не универсальный. Для каждой пары моделек придется обучать свой "мост". Там всего несколько MLP слоев, но все же. Ну и если у моделей совсем разные токенизаторы – тоже запара, придется делать Token alignment.
GitHub
Статья
🔥127👍47❤27😁2😍2💯1 1
Data Secrets
На этой неделе первая мощная видеокарта Nvidia отправилась в космос 🚀 Помните, мы рассказывали вам о стартапе Starcloud? Они пытаются вынести датацентры на орбиту и утверждает, что это во много раз удешевит вычисления. Так вот: пару дней назад они, в рамках…
Google анонсировали, что в 2027 запустят космические датацентры с TPU
Только вчера рассказывали вам про первую H100 в космосе, и вот сегодня снова поднимаем эту тему.
Google запускают проект Suncatcher по строительству космических датацентров, работающих полностью на энергии Солнца.
Преимущества называют все те же:
1. На высоте 650км спутник в любую погоду, время дня и года сможет поглощать необходимое количество солнечной энергии;
2. Благодаря вакуумному охлаждению расходы на содержание можно сократить на 40%.
Сейчас компания говорит, что TPU уже прошли испытания на стойкость к радиации, и показали результаты, в 15 раз превосходящие необходимый для миссии минимум. То есть пока что аппаратная гипотеза подтверждается, но есть еще много открытых вопросов.
В начале 2027 Google планируют запустить два спутника с четырьмя TPU на каждом, чтобы еще раз проверить работоспособность системы. Кстати, если верить стартапу Starcloud, они в это время уже построят на орбите полноценный датацентр.
Только вчера рассказывали вам про первую H100 в космосе, и вот сегодня снова поднимаем эту тему.
Google запускают проект Suncatcher по строительству космических датацентров, работающих полностью на энергии Солнца.
Преимущества называют все те же:
1. На высоте 650км спутник в любую погоду, время дня и года сможет поглощать необходимое количество солнечной энергии;
2. Благодаря вакуумному охлаждению расходы на содержание можно сократить на 40%.
Сейчас компания говорит, что TPU уже прошли испытания на стойкость к радиации, и показали результаты, в 15 раз превосходящие необходимый для миссии минимум. То есть пока что аппаратная гипотеза подтверждается, но есть еще много открытых вопросов.
В начале 2027 Google планируют запустить два спутника с четырьмя TPU на каждом, чтобы еще раз проверить работоспособность системы. Кстати, если верить стартапу Starcloud, они в это время уже построят на орбите полноценный датацентр.
🦄77👍40❤🔥19❤14🔥11😁9🤯7
На arXiv сильно ужесточили правила публикации статей по Computer Science
В последнее время поток низкокачественных работ по ИИ и в целом по CS на архиве просто ошеломляющий. Большинство из них – тупое Ctrl+C Ctrl+V из ChatGPT. Модераторы не справляются с такими объемами, поэтому arXiv, видимо, решили действовать.
Судя по всему, в основном проблема касается тех статей, для которых не нужно проводить какие-то эксперименты, показывать практические результаты или демонстрировать научную новизну. Это категории: (а)обзорных статей, в которых проводится анализ и обобщение существующей литературы; (б) позиционных статей, в которых авторы формулируют мнение по какому-то спорному вопросу.
Оно и понятно. Вообще, хорошая статья такого вида требует огромной экспертизы и кучи времени. Но, с другой стороны, именно такие работы легче всего скопипастить с LLMки за пол часа🧠
Вот, собственно, для этих двух категорий и вводят новые правила. Кратко: при подаче статьи теперь требуется предоставить подтверждение успешного прохождения рецензирования в журнале или конференции. Еще раз: это не коснется работ, которые содержат новые результаты, эксперименты, теоретические разработки и выводы. Их все так же можно загружать без внешнего рецензирования.
С одной стороны – правильно, конечно. Иначе так недолго и в помойку превратиться. С другой, архив предназначен именно для быстрой научной коммуникации, а задержка публикации действительно хороших обзоров может сделать их банально устаревшими к моменту появления на сайте. Возможно, стоило рассмотреть что-то вроде возможности временной публикации с последующим подтверждением рецензирования.
В последнее время поток низкокачественных работ по ИИ и в целом по CS на архиве просто ошеломляющий. Большинство из них – тупое Ctrl+C Ctrl+V из ChatGPT. Модераторы не справляются с такими объемами, поэтому arXiv, видимо, решили действовать.
Судя по всему, в основном проблема касается тех статей, для которых не нужно проводить какие-то эксперименты, показывать практические результаты или демонстрировать научную новизну. Это категории: (а)обзорных статей, в которых проводится анализ и обобщение существующей литературы; (б) позиционных статей, в которых авторы формулируют мнение по какому-то спорному вопросу.
Оно и понятно. Вообще, хорошая статья такого вида требует огромной экспертизы и кучи времени. Но, с другой стороны, именно такие работы легче всего скопипастить с LLMки за пол часа
Вот, собственно, для этих двух категорий и вводят новые правила. Кратко: при подаче статьи теперь требуется предоставить подтверждение успешного прохождения рецензирования в журнале или конференции. Еще раз: это не коснется работ, которые содержат новые результаты, эксперименты, теоретические разработки и выводы. Их все так же можно загружать без внешнего рецензирования.
С одной стороны – правильно, конечно. Иначе так недолго и в помойку превратиться. С другой, архив предназначен именно для быстрой научной коммуникации, а задержка публикации действительно хороших обзоров может сделать их банально устаревшими к моменту появления на сайте. Возможно, стоило рассмотреть что-то вроде возможности временной публикации с последующим подтверждением рецензирования.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤113👍49🔥12🤔7😁2🕊1🍓1
This media is not supported in your browser
VIEW IN TELEGRAM
В llama.cpp завезли WebUI в стиле ChatGPT
На всякий случай напомним, что llama.cpp – это опенсорс движок для локального запуска LLM. Он реализован на C/C++ и оптимизирован для работы на обычных потребительских CPU. Запускается тоже довольно легко, но использовать до этого приходилось в основном в терминале, а это не все любят.
Теперь же свои локальные модельки можно крутить вот на таком прекрасном (тоже локальном) интерфейсе. Просто запускаете сервер в своем браузере и готово: вы получаете собственный ChatGPT с поддержкой более 150к открытых моделей.
Можно загружать картинки, файлы и документы. Также есть поддержка параллельных чатов и еще несколько маленьких, но очень приятных фич, типа возможности шеринга сервера, настройки structured outputs или экспорта/импорта чатов.
На телефоне тоже запускается буквально за минуту.
Детальная инструкция по использованию здесь (все абсолютно бесплатно)
На всякий случай напомним, что llama.cpp – это опенсорс движок для локального запуска LLM. Он реализован на C/C++ и оптимизирован для работы на обычных потребительских CPU. Запускается тоже довольно легко, но использовать до этого приходилось в основном в терминале, а это не все любят.
Теперь же свои локальные модельки можно крутить вот на таком прекрасном (тоже локальном) интерфейсе. Просто запускаете сервер в своем браузере и готово: вы получаете собственный ChatGPT с поддержкой более 150к открытых моделей.
Можно загружать картинки, файлы и документы. Также есть поддержка параллельных чатов и еще несколько маленьких, но очень приятных фич, типа возможности шеринга сервера, настройки structured outputs или экспорта/импорта чатов.
На телефоне тоже запускается буквально за минуту.
Детальная инструкция по использованию здесь (все абсолютно бесплатно)
50👍146🔥57❤26😁5🤩3⚡2🤔2🤯2🤨1💘1
Один из крупнейших стримеров в мире PewDiePie внезапно построил себе суперкомпьютер за 20 тысяч долларов для запуска локальных LLM
Во-первых, зацените перевоплощение: парень больше 10 лет снимал летсплеи, прохождения и всякую развлекаловку, был самым подписываемым и в какой-то момент самым крупным и популярным блогером на платформе, а теперь вдруг...
ополчился на ИИ-корпорации и активно призывает всех перестать использовать ИИ и юзать вместо этого локальные модели.
Он придерживается позиции, что ваши данные должны быть под вашим контролем и особенно горит на OpenAI за то, что стартап продолжает некоторое время хранить все ваши чаты, даже удаленные или временные.
Позиция по поводу ИИ у него настолько конкретная, что он потратил 20к долларов на домашнюю супермощную железку для запуска локальных LLM (которой он собственно и хвастается в видео). Все, чтобы не приходилось делиться с кем-то данными.
В компьютере оказалось 10 видюх: 8 модифицированных RTX 4090 с 48 GB памяти (те самые китайские) и 2 RTX 4000 Ada. Сетап легко тянет что-то вроде Llama 70B, gpt-oss-120B и Qwen 245B, а на максималках хостить до 64 мелких моделей одновременно.
Блогер даже сделал собственный интерфейс и организовал совет из нескольких моделек, которые обсуждают его вопросы вместе. Вот такие дела. Код можете найти тут.
Приятного просмотра
Во-первых, зацените перевоплощение: парень больше 10 лет снимал летсплеи, прохождения и всякую развлекаловку, был самым подписываемым и в какой-то момент самым крупным и популярным блогером на платформе, а теперь вдруг...
ополчился на ИИ-корпорации и активно призывает всех перестать использовать ИИ и юзать вместо этого локальные модели.
Он придерживается позиции, что ваши данные должны быть под вашим контролем и особенно горит на OpenAI за то, что стартап продолжает некоторое время хранить все ваши чаты, даже удаленные или временные.
Позиция по поводу ИИ у него настолько конкретная, что он потратил 20к долларов на домашнюю супермощную железку для запуска локальных LLM (которой он собственно и хвастается в видео). Все, чтобы не приходилось делиться с кем-то данными.
В компьютере оказалось 10 видюх: 8 модифицированных RTX 4090 с 48 GB памяти (те самые китайские) и 2 RTX 4000 Ada. Сетап легко тянет что-то вроде Llama 70B, gpt-oss-120B и Qwen 245B, а на максималках хостить до 64 мелких моделей одновременно.
Блогер даже сделал собственный интерфейс и организовал совет из нескольких моделек, которые обсуждают его вопросы вместе. Вот такие дела. Код можете найти тут.
Приятного просмотра
YouTube
STOP. Using AI Right now
🌎 Get an exclusive 15% discount on Saily data plans! Use code pewdiepie at checkout. Download Saily app or go to https://saily.com/pewdiepie ⛵
🌏 Get exclusive NordVPN deal here ➵ https://NordVPN.com/pewdiepie It’s risk free with Nord’s 30 day money-back guarantee!✌…
🌏 Get exclusive NordVPN deal here ➵ https://NordVPN.com/pewdiepie It’s risk free with Nord’s 30 day money-back guarantee!✌…
1🔥212❤58👍27😁18🗿7🐳6🤔4🦄4
This media is not supported in your browser
VIEW IN TELEGRAM
Маленькую, но очень приятную фичу выкатили OpenAI: теперь в ChatGPT можно исправлять запросы, не теряя прогресс
У многих из вас точно возникала ситуация, когда запустил, например, Deep Research, он уже что-то там насерчил, а ты вспоминаешь какую-то важную деталь, которую не добавил в промпт.
Довольно обидно в такие моменты сбрасывать процесс или потом запускать его заново.
Так вот теперь промпт можно менять уже после того, как модель начала над ним работать. Относится это не только к Deep Research, но и вообще к любым диалогам.
В случае простых промптов смысла в фиче немного, но вот в кейсах с агентами или долгим ризонингом она раскрывается полностью.
Для того чтобы исправить запрос, надо просто нажать «Update» в боковой панели.
Симпатично и свежо
У многих из вас точно возникала ситуация, когда запустил, например, Deep Research, он уже что-то там насерчил, а ты вспоминаешь какую-то важную деталь, которую не добавил в промпт.
Довольно обидно в такие моменты сбрасывать процесс или потом запускать его заново.
Так вот теперь промпт можно менять уже после того, как модель начала над ним работать. Относится это не только к Deep Research, но и вообще к любым диалогам.
В случае простых промптов смысла в фиче немного, но вот в кейсах с агентами или долгим ризонингом она раскрывается полностью.
Для того чтобы исправить запрос, надо просто нажать «Update» в боковой панели.
Симпатично и свежо
👍170🔥56❤31😁4🍾3🤯2
Майкл Бьюрри поставил 1.1 млрд долларов на крах ИИ-пузыря
Майкл Бьюрри – это тот самый инвестор, про которого сняли фильм «Игра на понижение». В 2008 году он был одним из первых, кто увидел надвигающийся кризис недвижимости США и купил CDS на ипотечные облигации. Тогда он и его фонд заработали на этом около миллиарда долларов.
Теперь же он приобрел пут-опционы на сумму около $1.1 млрд против акций Nvidia и Palantir (это ПО для анализа данных).
Пут-опцион – это такая штука, которая позволяет заработать на падении цены акций: если цена идет вниз, такой инвестор получает прибыль, поскольку может продать акции по более высокой цене, чем рыночная.
Майкл утверждает, что сектор ИИ избыточно перегрет, и это очень напоминает ситуацию перед пузырём доткомов.
Заявочка?☠️
Майкл Бьюрри – это тот самый инвестор, про которого сняли фильм «Игра на понижение». В 2008 году он был одним из первых, кто увидел надвигающийся кризис недвижимости США и купил CDS на ипотечные облигации. Тогда он и его фонд заработали на этом около миллиарда долларов.
Теперь же он приобрел пут-опционы на сумму около $1.1 млрд против акций Nvidia и Palantir (это ПО для анализа данных).
Пут-опцион – это такая штука, которая позволяет заработать на падении цены акций: если цена идет вниз, такой инвестор получает прибыль, поскольку может продать акции по более высокой цене, чем рыночная.
Майкл утверждает, что сектор ИИ избыточно перегрет, и это очень напоминает ситуацию перед пузырём доткомов.
Заявочка?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍239 97🤯40❤20😁14🤔12🔥10💯7🗿6🎄3🆒1
Стартап Edison Scientific выпустил ИИ-ученого Kosmos, который совершил уже 7 научных открытий. Разбираемся, как он устроен, и что на самом деле может.
Результаты заявляются очень громкие. Якобы за один запуск агент может проанализировать около 1500 научных статей и написать 42 тысячи строк кода, и за пол часа выполняет работу, которая у людей заняла бы пол года.
К этому вернемся позже, а пока – архитектура.
Система мультиагентная. Один из двух основных агентов фокусируется на анализе данных (код, визуализации, эксперименты в том числе), другой – на поиске и чтении литературы. Эти агенты взаимодействуют через «модель мира».
Эта модель мира является центральной частью Kosmos и представляет из себя обновляемую базу знаний, в которой фиксируются гипотезы, результаты, ссылки. Один цикл системы состоит из следующего: работает агент аналитик -> он выдвигает гипотезу -> другой агент ее проверяет на основе литературы -> модель мира обновляется. И так много-много циклов (запуск ограничен 12 часами, это в среднем 200 итераций).
Теперь вернемся к результатам.
1. Для оценки качества привлекались независимые эксперты. Они оценили, что 79.4% утверждений в отчётах – верные. Вроде неплохой результат, но что там делается в этих 20.6% и как с ними быть – большой вопрос.
2. Kosmos правда совершил 7 открытий, но есть нюансы. Во-первых, среди них три репликации (то есть система пришла к тем же выводам, что и люди раньше, по данным, которые были ей доступны). Четыре же действительно еще формально не описаны в литературе. Например, агент предложил ранее не испробованную оптимизацию термообработки в материаловедении. Все открытия также проверялись экспертами, но в то же время ни одно не верифицировали официально.
3. "За пол часа выполняет работу, на которую у людей ушло бы 6 месяцев" – это оценка самих авторов на коленке. Они посчитали по бенчмарку METR, сколько у людей занимает чтение статей, анализ и тд, все это сложили и – вуаля. Так что конкретно к этому утверждению стоит отнестись с некоторым скепсисом.
Несмотря на все эти оговорки, результаты действительно неплохие и довольно прозрачные (кроме последнего пункта). Одно только то, что агент может работать автономно 12 часов подряд и качество при этом растет с ростом количества циклов делает релиз крутым.
Попробовать Kosmos можете тут. Правда, один запуск стоит 200 долларов💸
Блогпост | Статья
Результаты заявляются очень громкие. Якобы за один запуск агент может проанализировать около 1500 научных статей и написать 42 тысячи строк кода, и за пол часа выполняет работу, которая у людей заняла бы пол года.
К этому вернемся позже, а пока – архитектура.
Система мультиагентная. Один из двух основных агентов фокусируется на анализе данных (код, визуализации, эксперименты в том числе), другой – на поиске и чтении литературы. Эти агенты взаимодействуют через «модель мира».
Эта модель мира является центральной частью Kosmos и представляет из себя обновляемую базу знаний, в которой фиксируются гипотезы, результаты, ссылки. Один цикл системы состоит из следующего: работает агент аналитик -> он выдвигает гипотезу -> другой агент ее проверяет на основе литературы -> модель мира обновляется. И так много-много циклов (запуск ограничен 12 часами, это в среднем 200 итераций).
Теперь вернемся к результатам.
1. Для оценки качества привлекались независимые эксперты. Они оценили, что 79.4% утверждений в отчётах – верные. Вроде неплохой результат, но что там делается в этих 20.6% и как с ними быть – большой вопрос.
2. Kosmos правда совершил 7 открытий, но есть нюансы. Во-первых, среди них три репликации (то есть система пришла к тем же выводам, что и люди раньше, по данным, которые были ей доступны). Четыре же действительно еще формально не описаны в литературе. Например, агент предложил ранее не испробованную оптимизацию термообработки в материаловедении. Все открытия также проверялись экспертами, но в то же время ни одно не верифицировали официально.
3. "За пол часа выполняет работу, на которую у людей ушло бы 6 месяцев" – это оценка самих авторов на коленке. Они посчитали по бенчмарку METR, сколько у людей занимает чтение статей, анализ и тд, все это сложили и – вуаля. Так что конкретно к этому утверждению стоит отнестись с некоторым скепсисом.
Несмотря на все эти оговорки, результаты действительно неплохие и довольно прозрачные (кроме последнего пункта). Одно только то, что агент может работать автономно 12 часов подряд и качество при этом растет с ростом количества циклов делает релиз крутым.
Попробовать Kosmos можете тут. Правда, один запуск стоит 200 долларов
Блогпост | Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106🤯41❤21⚡12😁10👍8🤔3🗿3😎2
Продолжаем разбираться, как работают разные технические штуки в знакомых чат-ботах
В этот раз поговорим про tool calling на примере нейросети Алисы. Это не просто языковая модель, у нее есть еще и агентские способности.
Тут один из самых распространенных юзкейсов – пересказ видео, статей и документов. Вы просто вставляете ссылку на ресурс в чате с Алисой и просите: "перескажи", – а через минуту получаете емкий конспект.
А еще она может:
– Написать и запустить код, если для ответа это нужно
– Забронировать столик в ресторане или записать вас на какую-нибудь услугу
– Найти для вас нужный товар или информацию в Поиске
... и все это построено на tool calling. Сейчас разберемся, что это, и как научить этому модель.
Тул (функция) – это формально описанная операция, которую нейросеть может вызвать. Например: сделать запрос в Поиск, вызвать интерпретатор, получить информацию о доступных окошках на стрижку и тд. У каждой функции есть четкое API: входные аргументы и структура ответа.
Модель в определенных ситуациях должна научиться отвечать не просто текстом, а возвращать вызов функции. Рантайм парсит этот вызов, идет в соответствующий бэкенд, получает результат (например, результат содержание веб-страницы) – и этот результат снова подается модели, как следующее сообщение контекста.
Чтобы это заработало стабильно, модель специально дообучают на примерах таких диалогов («запрос → вызов функции → ответ функции → следующий вызов → финальный ответ»). Это учит ее не галлюцинировать параметры, аккуратно перекладывать реальные айдишники и поля из ответа одной функции во вход другой.
При этом если в бэкенде появляется новая функция, нам не нужно бежать и переобучать модель, потому что список доступных тулов она получает прямо в промпт. Над описанием каждой функции специально работают бекендеры: описывают ее работу, параметры, особенности. Короче говоря, под капотом там целая документация для LLM-ки.
То есть модель выступает еще и планировщиком. Благодаря этому же навыку скоро Алиса AI научится помнить дела пользователя, напоминать о важных событиях и выполнять какие-то конкретные поручения.
В этот раз поговорим про tool calling на примере нейросети Алисы. Это не просто языковая модель, у нее есть еще и агентские способности.
Тут один из самых распространенных юзкейсов – пересказ видео, статей и документов. Вы просто вставляете ссылку на ресурс в чате с Алисой и просите: "перескажи", – а через минуту получаете емкий конспект.
А еще она может:
– Написать и запустить код, если для ответа это нужно
– Забронировать столик в ресторане или записать вас на какую-нибудь услугу
– Найти для вас нужный товар или информацию в Поиске
... и все это построено на tool calling. Сейчас разберемся, что это, и как научить этому модель.
Тул (функция) – это формально описанная операция, которую нейросеть может вызвать. Например: сделать запрос в Поиск, вызвать интерпретатор, получить информацию о доступных окошках на стрижку и тд. У каждой функции есть четкое API: входные аргументы и структура ответа.
Модель в определенных ситуациях должна научиться отвечать не просто текстом, а возвращать вызов функции. Рантайм парсит этот вызов, идет в соответствующий бэкенд, получает результат (например, результат содержание веб-страницы) – и этот результат снова подается модели, как следующее сообщение контекста.
Чтобы это заработало стабильно, модель специально дообучают на примерах таких диалогов («запрос → вызов функции → ответ функции → следующий вызов → финальный ответ»). Это учит ее не галлюцинировать параметры, аккуратно перекладывать реальные айдишники и поля из ответа одной функции во вход другой.
При этом если в бэкенде появляется новая функция, нам не нужно бежать и переобучать модель, потому что список доступных тулов она получает прямо в промпт. Над описанием каждой функции специально работают бекендеры: описывают ее работу, параметры, особенности. Короче говоря, под капотом там целая документация для LLM-ки.
То есть модель выступает еще и планировщиком. Благодаря этому же навыку скоро Алиса AI научится помнить дела пользователя, напоминать о важных событиях и выполнять какие-то конкретные поручения.
🗿93❤35✍12👍9😁8🔥5👌4🤨3 3⚡1🤯1