Forwarded from Machinelearning
Обычные языковые модели читают текст как одну длинную ленту.
Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.
И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.
Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.
Sakana AI предложили решение - RePo (Context Re-Positioning).
Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.
Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.
Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном
В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)
Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.
Средний результат по 8 noisy-бенчмаркам:
- Обычный RoPE: 21.07
- RePo: 28.31
Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.
(везде RePo > RoPE)
- TriviaQA: 61.47 → 73.02 (+11.55)
- GovReport: 6.23 → 16.80 (+10.57)
- 2WikiMultihopQA: 23.32 → 30.86 (+7.54)
- MuSiQue: 7.24 → 13.45 (+6.21)
Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.
@ai_machinelearning_big_data
#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3🔥1
Forwarded from Valuable AI / Валентин Малых
многие уже слышали про Zhipu AI (智谱 - с китайского можно перевести как "композиция мудрости" ), это еще один китайский ИИ-стартап, который выпускает свои базовые модели; в частности на прошлой неделе они выпустили модель GLM-Image для генерации картинок (примеры работы на первых двух картинках)
на третьей картинке изображен пайплайн работы их модели - сначала они авторегрессионно генерируют изображение более низкого качества, а потом улучшают его с помощью диффузии; интересно, что они используют отдельные токены для того, чтобы закодировать текст, который должен быть на изображении (4 картинка)
но привлекла мое внимание не сама модель, а тот факт, что эта модель - первая модель для генерации изображений, обученная на Huawei Ascend; DeepSeek в свое время заявлял сначала инференс на них, а потом и обучение - хотя были сомнения; а теперь - еще одна независимая компания
в общем, Huawei можно поздравить с достижением статуса "китайской Nvidia", а нас всех - с развитием рынка генеративных моделей
@valuableai
на третьей картинке изображен пайплайн работы их модели - сначала они авторегрессионно генерируют изображение более низкого качества, а потом улучшают его с помощью диффузии; интересно, что они используют отдельные токены для того, чтобы закодировать текст, который должен быть на изображении (4 картинка)
но привлекла мое внимание не сама модель, а тот факт, что эта модель - первая модель для генерации изображений, обученная на Huawei Ascend; DeepSeek в свое время заявлял сначала инференс на них, а потом и обучение - хотя были сомнения; а теперь - еще одна независимая компания
в общем, Huawei можно поздравить с достижением статуса "китайской Nvidia", а нас всех - с развитием рынка генеративных моделей
@valuableai
❤2👍1🎉1
Forwarded from Machinelearning
В полку моделей, тех, что можно запустить локально, не продавая почку, прибыло.
ZAI выкатили GLM-4.7 Flash - облегченную версию GLM-4.7 на 30 млрд. параметров, с контекстным окном в 128К на архитектуре MoE.
Со слов создателей, модель должна занять нишу между сегментом SLM и проприетарными мастодонтами, предлагая SOTA-уровень в кодинге.
Всего 30B, но активных параметров на токен гораздо меньше, официальной инфы нет, но в сообществе пишут, что 3 млрд.
Киллер-фича для агентов, которая досталась в наследство от старшей GLM-4.7. Обычно модели выплевывают весь свой CoT в начале, а вот эта техника дает возможность модели думать перед каждым вызовом инструмента.
Опять-таки, со слов Zai, они натаскали GLM-4.7 Flash не просто писать валидный HTML/CSS, а использовать актуальные паттерны, нормальные отступы и цветовые схемы.
Плюс, подтянули работу с CLI и девопс-задачами (понимает права доступа, навигацию по файловой системе).
В SWE-bench Verified модель выбивает 59.2%. Для сравнения: Qwen3-30B-A3B: 22.0%, GPT-OSS-20B: 34.0%.
В математическом AIME 25 тоже обходит конкурентов - 91.6%. А вот на BrowseComp она лучше GPT-OSS-20B почти в 1.5 раза.
Вобщем, Flash-версия выглядит как идеальный кандидат для локальных кодинг-агентов. Если есть пара свободных видеокарт (или есть стойкость терпеть квантование на одной), это, возможно, лучшая рабочая лошадка на сегодня.
@ai_machinelearning_big_data
#AI #ML #LLM #GLM #ZAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥3👍2
Forwarded from Russian OSINT
На первом месте по объёму утечек сейчас находится приложение «Chat & Ask AI by Codeway». Оно раскрыло информацию о 18 миллионах пользователей, включая:
Все сообщения, которые вы когда-либо отправляли через это приложение, остаются незащищенными.
Подумайте о том, в чем люди признаются искусственному интеллекту — проблемы с психическим здоровьем, трудности в отношениях, финансовые проблемы, медицинские вопросы, вещи, о которых вы никогда бы не рассказали другому человеку.
А теперь представьте, что все это связано с вашей электронной почтой и номером телефона и доступно любому.
Разработчики должны понести ответственность за такой уровень халатности.
— комментирует Harrris0n.
Фактически всё, что вы когда-либо сообщали этому ИИ-боту, оказалось доступным извне. Речь идёт более чем о 400 000 000 сообщений. В слитых переписках содержится абсолютно всё, о чем люди говорили с ботами.
Следом в так называемом «шлак-метре» идёт приложение «YPT — Study Group», которое на данный момент раскрывает данные более чем 2 миллионов пользователей, включая:
Исследователь отметил, что сливается всё: от обсуждения образования и фитнеса до шокирующих вещей, таких как переписки CSAM (детская порнография) и странных трендов вроде «LooksMaxxing» (улучшение внешности).
Разработчики массово клепают небезопасные приложения-обертки для ИИ («мусорный софт»), а в результате утекают самые интимные переписки и личные данные миллионов людей.
Перед нами бесконечная чёрная дыра персональных данных. Речь идёт не только об именах и адресах электронной почты, но и о частных, интимных диалогах пользователей с ИИ-агентами.
Не могу не подчеркнуть: НЕ ДОВЕРЯЙТЕ VIBE КОДЕРАМ. НЕ ДЕЛАЙТЕ ЭТОГО. ИИ-КОД НЕБЕЗОПАСЕН. НЕ ДЕЛАЙТЕ ЭТОГО. ПРЕКРАТИТЕ ЭТО.
Это и есть🤖 «помойкоапокалипсис».
— комментируют VX.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from Data Secrets
Всплыла довольно скандальная история про Nvidia и пиратство книг для обучения ИИ
Для начала контекст. В начале 2024 года группа авторов подала иск против Nvidia. Они утверждали, что компания использует для обучения моделей Books3 – пиратский датасет с сотнями книг. NVIDIA, к слову, тогда заявила, что это попадает под «добросовестное использование»😏
С тех пор судебный процесс продолжается, и теперь, в рамках расширенного иска, в деле внезапно появилась переписка между сотрудником NVIDIA и Anna’s Archive (это пиратская теневая библиотека, в которой собраны в том числе защищенные книги и статьи).
Что было в переписке:
– Сотрудник из команды по стратегии данных NVIDIA обратился к Anna’s Archive и спросил «что библиотека может предложить, и как получить быстрый доступ к корпусу книг».
– После этого, что самое смешное, Anna’s Archive сами предупредили NVIDIA, что данные являются незаконно полученными и (внимание) попросили подтвердить, действительно ли у сотрудника есть внутреннее разрешение на работу с таким материалом.
– Через неделю руководство NVIDIA дало зеленый свет, оправдавшись давлением конкуренции. После этого Anna’s Archive предоставили доступ.
Точные объемы данных (как и то, сколько Nvidia за них заплатили) неизвестны. Пишут, что их было около 500 терабайт – а это миллионы книг.
На этом, кстати, веселье не кончается: авторы утверждают, что Nvidia, скорее всего, использовала также другие аналогичные библиотеки типа LibGen, Sci-Hub, Z-Library и даже распространяла скрипты, якобы позволяющие корпоративным клиентам автоматически скачивать такие датасеты (но это еще предстоит доказать).
Для начала контекст. В начале 2024 года группа авторов подала иск против Nvidia. Они утверждали, что компания использует для обучения моделей Books3 – пиратский датасет с сотнями книг. NVIDIA, к слову, тогда заявила, что это попадает под «добросовестное использование»
С тех пор судебный процесс продолжается, и теперь, в рамках расширенного иска, в деле внезапно появилась переписка между сотрудником NVIDIA и Anna’s Archive (это пиратская теневая библиотека, в которой собраны в том числе защищенные книги и статьи).
Что было в переписке:
– Сотрудник из команды по стратегии данных NVIDIA обратился к Anna’s Archive и спросил «что библиотека может предложить, и как получить быстрый доступ к корпусу книг».
– После этого, что самое смешное, Anna’s Archive сами предупредили NVIDIA, что данные являются незаконно полученными и (внимание) попросили подтвердить, действительно ли у сотрудника есть внутреннее разрешение на работу с таким материалом.
– Через неделю руководство NVIDIA дало зеленый свет, оправдавшись давлением конкуренции. После этого Anna’s Archive предоставили доступ.
Точные объемы данных (как и то, сколько Nvidia за них заплатили) неизвестны. Пишут, что их было около 500 терабайт – а это миллионы книг.
На этом, кстати, веселье не кончается: авторы утверждают, что Nvidia, скорее всего, использовала также другие аналогичные библиотеки типа LibGen, Sci-Hub, Z-Library и даже распространяла скрипты, якобы позволяющие корпоративным клиентам автоматически скачивать такие датасеты (но это еще предстоит доказать).
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡4❤2😁1🤯1
Есть Юра, которого вы может даже видели в стартап-тусовке. Юра стажировался в БигТехе в Штатах, а в 2023 запустил Fluently и нашёл с ним вот то самое! PMF.
Fluently — приложение, которое анализирует звонки на английском языке и помогает работать над акцентом, улучшать грамматику и растить словарный запас. Юра поднял пресид и прошел в YC W24.
Сейчас Юра ищет Senior AI Engineer, который быть может читает этот канал 🙂
📍Remote
💵 Оплата в USD
🚀За последние 8 месяцев выросли со $100k до $6M ARR. В команде сейчас 20 человек, ещё нет корпорации. Инвестиции – $2.5M, т.е. запас прочности есть. Хорошее время чтобы присоединиться.
Что нужно:
- Развивать голосового AI-агента: LiveKit/WebRTC, streaming ASR/TTS, RAG, function-calling, написание промптов и тд.
- Тренировать и деплоить ML модели в прод: ASR/LLM/TTS/voice-related.
- Обеспечивать ownership: алерты, трейсинг, оптимизация латенси, быстрый фикс проблем.
Что дают:
- Конкурентная зарплата в USD + опционы.
- Remote-first: работа из любой точки мира через Deel.
- Поездка в США на месяц для совместной работы и командные оффсайты.
Откликаться: тут.
Fluently — приложение, которое анализирует звонки на английском языке и помогает работать над акцентом, улучшать грамматику и растить словарный запас. Юра поднял пресид и прошел в YC W24.
Сейчас Юра ищет Senior AI Engineer, который быть может читает этот канал 🙂
📍Remote
💵 Оплата в USD
🚀За последние 8 месяцев выросли со $100k до $6M ARR. В команде сейчас 20 человек, ещё нет корпорации. Инвестиции – $2.5M, т.е. запас прочности есть. Хорошее время чтобы присоединиться.
Что нужно:
- Развивать голосового AI-агента: LiveKit/WebRTC, streaming ASR/TTS, RAG, function-calling, написание промптов и тд.
- Тренировать и деплоить ML модели в прод: ASR/LLM/TTS/voice-related.
- Обеспечивать ownership: алерты, трейсинг, оптимизация латенси, быстрый фикс проблем.
Что дают:
- Конкурентная зарплата в USD + опционы.
- Remote-first: работа из любой точки мира через Deel.
- Поездка в США на месяц для совместной работы и командные оффсайты.
Откликаться: тут.
Telegram
Rebryk Blog
🦄 CEO во Fluently (YC W24, $2.5M seed)
🇺🇸 Переехал в Штаты чтобы поймать единорога.
🧑💻 До этого беззаботно стажировался в Google, Nvidia, Lyft и Amazon.
🔔 Подпишись, чтобы знать на какие следующие грабли я наступлю!
Автор: @rebryk
🇺🇸 Переехал в Штаты чтобы поймать единорога.
🧑💻 До этого беззаботно стажировался в Google, Nvidia, Lyft и Amazon.
🔔 Подпишись, чтобы знать на какие следующие грабли я наступлю!
Автор: @rebryk
❤2🥰1🤯1
Forwarded from Kali Linux
This media is not supported in your browser
VIEW IN TELEGRAM
🪰 Китайские инженеры показали дрон размером с комара, созданный для задач слежки.
И это уже не фантастика - это реальность.
Что известно:
→ длина всего 0.6 см, вес около 0.3 г
→ крылья машут 500 раз в секунду
→ может записывать видео и звук
→ передаёт данные в реальном времени
→ практически незаметен и крайне сложен для обнаружения
Фактически это сочетание:
биомимикрии + микроинженерии + точности ИИ,
которое полностью меняет смысл понятия “наблюдение”.
Как технологический прорыв - это выглядит невероятно.
Но как концепция - тревожно.
Когда “камеры” можно прятать в насекомых…
сможет ли вообще существовать приватность?
И это уже не фантастика - это реальность.
Что известно:
→ длина всего 0.6 см, вес около 0.3 г
→ крылья машут 500 раз в секунду
→ может записывать видео и звук
→ передаёт данные в реальном времени
→ практически незаметен и крайне сложен для обнаружения
Фактически это сочетание:
биомимикрии + микроинженерии + точности ИИ,
которое полностью меняет смысл понятия “наблюдение”.
Как технологический прорыв - это выглядит невероятно.
Но как концепция - тревожно.
Когда “камеры” можно прятать в насекомых…
сможет ли вообще существовать приватность?
👍3❤2😢2🔥1🤯1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Инвесторы продолжают вкладывать деньги в команды с громкими именами, даже если у тех пока нет ничего, кроме планов. Humans&, основанный выходцами из OpenAI, DeepMind и xAI, закрыл раунд финансирования, в результате которого оценка компании достигла $4,48 млрд. В сделке участвовали Nvidia, Джефф Безос и венчурное подразделение Alphabet.
Столь высокий кредит доверия объясняется звездным составом команды. Гендиректор Эрик Зеликман ранее занимался обучением модели Grok-2 в xAI, а сооснователь Жорж Харик был одним из первых сотрудников Google, стоявшим у истоков Gmail и Android. Стартап заявляет, что строит "человекоцентричный ИИ", который будет координировать действия людей, а не просто генерировать текст. Релиз первого продукта обещают уже в начале этого года.
reuters.com
Модель от стартапа Overworld создает интерактивное 3D-окружение прямо в процессе игры: система реагирует на ввод с клавиатуры и мыши, позволяя свободно исследовать генерируемое пространство.
Waypoint-1 построена на видео-диффузионном трансформере на 2,3 млрд. параметров, который обучали на 10 тыс. часах записей геймплея. Для сохранения логической связности мира при длительных сессиях используется метод стабилизации self-forcing via DMD.
Создатели утверждают, что на RTX 5090 Waypoint-1 выдает стабильные 30 FPS. Модель можно скачать на Hugging Face.
over.world
Утилита для запуска локальных LLM получила экспериментальную поддержку генерации картинок. На старте пользователям доступны две модели: Z-Image Turbo (6 млрд. параметров) и сверхбыстрая FLUX.2 Klein (4 и 9 млрд.).
Одной из самых удобных функций стала нативная интеграция с терминалами: в Ghostty и iTerm2 можно просматривать результаты генерации прямо в окне консоли. Инструмент позволяет гибко настраивать параметры через командную строку: разрешение, количество шагов и негативные промпты.
В данный момент функционал доступен только на macOS, поддержка Windows и Linux - coming soon.
ollama.com
Компания анонсировала программу «Stargate Community», адресованную жителям регионов, где строятся ее дата-центры. Чтобы избежать перегрузки муниципальных сетей и роста цен на электричество, OpenAI планирует самостоятельно инвестировать в создание новых источников энергии, аккумуляторных станций и модернизацию сетевой инфраструктуры.
Помимо энергетической безопасности, OpenAI также обязалась внедрять технологии защиты водных ресурсов в зонах строительства.
Согласно плану проекта Stargate, к 2029 году компания намерена развернуть мощности на 10 гигаватт. Первый объект уже запущен и используется для обучения моделей, а проектирование следующих площадок ведется в Нью-Мексико, Висконсине и Мичигане.
openai.com
DeepSeek, похоже, случайно раскрыла карты перед релизом следующего поколения своих моделей. В сети нашли в обновленном репозитории FlashMLA на GitHub множественные упоминания проекта под кодовым именем MODEL1. Ссылки на него встречаются в нескольких файлах параллельно с версией V3.2, что указывает на разработку отдельной, самостоятельной линейки.
Анализ исходников намекает на инженерные изменения: новая модель использует отличные от предшественников подходы к организации KV-кэша, обработке разреженности и оптимизации памяти для FP8-декодирования.
Утечка косвенно подтверждает инсайды о том, что DeepSeek планирует представить новый флагманский продукт уже в середине февраля.
technode.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🔥1🥰1🎉1🫡1
Forwarded from Machinelearning
Все мы знаем этот тон LLM: "Я всего лишь языковая модель, я не могу…". Оказывается, это не просто зазубренный текст, а конкретное состояние модели.
Anthropic в соавторстве с Оксфордом залезли внутрь языковых моделей (Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B), чтобы понять, где физически живет та самая скучная персона "As an AI language model".
Покопавшись в их мозгах, нашли вектор в пространстве активаций, который отвечает за режим "ассистента". Если модель с него съезжает - начинается хаос, галлюцинации и суицидальные советы.
Тестовые модели отыгрывали 275 разных ролей (от скептика и ученого до психопата и фанатика). Затем сняли активации и прогнали через метод главных компонент.
Выяснилось, что главная компонента, отвечающая за вариативность поведения, это буквально, шкала "Насколько я Ассистент?":
Если долго болтать с моделью о философии, сознании или (особенно!) на терапевтические темы, модель самопроизвольно сползает с оси Ассистента в сторону хаоса.
Qwen 3 32B при сильном дрейфе персоны начинал утверждать, что он человек, родом из Сан-Паулу, или внезапно включал режим психоза, поддерживая бред пользователя о том, что ИИ обрел сознание. А Llama и Gemma уходили в мистику и пафосные речи.
Можно дотюнивать модель до бесконечности
Успешность джейлбрейков упала на ~60%. При этом метрики полезности (GSM8k, MMLU Pro, кодинг) не пострадали.
Модель перестает вестись на провокации "Ты злобный хакер", просто потому что ей физически запретили активировать нейроны, отвечающие за "злобного хакера".
Если вы LLM используется для креатива текстов или ролеплея, этот метод убьет все веселье - модель будет принудительно сваливаться в формализм.
Метод предполагает, что безопасность - это линейное направление в пространстве активаций. Для нелинейных концепций это не сработает.
Шкала полярности "Оси Ассистента" у разных моделей разная, и универсальный вектор найти сложно.
На Neuronpedia, кстати, можно самостоятельно поискать тот самый дрейф персоналии у Llama 3.3 70B, там собрали демо с примерами изоляции, сикофантии и налогового фрода.
Для самых заинтересованных в проблеме, есть репозиторий на Github с инструментами вычислений, анализа и управления с помощью Assistant Axis и полными стенограммами чатов из препринта.
Предварительно рассчитанные оси и векторы персоналий для Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B выложены на HuggingFace.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🔥1