140 subscribers
97 photos
21 videos
62 files
540 links
ALGORITHMS MACHINE LEARNING
Download Telegram
AML pinned «All elementary functions from a single operator https://arxiv.org/html/2603.21852v2»
Forwarded from COLUMNA
Карел Чапек в 1920 году работал над пьесой "R.U.R."
Она про то, как в большой державе создают искусственных людей: они компонуются из выращенных тканей и органов, они умеют думать и всегда рады служить человечеству

Возникает вопрос: этично ли их эксплуатировать существа, которые так похожи на людей
И на самом деле, тема была поднята впервые: сначала предполагал использовать латинское "labori" (от лат. labor — труд, работа), но его брат Йозеф предложил назвать их "роботами" от чешского "robota" — барщина, каторга, тяжёлая работа

Так в название уже "зашили" неравенство
И при этом весь мир знает славянскую "работу" в чешской её версии
Вырожденное_сложение_листик_Бельский.pdf
1.1 MB
В последнее время много спрашивают в чате, да и в личке несколько раз спрашивали, а где же прочитать про кубики, чтобы хоть как-то подразобраться

Во-первых, есть статья Алексея Заславского и Павла Кожевникова в матпросе (без картинок)

Во-вторых, есть проект ЛКТГ
Но там скорее фокус на изогональном сопряжении, хотя сознание он, конечно, расширяет

В-третьих, есть статья Кирилла Бельского, в матпросе
Она пока не доступна бесплатно, но есть листик, который Кирилл подготовил по ее мотивам

А, в-четвертых, есть материал подготовленный Александрой Мустафиной в качестве проекта в лицее ФТШ

Вряд ли вы его видели до этого, но вот, можете посмотреть!
Материал по безопасности веб-приложений

Сам материал разделен на 3 части: для абсолютных новичков, для опытных специалистов и для экспертов

Для абсолютных новичков рекомендуется начать изучение с серверных тем
Эти уязвимости, как правило, легче освоить, поскольку вам нужно понимать только то, что происходит на сервере

Данный материал и лабораторные работы помогут развить основные знания и навыки, которые будут полезны снова и снова

SQL-инъекции
Уязвимости аутентификации
Обход пути (path traversal)
Инъекция команд ОС
Уязвимости бизнес-логики
Уязвимости, связанные с раскрытием информации
Уязвимости контроля доступа и эскалация привилегий
Уязвимости загрузки файлов
Состояния гонки (race conditions)
Подделка запросов на стороне сервера (SSRF)
Внедрение внешних сущностей XML (XXE)
Инъекция NoSQL
Тестирование API
Обман веб-кэша (web cache deception)

Уязвимости на стороне клиента вносят дополнительный уровень сложности, что делает их немного более сложными для понимания
Этот материал и лабораторные работы помогут вам развить навыки, которые вы уже освоили ранее, и научат вас выявлять и эксплуатировать также некоторые сложные клиентские векторы атак

Межсайтовый скриптинг (XSS)
Межсайтовая подделка запросов (CSRF)
Совместное использование ресурсов между источниками (CORS)
Кликджекинг (UI redressing)
Уязвимости на основе DOM (DOM-based vulnerabilities)
Тестирование уязвимостей безопасности WebSockets

Темы, которые перечислены ниже, как правило, требуют более глубокого понимания
и более широких знаний

Рекомендуется сначала разобраться с основами, прежде чем приступать к этим лабораторным работам

Некоторые из них основаны на новаторских методиках, разработанных исследовательской командой мирового уровня

Небезопасная десериализация;
Атаки на веб-LLM
Уязвимости GraphQL API
(SSTI) Инъекция шаблона на стороне сервера
Отравление веб-кэша (web cache poisoning)
Атаки через HTTP заголовок Host
Контрабанда HTTP-запросов (HTTP request smuggling)
Уязвимости аутентификации OAuth 2.0
Атаки на JWT
Что такое загрязнение прототипов (prototype pollution)
Ключевые навыки
Please open Telegram to view this post
VIEW IN TELEGRAM
Learning Is Forgetting: LLM Training as Lossy Compression

https://arxiv.org/abs/2604.07569v1
https://github.com/hcoxec/soft_h
https://arxiviq.substack.com/p/learning-is-forgetting-llm-training

Исследователи из Принстона и Cohere успешно применили теорию информационного бутылочного горлышка (Information Bottleneck, IB) к большим языковым моделям (LLM) размером до 32 миллиардов параметров

Внедрив дифференцируемую оценку "мягкой энтропии", они спроецировали траектории предобучения больших трансформеров на информационную плоскость
Оказалось, что обучение состоит из двух чётких фаз: сначала репрезентации расширяются для подгонки под целевые метки, а затем наступает длительная фаза сжатия, во время которой нерелевантные входные данные "забываются"

Работа предлагает целостный подход на уровне всей модели, выступающий альтернативой механистической интерпретируемости

Авторы показали, что то, насколько близко модель подходит к оптимальному пределу сжатия с потерями, строго предсказывает её перформанс на сложных бенчмарках (r = 0.52) и согласованность с человеческими предпочтениями (r = 0.76)

Появляется рабочий способ использовать unsupervised метрики из теории информации для ранней остановки и выбора моделей
Это существенно снижает зависимость от тяжёлых и вычислительно затратных доменных эвалюаций

https://www.youtube.com/watch?v=utvIaZ6wYuw
Forwarded from НИИ Антропогенеза (ARI) (Chagin Oleg A.)
Arizona State University запустил ASU Atomic — сервис, где за $5 в месяц можно собрать персональный учебный модуль с помощью AML

Все бы хорошо, но преподаватели вдруг узнали, что нежданно-негаданно стали поставщиками контента для машины
Разразился скандал

AML берет существующие материалы, режет на фрагменты, переупаковывает и собирает мини-курс по запросу пользователя
Профессор литературы Крис Хэнлон назвал результат «франкенштейновским»
Его старое видео из Canvas оказалось в чужой сборке — уже не с его логикой и контекстом, а как кусок в новой AI-конструкции

Система не просто показывает исходный материал
Она достраивает вокруг него объяснения и смысл
А значит, способна исказить то, что преподаватель выстраивал годами

Машина может выдать нарезку из лекций без контекста
Преподаватель аккуратно выстраивает рамку, а в исполнении нейросети это может звучать уже совсем иначе, беспокоится профессор религиоведения Майкл Остлинг
Потом такой фрагмент можно вытащить и предъявить как «доказательство» неправильных взглядов

Администрация ссылается на политику интеллектуальной собственности
Большинство учебных материалов, созданных сотрудниками в рамках работы, принадлежат Совету регентов
Формально университет может считать это своим ресурсом

Но проблема здесь вовсе не в авторских правах
И даже не в том, что машина ошибается — систему доработают, точность подтянут, и будет на уровне человека и выше

Будем честны: преподаватели теряют статус
Вчера он был «властителем дум»
Сегодня его лекция — сырье для AI-бота

Скажу больше — наступают времена, когда на учебные курсы будут заходить уже не студенты, а их AI-аватары
Они будут точно знать, что нужно владельцу, вынимать это и отсекать лишнее

Когда движение не остановить, играть в луддитов — ошибка
Гораздо разумнее изменить отношение к процессу

Преподавателю придется осваивать навыки промт-инженера — готовить лекции так, чтобы машина могла пересобирать его под каждого студента без потери смысла

Это первый набросок новой «модели власти» в университете, которая со временем станет массовой — потому что за этим будущее

Рынок AI-персонализации в образовании составлял $6.500.000.000 в 2024 году и достигнет $208.000.000.000 к 2034-му
При таких деньгах «громы и молнии» уважаемых лекторов никому не интересны