Второй сезон первой в России школьной олимпиады по промышленной разработке PROD открыт. Об этом объявили Т-Банк совместно с Центральным университетом и факультетом компьютерных наук НИУ ВШЭ
На олимпиаде ученики с 8 по 11 класс смогут пройти тест-драйв профессии программиста: им предстоит решать реальные кейсы ИТ-компаний, взаимодействовать с преподавателями топовых вузов, а также изучать изучать создание программных систем, автоматизацию бизнес-процессов. Участники PROD узнают о работе фронтенд-, бэкенд - и мобильных разработчиков и смогут пройти настоящий тест-драйв профессии программиста. А маскотом олимпиады PROD стал аксолотль – амфибия, символизирующая способность решать сложные задачи в молодом возрасте.
Победители смогут попасть на стажировку в Т-Банк по упрощенному отбору, а также получат льготные условия на обучение в Центральный университет и НИУ ВШЭ.
Регистрация на PROD продлится до 3 декабря.
На олимпиаде ученики с 8 по 11 класс смогут пройти тест-драйв профессии программиста: им предстоит решать реальные кейсы ИТ-компаний, взаимодействовать с преподавателями топовых вузов, а также изучать изучать создание программных систем, автоматизацию бизнес-процессов. Участники PROD узнают о работе фронтенд-, бэкенд - и мобильных разработчиков и смогут пройти настоящий тест-драйв профессии программиста. А маскотом олимпиады PROD стал аксолотль – амфибия, символизирующая способность решать сложные задачи в молодом возрасте.
Победители смогут попасть на стажировку в Т-Банк по упрощенному отбору, а также получат льготные условия на обучение в Центральный университет и НИУ ВШЭ.
Регистрация на PROD продлится до 3 декабря.
❤10😁4🤯4🤔3👾1
У Джеффа Дина подгорело настолько, что он написал об этом целую статью
Немного контекста: в 2020 году в Google сделали модель для дизайна чипов. Четыре года она помогала проектировать TPU, а также предоставлялась для использования партнерам. А в сентябре этого года Google выпустили статью в Nature, в котором рассказали о своем четырехлетнем опыте качественного ИИ-дизайна чипов, дали модели имя AlphaChip и выложили веса модели (подробнее в этом нашем посте).
Прошло пару месяцев и за это время на просторах интернета и научных изданий стали появляться работы о том, что Google все наврали и AlphaChip не работает так, как заявлено. Ну а Джефф Дин, знаменитый исследователь и фактический руководитель проекта, посмотрел-посмотрел на это все, а потом психанул и вместе с коллегами написал огромное опровержение опровержений. Что выясняется:
➡️ Вся история началась со статьи arxiv.org/abs/2302.11014. Авторы утверждали, что они полностью дублируют подход Google, но модель не работает. На самом деле оказалось, что авторы даже близко не повторили референсный пайплайн обучения. Дошло до смешного: они вообще не проводили предобучения, а просто пофайнтюнили архитектуру на мощностях в двадцать раз меньше. "Аналогично можно было оценивать AlphaGo, которая никогда раньше не видела игры в го", – пишет Джефф.
➡️ Дальше – больше. В этом месяце вышла статья-анализ в CACM под авторством Игоря Маркова. В ней он ссылается на статью из пункта один и на некий анонимный неопубликованный материал. Эта статья, как и первая, кстати, не была рецензирована (причины неясны) и полна необоснованных обвинений, который в Nature официально признали чушью. Это уже не говоря о том, что сам Игорь оказался высокопоставленным сотрудником компании Synopsys, которая занимается... правильно, разработкой такой же системы, как AlphaChip, только коммерческой.
➡️ Ну и вишенка: помните неопубликованный анонимный материал, на который ссылался горе-автор статьи в CACM? Угадайте с одного раза, кто оказался его теневым творцом и пытался выдать свои же аргументы за независимое мнение другого исследователя 😀
В общем, детективные романы и скандальньные шоу курят в сторонке. Статью Джеффа полностью можно прочитать здесь (не пожалеете).
Наука – это скучно, говорили они
Немного контекста: в 2020 году в Google сделали модель для дизайна чипов. Четыре года она помогала проектировать TPU, а также предоставлялась для использования партнерам. А в сентябре этого года Google выпустили статью в Nature, в котором рассказали о своем четырехлетнем опыте качественного ИИ-дизайна чипов, дали модели имя AlphaChip и выложили веса модели (подробнее в этом нашем посте).
Прошло пару месяцев и за это время на просторах интернета и научных изданий стали появляться работы о том, что Google все наврали и AlphaChip не работает так, как заявлено. Ну а Джефф Дин, знаменитый исследователь и фактический руководитель проекта, посмотрел-посмотрел на это все, а потом психанул и вместе с коллегами написал огромное опровержение опровержений. Что выясняется:
В общем, детективные романы и скандальньные шоу курят в сторонке. Статью Джеффа полностью можно прочитать здесь (не пожалеете).
Наука – это скучно, говорили они
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥26😁14❤13
Прямо сейчас в Корейском технологическом KAIST проходит крутой курс по генеративным нейросетям, и мы нашли страницу, на которой выкладывают все записи и презентации
Вот ссылка. В программе курса GAN, VAE, диффузионки, дистилляция... В общем, все от А до Я, и базовое, и продвинутое, с особенным упором на актуальные сегодня архитектуры и техники.
На странице также выложен список полезных материалов и полный список статей, которые упоминаются в ходе курса (кладезь!). А еще туда прикреляют ссылки на домашки и блокноты с очень детально объясненным в ридми и откоментированным кодом с семинаров.
Такое сохраняем
Вот ссылка. В программе курса GAN, VAE, диффузионки, дистилляция... В общем, все от А до Я, и базовое, и продвинутое, с особенным упором на актуальные сегодня архитектуры и техники.
На странице также выложен список полезных материалов и полный список статей, которые упоминаются в ходе курса (кладезь!). А еще туда прикреляют ссылки на домашки и блокноты с очень детально объясненным в ридми и откоментированным кодом с семинаров.
Такое сохраняем
❤60👍10🔥10🤯4
Какой-то неравнодушный разработчик сделал на HuggingFace обновляющийся рейтинг авторов постов. Теперь можно видеть самых интересных и популярных авторов (способ сортировки можно выбрать самому: реакции, комментарии, количество постов), проваливаться в их HF-профиль и читать их посты, разборы и туториалы. Красиво!
👍68💅15❤7👏3🏆2
Американо-китайская комиссия по мониторингу экономики и безопасности дала конкрессу США двусмысленные рекомендации по поводу AGI
12 членов независимого совета в конце каждой осени публикуют отчет, в котором обозначают свои рекомендации конгрессу. В этом году первым же пунктом отчета оказалась фраза:
Фигурирование в тексте про ИИ упоминания проекта по военной разработке ядерного оружия, конечно, немного пугает, но интересно также, что Манхэттенский проект не в первый раз за последний месяц всплывает в медиапространстве ИИ-новостей. Недавно также были опубликованы письма из переписки Альтмана и Маска, в которых выясняется, что еще с 2015 года создание «Манхэттенского проекта для ИИ» – настоящая мечта Альтмана.
Есть ли тут связь?
12 членов независимого совета в конце каждой осени публикуют отчет, в котором обозначают свои рекомендации конгрессу. В этом году первым же пунктом отчета оказалась фраза:
"Учредить и профинансировать подобную Манхэттенскому проекту программу, направленную на разработку и достижение AGI"
Фигурирование в тексте про ИИ упоминания проекта по военной разработке ядерного оружия, конечно, немного пугает, но интересно также, что Манхэттенский проект не в первый раз за последний месяц всплывает в медиапространстве ИИ-новостей. Недавно также были опубликованы письма из переписки Альтмана и Маска, в которых выясняется, что еще с 2015 года создание «Манхэттенского проекта для ИИ» – настоящая мечта Альтмана.
Есть ли тут связь?
🤯65❤10😁7👍4🤔3
Кажется, нас ждет новый AlphaZero: Google совместно с федерацией шахмат FIDE запускает соревнование по разработке агента-шахматиста
Соревнование пройдет на Kaggle. Его главная особенность в том, что агент должен играть в условиях строгих ограничений CPU и памяти. Для движков AlphaZero и Stockfish шахматы – давно не вызов, но эти системы слишком жадные до ресурсов. Цель соревнования – сместить фокус с вычислений методом грубой силы на элегантность и эффективность.
Приз – $50,000, кстати💸
Страница соревнования
Соревнование пройдет на Kaggle. Его главная особенность в том, что агент должен играть в условиях строгих ограничений CPU и памяти. Для движков AlphaZero и Stockfish шахматы – давно не вызов, но эти системы слишком жадные до ресурсов. Цель соревнования – сместить фокус с вычислений методом грубой силы на элегантность и эффективность.
Приз – $50,000, кстати
Страница соревнования
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥66👍11❤6🤯2
Anthropic написали интересную статью о том, как нам на самом деле следует оценивать модели
Сейчас бенчмаркинг происходит довольно наивно: у нас есть список вопросов, на каждый из которых модель отвечает и получает за ответ определенный балл, а общая оценка обычно представляет из себя просто среднее по всем таким баллам. Но действительно ли нам интересно только среднее?
Антропики утверждают, что с точки зрения статистики такой классический эвал слишком упрощен, и дают пять советов о том, как сделать свои оценки статистически значимыми и более глубокими. В основе их подхода привычное предположение матстата: все вопросы, которые у нас есть – это какая-то случайная подвыборка генеральной совокупности всевозможных вопросов, которые вообще можно задать. А значит, называть среднее на каком-то бенчмарке оценкой навыка модели – слишком грубо. Вот что на самом деле стоит делать:
1. Использовать ЦПТ. Основываясь на центральной предельной теореме, средние значения нескольких выборок, взятых из одного и того же распределения, будут распределены нормально. А значит, мы можем взять из нашего бенчмарка несколько подмножеств (можно даже пересекающихся), оценить каждое из них, а на получившихся средних подсчитать SEM (стандартную ошибку среднего) и доверительный интервал.
2. Если вопросы в бенчмарке не независимы (например задаются вопросы по одному и тому же тексту), то ЦПТ исполользовать уже нельзя. Здесь предлагается вспомнить про Cluster standard errors.
3. Если дисперсия вашей модели высокая, то это важно учитывать в эвале, потому что дисперсия – это по сути оценка надежности модели. Поэтому исследователи предлагают также изменить стратегию оценки каждого отдельного вопроса. Вместо наивной оценки они предлагают двусоставную, состоящую из среднего балла (задаем вопрос много-много раз и считаем среднее) плюс ошибки отклонения (разница между реализованным баллов вопроса и средним баллом для этого вопроса).
4. Вместо обычного "больше-меньше" для сравнения двух моделей использовать статистические тесты. Однако использовать t-test все-таки не рекомендуется, вместо этого в статье предлагается более сложная формула, которая также учитывает корреляцию Пирсона и минимизирует mean difference error.
5. Не забывать про мощность критериев в оценках и формулировать правильные гипотезы для сравнения моделей.
Рекомендации, в общем, действительно стоящие. Другой вопрос – сколько времени постребуется, чтобы ресерчеры действительно стали соблюдать что-то подобное
Сейчас бенчмаркинг происходит довольно наивно: у нас есть список вопросов, на каждый из которых модель отвечает и получает за ответ определенный балл, а общая оценка обычно представляет из себя просто среднее по всем таким баллам. Но действительно ли нам интересно только среднее?
Антропики утверждают, что с точки зрения статистики такой классический эвал слишком упрощен, и дают пять советов о том, как сделать свои оценки статистически значимыми и более глубокими. В основе их подхода привычное предположение матстата: все вопросы, которые у нас есть – это какая-то случайная подвыборка генеральной совокупности всевозможных вопросов, которые вообще можно задать. А значит, называть среднее на каком-то бенчмарке оценкой навыка модели – слишком грубо. Вот что на самом деле стоит делать:
1. Использовать ЦПТ. Основываясь на центральной предельной теореме, средние значения нескольких выборок, взятых из одного и того же распределения, будут распределены нормально. А значит, мы можем взять из нашего бенчмарка несколько подмножеств (можно даже пересекающихся), оценить каждое из них, а на получившихся средних подсчитать SEM (стандартную ошибку среднего) и доверительный интервал.
2. Если вопросы в бенчмарке не независимы (например задаются вопросы по одному и тому же тексту), то ЦПТ исполользовать уже нельзя. Здесь предлагается вспомнить про Cluster standard errors.
3. Если дисперсия вашей модели высокая, то это важно учитывать в эвале, потому что дисперсия – это по сути оценка надежности модели. Поэтому исследователи предлагают также изменить стратегию оценки каждого отдельного вопроса. Вместо наивной оценки они предлагают двусоставную, состоящую из среднего балла (задаем вопрос много-много раз и считаем среднее) плюс ошибки отклонения (разница между реализованным баллов вопроса и средним баллом для этого вопроса).
4. Вместо обычного "больше-меньше" для сравнения двух моделей использовать статистические тесты. Однако использовать t-test все-таки не рекомендуется, вместо этого в статье предлагается более сложная формула, которая также учитывает корреляцию Пирсона и минимизирует mean difference error.
5. Не забывать про мощность критериев в оценках и формулировать правильные гипотезы для сравнения моделей.
Рекомендации, в общем, действительно стоящие. Другой вопрос – сколько времени постребуется, чтобы ресерчеры действительно стали соблюдать что-то подобное
👍70❤12🔥11😁1
Реликвия: статья Марка Вайзера начала 90-х про AGI
Марк Вайзер был одним из пионеров Computer Science. Его называют отцом "повсеместных вычислений", которые как раз и были впервые описаны в статье выше.
Она называется «Компьютер для 21-го века» и в ней Вайзер описывает будущее, в котором вычисления бесшовно интегрированы в быт, став невидимой, неотъемлемой частью повседневной жизни; будущее, в котором технологии служат человеку автономно, не требуя нашего постоянного внимания или взаимодействия. По сути, в своей статье Марк впервые описывает AGI.
Марк Вайзер был одним из пионеров Computer Science. Его называют отцом "повсеместных вычислений", которые как раз и были впервые описаны в статье выше.
Она называется «Компьютер для 21-го века» и в ней Вайзер описывает будущее, в котором вычисления бесшовно интегрированы в быт, став невидимой, неотъемлемой частью повседневной жизни; будущее, в котором технологии служат человеку автономно, не требуя нашего постоянного внимания или взаимодействия. По сути, в своей статье Марк впервые описывает AGI.
🔥54👍11❤3
DeepSeek релизнули модель, которая конкурирует с o1
Модель уже доступна и в фунционале чата выглядит как переключатель в режим "Deep Think". Под капотом у переключателя лежит модель DeepSeek-R1-Lite-Preview, которая достигает уровня o1-preview на Codeforces, и даже превосходит ее на MATH и AIME 2024.
Пока что технических деталей нет, но обещают, что и веса, и API будут опубликованы уже скоро. Пока что показывают только метрики и графики масштабирования. Также, как и у OpenAI, у DeepSeek результаты скейлятся с ростом длины цепочки рассуждений (кстати, в чате видно полную цепочку, а не обрезанную, как у o1). Сами цепочки рассуждений могут достигать 100к токенов.
Модель уже доступна и в фунционале чата выглядит как переключатель в режим "Deep Think". Под капотом у переключателя лежит модель DeepSeek-R1-Lite-Preview, которая достигает уровня o1-preview на Codeforces, и даже превосходит ее на MATH и AIME 2024.
Пока что технических деталей нет, но обещают, что и веса, и API будут опубликованы уже скоро. Пока что показывают только метрики и графики масштабирования. Также, как и у OpenAI, у DeepSeek результаты скейлятся с ростом длины цепочки рассуждений (кстати, в чате видно полную цепочку, а не обрезанную, как у o1). Сами цепочки рассуждений могут достигать 100к токенов.
1👍63🔥38❤11🗿2
OpenAI обновили GPT-4o: теперь модель пишет более живые, интересные и читабельные тексты, а также лучше работает с файлами.
Бенчмарков нет, только анонс. Кроме того, разработчики добавили несколько апдейтов в API и песочницу. Видимо что-то назревает и компания готовится к релизу🥳
Напоминаем, что DevDay OpenAI состоится уже сегодня. Ждем, по меньшей мере, полную версию o1 (должен же Альтман как-то ответить DeepSeek)
Бенчмарков нет, только анонс. Кроме того, разработчики добавили несколько апдейтов в API и песочницу. Видимо что-то назревает и компания готовится к релизу
Напоминаем, что DevDay OpenAI состоится уже сегодня. Ждем, по меньшей мере, полную версию o1 (должен же Альтман как-то ответить DeepSeek)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52👍17🔥16
Data Secrets
DeepSeek релизнули модель, которая конкурирует с o1 Модель уже доступна и в фунционале чата выглядит как переключатель в режим "Deep Think". Под капотом у переключателя лежит модель DeepSeek-R1-Lite-Preview, которая достигает уровня o1-preview на Codeforces…
Тем временем модели от DeepSeek задали главный вопрос и она… искренне удивилась наличию третьей r, но ответила правильно
😁181👍17🔥15😍7🏆2
Конференция AI Journey 2024 определит фокус развития сферы искусственного интеллекта на годы вперед. Анонс предстоящих выступлений сделал первый зампред правления ПАО «Сбербанк» Александр Ведяхин.
В частности, на площадке выступит основатель Tech Whisperer Limited Джасприт Биндра из Индии, который расскажет о следующем этапе эволюции искусственного интеллекта после ChatGPT и о том, как это повлияет на наше будущее.
Конкретные примеры применения искусственного интеллекта в нефтяной и газовой промышленности на Ближнем Востоке расскажет президент AI Society Хассим Хаджи из Бахрейна.
Среди экспертов российского Al-сообщества выступят разработчики из «Сбера», «Яндекса», Института AIRI, «Сколтеха», «Иннополиса» и поделятся своими разработками и исследованиями в области робототехники, создания больших языковых моделей и построения мультиагентных систем.
В прошлом году конференцию посмотрело более 150 млн человек. С учетом текущих трендов и происходящих событий в мире число заинтересованных явно кратно возрастет.
В частности, на площадке выступит основатель Tech Whisperer Limited Джасприт Биндра из Индии, который расскажет о следующем этапе эволюции искусственного интеллекта после ChatGPT и о том, как это повлияет на наше будущее.
Конкретные примеры применения искусственного интеллекта в нефтяной и газовой промышленности на Ближнем Востоке расскажет президент AI Society Хассим Хаджи из Бахрейна.
Среди экспертов российского Al-сообщества выступят разработчики из «Сбера», «Яндекса», Института AIRI, «Сколтеха», «Иннополиса» и поделятся своими разработками и исследованиями в области робототехники, создания больших языковых моделей и построения мультиагентных систем.
В прошлом году конференцию посмотрело более 150 млн человек. С учетом текущих трендов и происходящих событий в мире число заинтересованных явно кратно возрастет.
❤17👍8🔥5😁1🤯1🌚1🤪1
This media is not supported in your browser
VIEW IN TELEGRAM
В Лондоне на выходных прошел хакатон от Meta AI
Слоган соревнования отражает его суть: «fine-tuning vibes». Компания разыгрывала 50 тысяч долларов за яркий кейс разработки с применением Llama.
Первое место заняла команда, которая сделала руку робота, управляемую только силой мысли. Робот был построен по инструкции от HuggingFace, а в качестве подкапотной LLM используется, конечно, Llama 3.2, докрученная обучением политик.
За движения робота отвечают эмоции: например, девушка представляла что-то, что заставляет ее умиляться, и ее эмоции диктовали руке двигаться вверх.
Слоган соревнования отражает его суть: «fine-tuning vibes». Компания разыгрывала 50 тысяч долларов за яркий кейс разработки с применением Llama.
Первое место заняла команда, которая сделала руку робота, управляемую только силой мысли. Робот был построен по инструкции от HuggingFace, а в качестве подкапотной LLM используется, конечно, Llama 3.2, докрученная обучением политик.
За движения робота отвечают эмоции: например, девушка представляла что-то, что заставляет ее умиляться, и ее эмоции диктовали руке двигаться вверх.
❤52🔥20👍12🤪5