Data Secrets

Сейчас в топе трендов обсуждать скуфов, масиков и тюбиков. Настало наше время сделать свою подробку. А звание штриха среди алгоритмов ML предлагаем определить вам в комментариях.

🔥56😁22❤4👍4🥰3❤‍🔥1🤯1

6.59K views15:34

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

Пул самых интересных статей за неделю:

📥

Genie – foundation модель от GoogleDeepMind, обученная на Интернет видеороликах и способная генерировать реалистичные бесконечные игровые (то есть управляемые) 2D-миры по изображению. Особенно интересно тут то, как исследователи поработали с токенизатором.

📥

EMO: Emote Portrait Alive. Разработка от Alibaba. Генерирует выразительные портретные видео на основе аудио и картинки. Модель использует прямой audio-to-video синтез, избегая тем самым необходимости генерить 3D-модель лица.

📥

StarCoder 2. Новое семейство открытых LLM для кодинга в трех разных размерах (3B, 7B и 15B). Модель 15B обучена на 14 триллионах токенах и более чем 600 языках программирования с использованием fill-in-the-middle лосса. Контекст - 16к токенов.

📥

The Era of 1-bit LLMs. Статья от Microsoft. Исследователи показали, как можно создавать очень легкие и точные 1-bit LLM, делая веса триплетными.

📥

Dataset for LLMs. 180+ страниц с обзорами и анализом датасетов для LLM.

Кладем себе в мастрид-копилку

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🔥8❤4🤯2

6.53K views07:20

Data Secrets

Forwarded from Институт AIRI

Ищем исследователей в научные группы AIRI

😁

📎

Medical foundation model research data scientist CV+NLP (Middle+)

Кандидат будет заниматься разработкой, тестированием и поддержкой SSL моделей мед. ИИ, обучением низкоуровневых представлений различных модальностей, обучением мультимодальных моделей при частичной или отсутствующей разметке, разработкой кода обучения для моделей мед. ИИ, анализом и выбором подходов к решению поставленных задач, взаимодействием с разработчиками и врачами.

📎

Senior/Middle NLP Researcher в группу Domain-specific NLP

Ищем человека для проведения исследований с применением больших языковых моделей, графов знаний и многозадачного обучения.

📎

Middle RL Researcher в группу Neural Symbolic Integration

Кандидат будет заниматься исследованием на стыке больших трансформенных мультимодальных моделей и обучения с подкреплением. Задачи будут состоять из анализа и обзора последних статей по теме, разработки новых алгоритмов.

📎

Senior Computer Vision Engineer в медицинскую группу

Ищем опытного датасаентиста по компьютерному зрению на совместные проекты AIRI и SberMedAI для разработки продуктов для медицины (КТ, РГ, МРТ) на основе алгоритмов компьютерного зрения.

📎

Computer Vision Engineer

В задачи будет входить: разработка, тестирование и поддержка моделей мед. ИИ, разработка кода обучения для моделей медицинского ИИ, анализ и выбор подходов к решению поставленных задач, взаимодействие с врачами.

📎

Reinforcement learning in multi-modal medical imaging (Junior)

Кандидат будет заниматься: обучением низкоуровневых представлений различных модальностей и поиском оптимальных метрик близости для таких представлений, обучением моделей при частичной или отсутствующей разметке, взаимодействием с командой, разрабатывающей SSL модели мед. ИИ, разработкой кода обучения для моделей мед. ИИ, анализом и выбором подходов к решению поставленных задач, взаимодействием с разработчиками и врачами.

Откликайтесь на интересующие вас вакансии и делитесь этим постом с теми, кому может быть интересна работа в AIRI

💡

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯12❤10🔥1

5.38K views08:22

Data Secrets

Интересный факт

OpenAI релизнули DALL-E 2 в апреле 2022 года. Примерно 18 месяцев спустя DALL-E 3 был как минимум в 10 раз лучше.

Если Sora будет следовать аналогичному масштабированию, то к 2025 года видеомодели будут в 10 раз лучше, чем Sora (а это уже уровень генерации целого фильма).

👍38🔥9❤6

6.23K views09:49

Data Secrets

Когда кто-то берет твой телефон и начинает поиск в браузере на букву «п» 😓

Please open Telegram to view this post

VIEW IN TELEGRAM

😁85👍8❤4🔥2💯1

6.22K views12:29

Data Secrets

Forwarded from XOR

Ладно, по вашему запросу касты языков программирования. Штриха также оставляем на обсуждение в комментарии.

😁43👍5🗿5🔥2💯2❤1👻1😎1

5.34K views15:49

Data Secrets

Жизнь дата сайентиста или с добрым утром, коллеги!

👍78😁41🫡5🙈4❤2🤯2🔥1

6.15K views06:30

Data Secrets

Ловите шпиона!

Инженеру Google Линвею Дину предъявили обвинения в краже секретных файлов. Файлы были связаны с коммерческой тайной ПО гугловских ИИ-чипов TPU.

На этих чипах запускается Gemini, они интегрированы в Hugging Face и в целом держат на себе большую часть AI-нагрузки компании. Предполагаемый преступник украл более 500 документов с деталями архитектуры и ПО таких чипов.

Крал он их, по версии следствия, для китайских компаний, желающих таким образом получить преимущество в ИИ-гонке.

🤯57👍15😁9🥰4🏆2😈2❤1🤨1

6.28K views09:14

Data Secrets

Там Claude3 оказался умнее человека на тесте IQ

Эксперимент провел журналист Максим Лотт. Он прогнал известные LLM через IQ-тест и получил следущие интересные результаты:

🔎 Claude-3 с большим отрывом оказался самым умным ИИ — 101 балл (для справки, средний человеческий IQ = 100)

🔎 Сlaude-2 тоже в тройке лидеров, на третьем месте – 82 балла

🔎 Почетное второе занимает ChatGPT-4, однако его результаты аж на 16 пунктов отстают от лидера – 85 баллов

🔎 Базовый Gemini почему-то показал себя лучше, чем Gemini Advanced

🔎 Такими темпами, по закону Мура, через пару лет IQ LLM достигнет 140 баллов (у Энштейна, например, IQ = 160)

🤪35👍16🔥6🗿3🤔2❤1😈1

7.05K views12:20

Data Secrets

Мы знаем, чего не хватает тебе, чтобы стать сильным специалистом.

И нет, ответ не «подтяни теор.вер, матан, статистику/пройди очередной курс/наберись опыта на кэгле».

Вот то, что на самом деле делает инженера на голову выше и на порядок конкурентноспособнее:

- как управлять экспериментами и данными внутри команды
- что такое хороший код и как его поддерживать
- как создавать веб-сервисы
- какие фреймворки для каких задач использовать
- какие сложности встречаются в разных CV-задачах и как их решать

Чтобы познать всё это сполна, важно смотреть, как работают продуктовые команды, и набираться опыта у них, подчеркивать техники/фреймворки/подходы.

Идеальный вариант для получения опыта — это новый канал наших друзей DeepSchool | CV Rocket, в котором будут делиться этими знаниями бесплатно!

А для тех, кто хочет ещё больше, они придумали курс, в котором наглядно покажут, как работают CV-команды, ответят на все вопросы, да ещё и отревьюят ваш код. Подробнее о нём – тоже в новом канале.

Подписывайтесь, если хотите утянуть к себе пару полезных техник/фреймворков/подходов и узнать больше о том, как работают в DL-командах!

👍10🤯7❤5🙈3🔥2

5.84K views14:33

Data Secrets

HalvingSearch – ускорение поиска по сетке

Подбор гперпараметров – сложная и распросраненная задача. Для ее решения часто используют поиск по сетке, но этот алгоритм очень уж медленный. Поэтому сегодня давайте обратим внимание на halving search. Его относительно недавно добавили в sklearn, и пришло время разобраться, как с ним работать.

❤41👍24🔥6

6.31K views15:49

About

Blog

Apps

Platform