Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Мы знаем, чего не хватает тебе, чтобы стать сильным специалистом.

И нет, ответ не «подтяни теор.вер, матан, статистику/пройди очередной курс/наберись опыта на кэгле».


Вот то, что на самом деле делает инженера на голову выше и на порядок конкурентноспособнее:

- как управлять экспериментами и данными внутри команды
- что такое хороший код и как его поддерживать
- как создавать веб-сервисы
- какие фреймворки для каких задач использовать
- какие сложности встречаются в разных CV-задачах и как их решать


Чтобы познать всё это сполна, важно смотреть, как работают продуктовые команды, и набираться опыта у них, подчеркивать техники/фреймворки/подходы.

Идеальный вариант для получения опыта — это новый канал наших друзей DeepSchool | CV Rocket, в котором будут делиться этими знаниями бесплатно!

А для тех, кто хочет ещё больше, они придумали курс, в котором наглядно покажут, как работают CV-команды, ответят на все вопросы, да ещё и отревьюят ваш код. Подробнее о нём – тоже в новом канале.

Подписывайтесь, если хотите утянуть к себе пару полезных техник/фреймворков/подходов и узнать больше о том, как работают в DL-командах!
👍10🤯75🙈3🔥2
HalvingSearch – ускорение поиска по сетке

Подбор гперпараметров – сложная и распросраненная задача. Для ее решения часто используют поиск по сетке, но этот алгоритм очень уж медленный. Поэтому сегодня давайте обратим внимание на halving search. Его относительно недавно добавили в sklearn, и пришло время разобраться, как с ним работать.
41👍24🔥6
Дорогие наши DS-подписчицы!

Наша редакция от всей своей Data-души поздравляет вас с праздником! Желаем, чтобы скор вашего настроения рос, а лосс неудач падал 📉

P.S. Сегодня мы приготовили для вас много интересного, не пропустите 🌸
Please open Telegram to view this post
VIEW IN TELEGRAM
87🥰15🔥8💋4🎉3
Girl’s power!

По данным Всемирного экономического форума, женщины занимают 26% рабочих мест в сфере ИИ, и при этом составляют всего 16% преподавателей, обучающих Data Science.

Мы считаем (и исследования это подтверждают), что gender diversity – это сила, и посвящаем этот пост женщинам в AI, на которых стоит равняться.
👍5522🔥14🤪5🍌4🦄4😁1
Твой градиентный спуск
👍93😁48🔥1554🤪3
Step-by-step гайд по изучению основ алгоритмов машинного обучения с ссылками на посты нашего канала:

1. Обычно все подобные списки начинаются с регрессии, но мы советуем начать с KNN. Простой и интересный алгоритм, который поймет любой.

2. А вот теперь регрессия:
Линейная регрессия
Пуассоновская регрессия
Гребневая и лассо регрессия
– Elastic Net регрессия

3. Линейная классификация:
– Логистическая регрессия
– LDA
– SGD классификация

4. Метод опорных векторов

5. Деревья и ансамбли:
– Cart, ID3 и С4.5
– Случайный лес

6. Бустинг:
– Градиентный бустинг
– Adaboost

7. Кластеризация:
– K-means
– DBSCAN
– Иерархическая кластеризация
– BIRCH

8. Finally: нейросети
- Перцептрон
- CNN
- RNN
- LSTM
- GAN
- Трансформеры

Есть среди нас новички? Отзовитесь в комментариях 😻
Please open Telegram to view this post
VIEW IN TELEGRAM
👍90🔥21🫡75🤯3🦄1
Forwarded from XOR
Там небезызвестный в ИИ кругах Ян Лекун выдал базу. Да-да, это тот самый перец, фото которого красовалось на башне Бурдж-Халифа со ставкой от властей ОАЭ на привлечение специалиста к себе.

Так вот база:
Язык имеет низкую пропускную способность: менее 12 байт/сек. Человек может прочитать 270 слов/мин, что составляет 12 байт/с (2 байта за токен). Современные модели обычно тренируются на 2х10^13 байтах, что займет для нас около 100.000 лет чтения по 12 часов в сутки.

У зрения же пропускная способность гораздо выше: около 20 МБ/с. Каждый из двух оптических нервов имеет 1 миллион нервных волокон, каждый принимает около 10 байт/с. 4-летний ребенок не спит в общей сложности 16.000 часов, что означает 10^15 байт.

Другими словами:
- Пропускная способность данных визуального восприятия примерно в 16 млн раз превышает пропускную способность данных письменного (или разговорного) языка.
- Всего за 4 года ребенок увидел в 50 раз больше данных, чем самые крупные LLM, обучаемые по всему тексту, доступному в интернете.


Это говорит нам о трех вещах:
🟢 Текст очень излишен, а визуальные сигналы в оптических нервах еще более избыточны (несмотря на 100-кратно сжатые версии выходов в сетчатке). Но избыточность данных — это *точно* то, что нам нужно для Self-Supervised Learning (SSL - самоконтролируемого обучения), чтобы захватить структуры данных. То есть чем больше избыточность, тем лучше для SSL.
🟢Большая часть знаний человека (и почти все знания животных) исходит из нашего сенсорного опыта физического мира. Язык - это вишенка на торте. Нам нужен торт для поддержки глазури.
🟢 ИИ никогда не достигнет человеческого уровня без обучения на сенсорных входах с высокой пропускной способностью, таких как зрение.

Да, некоторые люди могут быть умнее остальные, даже будучи одновременно слепым и глухим. Но не без прикосновений, они тоже имеют довольно высокую пропускную способность.

@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍78🔥13🤨74🥰4🤔1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Коктейль выходного дня заказывали?
😁93🔥20👍11😨3👀1
Вместо воскресной задачи: экзамен по математике в Гарвард 1869 года. Учтите, калькуляторы не разрешены.

Сдали бы? Пишите в комментариями, с какими задачами справитесь.
👍34🔥136
Когда с утра узнал, что Оппенгеймер взял 7 Оскаров, а Барби один
😁111🔥12👍7❤‍🔥2
Краткая история AI:

For x in [перцептрон, глубокое обучение, RL, LSTM, LLM] :
print("Через пару лет у нас будет AGI.”)


Каждый раз, открывая новую эффективную акхитектуру или подход, ученые верили, что в ближайшее время это приведет их к ИИ уровня человека. Цитаты из карточки – забавное тому доказательство. Тем не менее, каждый раз все оказывается немного сложнее, чем кажется.

Как по вашему: через сколько лет на самом деле человечество достигнет AGI?
32🔥10👍7😁2