Data Secrets

Для всех тех, кто выбрал вариант perplexity в опросе выше – наша рекомендация чтива на выходные

Это свежее (совсем свежее, закончено на днях) издание книги Дениса Ротмана «Transformers for Natural Language Processing and Computer Vision».

Текст – шик. Отлично написано про все новейшие модели, включая GPT-4V. Темы включают разбор архитектур, разный тюнинг, работу с HF, RAG и даже AGI. Ну в общем, все самое горячее.

В комплекте еще и репозиторий с кодом и бест практисес туториалами.

Конечно, сама книга платная и в России недоступна. Но она есть в полном объеме на сайте O’Reilly, а там предусмотрен бесплатный пробный период на 7 дней (карту вводить не требуется). В общем, вы знаете, что делать.

Приятного чтения!

✍25❤13🔥9👍2

7.98K views09:51

Data Secrets

Илон Маск заявил, что Tesla представит Tesla Robotaxi 8 августа.

И у нас есть инсайдерская информация о том, что они уже тестируют технологию 👆

Please open Telegram to view this post

VIEW IN TELEGRAM

😁62👍6🔥4❤2🫡1

6.48K views12:13

Data Secrets

Интересный кейс с INNER JOIN с собеседования

Довольно распространенные на собеседованиях SQL-задачки с подвохом обычно каким-то образом связаны с джойнами. Это именно на тема, которые очень многие понимают не совсем верно.

В карточках – один из таких загадочных кейсов на INNER JOIN. Показываем, как ожидания разбиваются о реальность, и рассказываем, почему так происходит.

👍68🔥20❤8🤯2😁1🦄1

7.41K views16:04

Data Secrets

«Да у нас сильная команда: 25 ML-инженеров и один data-инженер»

😁128🔥11❤9👍3

7.37K views05:50

Data Secrets

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

Мем дня: тут в Твиттере вспомнили, что в третьем Терминаторе Skynet захватил мир, располагая мощностью в 60 терафлопс.

Это менее двух современных RTX 3080.

Хьюстон…

😁135🔥8❤5🕊2👍1

8.04K views09:31

Data Secrets

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

«Это самый мощный GPU в мире, на его R&D мы потратили примерно 10 миллиардов долларов.» – CEO Nvidia про новое поколение чипов.

Сколько-сколько? 😱

Please open Telegram to view this post

VIEW IN TELEGRAM

😨91👍14❤6⚡2🗿2

7.21K views12:28

Data Secrets

The New York Times удивили своей новой статьей: они рассказали о том, как техно-гиганты борются с нехваткой данных для обучения своих ИИ-моделей. Из особенно интересного:

– История начинается с того, что, оказывается, Whisper был разработан OpenAI не просто так, а с целью научиться транскрибировать YouTube видео, чтобы получить больше текстов для обучения GPT-4. Удачно убили двух зайцев, да?

– Google аналогично использовали видео с YouTube для обучения LLM. Кроме того, компания изменила пользовательское соглашение Google Docs и других своих инструментов так, чтобы была легальная возможность использовать данные и оттуда. Самое смешное: чтобы отвлечь внимание от нового соглашения, они выпустили его 1 июля, на выходных в честь Дня Независимости.

– В Meta вообще ничего не стесняются: они рассматривали возможность покупки крупного издательства и скупки лицензий на книги, чтобы без лишнего шума обучать на авторских текстах свои модели.

Короче, советуем прочитать текст полностью, в нем можно найти еще массу интригующих деталей. Вот ссылка.

👍54😁18🔥9🦄6❤4🤯4

8.06K viewsedited 15:32

Data Secrets

Спички Банаха

Был такой польский математик - Стефан Банах. Он сделал много всего великого (например, доказал теорему об открытом отображении). В Польше в честь него даже названа премия по математике.

А еще у него была интересная привычка. Про нее – эта классическая задачка по теорверу.

Кто решит первым?

👍35🤯8❤5🔥4🗿1

6.96K views06:52

Data Secrets

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

Супергерои в комиксах: 🦸
Супергерои в жизни:

👏47🌭12😁10🫡6🔥4😐4🤨1💅1

6.71K views09:18

Data Secrets

Хм, а что если сделать ансамбль из LLM?

Именно так подумали авторы новой статьи “More Agents Is All You Need” и доказали, что совместное использование нескольких LLM-агентов может на порядок повысить эффективность модели.

Работает просто: подаем промпт сразу нескольким агентам (без шеринга контекста), которые генерируют ответы. Затем к этим ответам применяем majority voting (то есть мнение большинства).

Работает превосходно, и можно понять почему: если модель выдает смесь галлюцинаций с правильными ответами, правильные ответы будут похожи, а галлюцинации - нет.

Чтобы оценить мощь, обратите внимание на график: когда размер ансамбля увеличивается до 15, Llama2-13B достигает точности Llama2-70B, а Llama2-70B и GPT-3.5-Turbo достигают точности, сравнимой с GPT-4.

👍63🔥23❤7👏1

7.23K views12:16

Data Secrets

Внимание!

Мы нашли лучшее объяснение transfer learning.

Спасибо за внимание!

😁92❤10👍8👌3🔥1

6.76K views14:40

Data Secrets

Всем стартаперам и любителям пет-проектов на заметку: OpenAI обновили API для файнтюнинга.

– Добавлена песочница, в которой можно крутить и сравнивать модели
– Больше функций для вычисления метрик и тюнинга гиперпараметров
– Появилась встроенная возможность чекпоинтить на каждый эпохе
– Интеграция с Weights и Biases и др.

👍31❤10🔥6👌1

7.06K views17:21

Data Secrets

Сегодня весь день обсуждают "революционную" разработку твиттерского — Whore AI

Дословно: «я потратил 1 год на разработку программы, которая сэкономит деньги, время и нервы миллионам мужчинам».

Мы в стороне не остались, пильнули бота, определяющего говнокодеров по фото. Проверено – работает точнее некуда.

Вместо технического интервью на работу. Проверь коллег: @govnocode_xor_bot

😁119🤯7❤5👍4☃1🔥1

8.19K viewsedited 19:30

About

Blog

Apps

Platform