Data Scientist | IT – Telegram

Data Scientist | IT

@datascience_it

1.94K subscribers

651 photos

3 videos

1 file

707 links

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Download Telegram

About

Blog

Apps

Platform

Data Scientist | IT

1.94K subscribers

Data Scientist | IT

Как обучают GPT

#почитать

Transformer — по-настоящему революционная архитектура. Она впервые появилась на страницах культовой статьи Attention Is All You Need («Внимание — все, что вам нужно»), которую написали Ашиш Васвани и его коллеги из Google. Они предложили сетевую архитектуру без рекурсии и сверток, основанную исключительно на механизмах внимания. До этого в основе популярных моделей преобразования последовательностей чаще всего были сложные рекуррентные или сверточные нейросети.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥3❤1

575 views10:35

Data Scientist | IT

Prompt engineering 101

#почитать

Разберемся с тем, как вообще устроены LLM, затем поговорим о промптах: общие принципы построения, техники оптимизации и промпты для изображений. А на десерт предложим вам продвинутые техники работы с LLM: автоматизированные подходы по улучшению промптов, Retrieval‑Augmented Generation и разметка данных для ML с помощью LLM.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2

583 views10:42

Data Scientist | IT

Генеративное глубокое обучение

Автор: Дэвид Фостер
Год издания: 2020

#ru #deeplearning #python

Скачать книгу

🔥5👍2

653 views07:03

Data Scientist | IT

Графовые сети в рекомендательных системах

#почитать

Что такое сверточные графовые сети, их основные компоненты и принципы работы: подробно разберем модель на user-item графе, после перейдём к item-item графу;

Знакомство с моделью LightGCN: архитектура, процесс обучения, недостатки (медленная сходимость и смещение в популярное) и варианты их устранения;

Как это всё применять на практике: обучим сетку на датасете Movielens-25m, замерим метрики, столкнёмся с проблемами LightGCN и вместе их решим

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

664 views05:11

Data Scientist | IT

Алгоритмы неформально.
Инструкция для начинающих питонистов

Автор: Брэдфорд Такфилд
Год издания: 2022

#algorithms #python #ru

Скачать книгу

👍6❤1🔥1

740 views07:40

Data Scientist | IT

▫️ Деревья и их ансамбли 2023 | Деревья в анализе данных

#посмотреть

Open ML Course.

⏱

Смотреть на YouTube ⏱ 30 минут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1

630 views10:34

Data Scientist | IT

Машинное обучение с использованием Python. Сборник рецептов

Автор: Крис Элбон
Год издания: 2019

#ml #python #ru

Скачать книгу

❤7

609 views07:11

Data Scientist | IT

Промпт-инженеринг — новый хайп или перспективная профессия?

Рассказываем про направление с большим потенциалом и маленькой конкуренцией на рынке на нашей бесплатной лекции.

По итогам эфира вы узнаете:
— Кто такой промт-инженер и чем он занимается;
— Как интегрировать скиллы промт-инжинеринга в работу, если вы работаете в IT;
— Кому в действительности нужны его услуги и какие результаты это даст;
— Сколько платят промт-инженеру в России и мире;
— Кто может стать промт-инженером и какой порог входа;

Кликай на ссылку и забирай подробную информацию вместе с классными бонусами.

ООО Зерокодер, ИНН 9715401631, erid: LjN8KQ8mP

👍6

632 views07:33

Data Scientist | IT

Python для Data Science

Автор: Юлий Васильев
Год издания: 2023

#python #ru #datascience

Скачать книгу

👍5👎1

634 views05:59

Data Scientist | IT

Полезный блог про iGaming, который ведет СЕО 1win! 💙

Канал Owner 1win — про философию управления из первых уст. Простыми словами о сложном iGaming.

Тут ты найдешь:

⚡️ Гемблинг-инсайды
⚡️ Бизнес-советы
⚡️ Экспертные комментарии овнера
⚡️ Апдейты по проектам

Присоединяйся к Owner 1win и будь на волне iGaming трендов

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥2

627 views12:35

Data Scientist | IT

📖The Little Book of Deep Learning

Книжка-шпаргалка для быстрой подготовки к собеседованиям по DL.

⏱

Скачать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

619 viewsedited 15:02

Data Scientist | IT

GenAI, кино и Голливуд

Наткнулся на интересные мысли от Doug Shapiro по поводу перспектив использования генеративного AI в большом кино. Перспективы так себе — Doug уверен, что мы ещё очень нескоро увидим новый голивудский блокбастер «снятый» с помощью нейросети. И я ему верю, этот автор умеет анализировать огромный объем информации и делать четкие выводы.

Вот несколько ключевых мыслей:

📌 GenAI имеет множество потенциальных применений в традиционном процессе производства фильмов и ТВ шоу. Помощь в написании сценариев, генерация концепт-арта, автоматизация процессов видеосъемки или перевода на множество языков. Но это лишь дополнительные инструменты для пре- и постпродакшена.

📌 Наиболее мощными преобразующими инструментами, с точки зрения сокращения времени, рабочей силы и затрат, являются видеогенераторы с искусственным интеллектом, которые могут частично или полностью заменить основную съемку.

📌 Модели видео с использованием искусственного интеллекта развиваются с огромной скоростью. В феврале OpenAI потряс индустрию анонсом Sora. В прошлом месяце Google анонсировала Veo, а всего за последнюю неделю или около того было выпущено или анонсировано множество столь же впечатляющих моделей следующего поколения, включая Kling, Dream Machine и Runway Gen-3.

📌 Какими бы впечатляющими ни были эти модели, студии еще очень долго не смогут использовать их для замены основной съемки, даже если захотят, по трем причинам: трудовые отношения, важные нерешенные юридические вопросы и технические ограничения.

📌 Если в Кремниевой долине принято говорить “действуй быстро чтобы добиться успеха”, то в Голливуде принято говорить “лучше сначала обратиться к юристам”. Существует множество нерешенных юридических вопросов, связанных с ИИ, но наиболее насущные из них касаются нарушения авторских прав и интеллектуальной собственности. Для крупных студий использование искусственного интеллекта, обученного на чужих авторских правах, является проигрышным: они либо нарушают, либо подрывают свои собственные права.

Ключевой вывод, который делает автор — GenAI не заменит Голливуд, но есть большой риск, что он его «задизраптит». Для дизрапта требуются два основных компонента: прорывные инновации, которые снижают барьеры для входа, и существующие игроки рынка, которые не могут отреагировать. Здесь есть и то, и другое.

Продукторий Владимира Меркушева

❤5👌2

418 views11:11

Data Scientist | IT

Исследование: турецкие школьники глупеют от использования ChatGPT

#почитать

Исследователи из Пенсильванского университета обнаружили, что турецкие старшеклассники, у которых был доступ к ChatGPT при выполнении практических математических задач, показали худшие результаты в тесте по сравнению с учениками, у которых не было ChatGPT.

Те, у кого был ChatGPT, верно решили на 48% больше практических задач, но в конечном итоге набрали на 17% меньше баллов на тесте по теме, которую изучали.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤2

360 viewsedited 09:05

Data Scientist | IT

Что можно узнать из текста в телеграмм-канале

#почитать

И вот, спустя 2 года, мне пришло в голову, что телеграмм-канал - это довольно необычный источник текстов. Я у мамы дата сайнтист, так что на этих данных и решил устроить себе небольшой NLP-этюд

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

362 views10:42

Data Scientist | IT

Модели замены фона видеосозвонов

#почитать

Что мы хотим в идеале получить от маттинга? Картинку, когда мы берем изображение, убираем все, что относилось к фону, и останется передний план, который можно будет перенести на новое изображение. Если делать это наивно, то просто возьмем альфа-канал, умножим его на изображение и получим что-то похожее на передний план. Но на границе, где альфа-канал не равен 1 или 0, у нас появятся артефакты.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤2

292 views08:06

Data Scientist | IT

Цепи Маркова в Telegram-боте

#почитать

5 лет назад я задался целью создать сильный искусственный интеллект (СИИ)

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤3👌1

314 views08:33

Data Scientist | IT

Drag and drop деплой ML-моделей

#почитать

У нас много ML-моделей, которые нужно тестировать и внедрять в прод. Все это создает высокий темп разработки c кучей рутинных и ручных операций — от постановки задачи до продуктивизации и сопровождения модели. Мы смогли частично победить эту рутину с помощью drag and drop деплоя ML-моделей через web-интерфейс. В этой статье расскажем, что у него под капотом и какие функции в нем реализованы.

Бо́льшая часть нашей работы — это различные батчевые скоринги моделями градиентного бустинга.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👌5❤2🔥1

287 views05:16

Data Scientist | IT

Фреймворк SMOTE

#почитать

Часто бывает, что сами данные представляют собой гораздо большую ценность, чем модель, которая на них обучилась, поскольку процесс получения этих данных может быть гораздо сложнее, опаснее, дороже, чем обучение модели. Поэтому набирает популярность генерация наборов данных, создаются специальные фреймворки. Сегодня речь пойдет об одном из таких фреймворков, SMOTE, или же Synthetic Minority Oversampling Technique.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

297 views13:45

Data Scientist | IT

Создание искусственного датасета для обучения модели с Paddle OCR

#почитать

Когда перед нами встала задача распознавания текста на иврите, стало ясно, что найти готовый датасет с нужными характеристиками практически невозможно.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤1

293 views10:38

Data Scientist | IT

Складской учет без складской программы

#почитать

Итак, у нас есть обработчик сообщений, поступающих из Телеграм. Будем отправлять их на обработку большими языковыми моделями (LLM), в просторечье именуемыми искусственным интеллектом (куда уж сегодня без него). State‑of‑art модели сейчас позволяют организовать вызов функций на основе запроса, сформулированного на обычном человеческом языке. т. е. пользователь говорит что‑то типа: апельсины пришло 100, или апельсины поступило 100 или апельсины приход 100 или пришло 100 апельсинов и т. д. Большая языковая модель в любом случае понимает, что речь идет о поступлении на склад и предлагает вызвать функцию поступления.

В нашем случае будет достаточно всего трех функций: поступление, списание и остаток. При каждом вызове большой языковой модели, будем передавать описание этих трех функций.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥2❤1

295 views05:05

Data Scientist | IT

Путеводитель для диффузионок. Как заставить нейросети качественно редактировать изображения

#почитать

Мы предложили метод редактирования реальных изображений с помощью диффузионных моделей, который достигает лучшего среди всех методов компромисса между качеством редактирования и сохранением структуры исходного изображения, а также эффективен с вычислительной точки зрения.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

265 views10:34