Есть ли у ИИ-художника свой стиль
#почитать
⏱ Читать статью
#почитать
Внутри каждой из txt-2-img нейросетей есть модель, обученная на своем датасете. Если модель удачная, то и генерации будут получаться качественными, красивыми, соответствующими запросу. Разумеется, посмотреть, что представляет из себя модель, на каком датасете она обучена, не получится – это коммерческая тайна любого из продуктов, о которых я буду писать ниже.
И всё-таки, попробуем определить, где лучше генерировать изображения, хотя бы по факторам красоты/соответствия запросу.
Будем исходить из того, что в каждом из продуктов, который участвует в наших экспериментах, есть большие или меньшие веса для определённых изображений. То есть она предрасположена выдавать в результатах генераций следы тех изображений, которых или больше в датасете или которые имеют больший вес.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥1
#посмотреть
Разбираем общие понятия, посмотрим на основные принципы на примерах и обсудим инструменты в промышленном ML.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥1
ML: как понять, что вы больше не джун
#почитать
Грейды отличают две вещи.
Первая — технический стек. Четких градаций навыков дата-аналитиков нет, потому разные компании фокусируются на разных скиллах в зависимости задач, но базовый набор такой:
Junior: SQL (window functions), Excel (sheets), Python (pandas, matplotlib, numpy), Statistics, Data Visualisation (BI platforms), git;
Middle: SQL (DDL, DML, optimisation), differences between DB, Python ML stack (scikit-learn), Data Mining (e.g. API);
Senior: ETL (e.g. Airflow), Data Modeling, OOP or functional programming.
Вторая отличающая грейды вещь — умение работать самостоятельно.
⏱ Читать статью
#почитать
Грейды отличают две вещи.
Первая — технический стек. Четких градаций навыков дата-аналитиков нет, потому разные компании фокусируются на разных скиллах в зависимости задач, но базовый набор такой:
Junior: SQL (window functions), Excel (sheets), Python (pandas, matplotlib, numpy), Statistics, Data Visualisation (BI platforms), git;
Middle: SQL (DDL, DML, optimisation), differences between DB, Python ML stack (scikit-learn), Data Mining (e.g. API);
Senior: ETL (e.g. Airflow), Data Modeling, OOP or functional programming.
Вторая отличающая грейды вещь — умение работать самостоятельно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥1
Учим большие языковые модели описывать продукты данных
#почитать
⏱ Читать статью
#почитать
Рассмотрим использование больших языковых моделей на этапе подготовки описания продуктов данных для дальнейшего использования в аналитике.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2🔥1
#посмотреть
- Автор ушел в мелкие детали, а лучше бы рассказал качественные отличия различных бустингов. Один лучше там (потому- то), второй- тут (потому- то), третий вот там (по такой- то причине)... А это просто мешок слов из книжки.
- Фишка в том, что тут нет понятия хуже или лучше. Это зависит исключительно от задачи, которую нужно решить. А чтобы выбрать подходящий бустинг, нужно знать как он работает. Если нужен самый быстрый то лучше всего LightGBM, в силу того, что он обсчитывает не весь датасет, а часть. Если много категориальных переменных, то лучше всего CatBoost потому что он под это заточен
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Почему витамины и лекарства не работают на 100%? Машинное обучение нашло ответ
#почитать
⏱ Читать статью
#почитать
В период пандемии ковида и недавней эпидемии гриппа многие из нас прибегали к употреблению большого количества витаминов и микроэлементов, для поддержания иммунитета. Выбор БАДов в аптеках по всей стране весьма широкий и привлекательный, однако совместное их применение очень ограничено. Все дело в белках-переносчиках
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
Как взламывают биометрию и заставляют нейросети придумывать способы атак
#почитать
Атаки на биометрию уже освоили достаточно приземленные мошенники. У пользователя взламывают Telegram, находят записи голосовых сообщений, прогоняют их через специальные нейросети, такие как voice.ai и murf.ai, и отправляют голосовое сообщение с просьбой о помощи по контакт-листу в мессенджере.
⏱ Читать статью
#почитать
Атаки на биометрию уже освоили достаточно приземленные мошенники. У пользователя взламывают Telegram, находят записи голосовых сообщений, прогоняют их через специальные нейросети, такие как voice.ai и murf.ai, и отправляют голосовое сообщение с просьбой о помощи по контакт-листу в мессенджере.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1
Все говорят, что работы в айти стало меньше...
На самом деле, работы полно. Мы подготовили 7 правильных каналов с вакансиями для тестировщиков, аналитиков, проджект-менеджеров и программистов.
В чем фишка этих каналов?
— зарплатная вилка🍴во всех вакансиях
— еженедельные подборки стажировок для начинающих — как здесь (для QA), здесь (для PM) и здесь (для BA&SA)
— быстрый телеграм/email контакт для прямой связи с рекрутером
— удобная навигация по уровням/условиям работы/направлениям тестирования
▪️QA Jobs — работа для тестировщика
▪️PM Jobs — работа для Project и Product менеджера
▪️BA & SA Jobs — работа для бизнес- и системых аналитиков
▪️C# & .NET Jobs — работа для C# инженеров
▪️DS&ML Jobs — работа для DS инженеров
▪️PHP Jobs — работа для PHP разработчиков
▪️JAVA Jobs — работа для Java разработчиков
Подписаться на все каналы сразу
На самом деле, работы полно. Мы подготовили 7 правильных каналов с вакансиями для тестировщиков, аналитиков, проджект-менеджеров и программистов.
В чем фишка этих каналов?
— зарплатная вилка🍴во всех вакансиях
— еженедельные подборки стажировок для начинающих — как здесь (для QA), здесь (для PM) и здесь (для BA&SA)
— быстрый телеграм/email контакт для прямой связи с рекрутером
— удобная навигация по уровням/условиям работы/направлениям тестирования
▪️QA Jobs — работа для тестировщика
▪️PM Jobs — работа для Project и Product менеджера
▪️BA & SA Jobs — работа для бизнес- и системых аналитиков
▪️C# & .NET Jobs — работа для C# инженеров
▪️DS&ML Jobs — работа для DS инженеров
▪️PHP Jobs — работа для PHP разработчиков
▪️JAVA Jobs — работа для Java разработчиков
Подписаться на все каналы сразу
❤5
Анализ зависимостей бинарных файлов на основе ML
#почитать
⏱ Читать статью
#почитать
Мы реализовали анализатор бинарного кода на основе ML-подходов — Binary SCA. Наш проект совмещает две предметные области — информационную безопасность и ML.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
40 Полезных инструментов Дата Саентиста
#почитать
⏱ Читать статью
#почитать
Благодаря активному сообществу разработчиков, практически для любой задачи на Python можно найти готовый и полезный инструмент, который поможет вам в решении самых сложных задач. Надеюсь, вы найдете что-то полезное для себя.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Подготовка к собеседованию на позицию DS. Специализированное машинное обучение
#почитать
▪️Глубокое обучение
▪️Обработка текстов на естественном языке
▪️Компьютерное зрение
▪️Графовые нейронные сети
▪️Обучение с подкреплением
▪️Рекомендательные системы
▪️Временные ряды
▪️Big Data
⏱ Читать статью
#почитать
▪️Глубокое обучение
▪️Обработка текстов на естественном языке
▪️Компьютерное зрение
▪️Графовые нейронные сети
▪️Обучение с подкреплением
▪️Рекомендательные системы
▪️Временные ряды
▪️Big Data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Требования к данным для систем ИИ по верификации людей
#почитать
▫️Системы верификации
▫️Общие требования к данным
▫️Требования к эталонному набору данных
▫️Требования к сравниваемым объектам
⏱ Читать статью
#почитать
▫️Системы верификации
▫️Общие требования к данным
▫️Требования к эталонному набору данных
▫️Требования к сравниваемым объектам
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Разговариваем с BI на естественном языке
#почитать
Искусственный интеллект уже научился писать простые запросы к базам данных, но можно ли совсем избавиться от кода в работе аналитиков? Мы расскажем про наши нейросетевые эксперименты, в которых мы научили BI-систему слушать, понимать и отрабатывать запросы аналитиков на естественном языке.
⏱ Читать статью
#почитать
Искусственный интеллект уже научился писать простые запросы к базам данных, но можно ли совсем избавиться от кода в работе аналитиков? Мы расскажем про наши нейросетевые эксперименты, в которых мы научили BI-систему слушать, понимать и отрабатывать запросы аналитиков на естественном языке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Как сделать pruning, чтобы потом не плакать
#почитать
Обрезка нейросетей или же, если вникать в термины, pruning — то, что помогает уменьшить размер нашей модели без потери ее эффективности. Идея проста: мы просто убираем из модели все, что нам не нужно. Как в магазине, когда решил экономить: если в корзине лежат лишние товары, то почему бы их не убрать? Так и здесь — мы убираем избыточные нейроны и связи, которые только занимают место, но не приносят особой пользы.
⏱ Читать статью
#почитать
Обрезка нейросетей или же, если вникать в термины, pruning — то, что помогает уменьшить размер нашей модели без потери ее эффективности. Идея проста: мы просто убираем из модели все, что нам не нужно. Как в магазине, когда решил экономить: если в корзине лежат лишние товары, то почему бы их не убрать? Так и здесь — мы убираем избыточные нейроны и связи, которые только занимают место, но не приносят особой пользы.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2
Архитектурный паттерн для обработки больших данных: Kappa
#почитать
⏱ Читать статью
#почитать
Архитектурный паттерн Kappa представляет собой эффективный подход к обработке больших данных. Он основывается на идее обработки данных в реальном времени без необходимости разделения данных на два потока, как это делается в архитектуре Lambda.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Алгебра смысла
#почитать
⏱ Читать статью
#почитать
Знаковые последовательности (например, вербальные и нотные тексты) можно превратить в математические объекты. Слова и числа стали одной сущностью, представлением матричной единицы, которая является матричным обобщением целых чисел и гиперкомплексным числом. Матричная единица — это матрица в которой один элемент равен единице, а остальные — нули.
Если слова текста представить такими матрицами, то конкатенация (объединение с сохранением порядка) слов и текстов становится операцией сложения матриц.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Скиллы для промышленных проектов Data Science
#почитать
⏱ Читать статью
#почитать
К дата-аналитике мы пришли с появлением предиктивных моделей, цель которых — прогнозировать события или переменные на основе исторических данных. Чтобы создать модель, их нужно проанализировать и предобработать.
Первоначально этим занимались специалисты Data Science, но, оптимизируя процессы, мы решили попробовать подход, когда все задачи по анализу данных будут закреплены за отдельным специалистом. Так появились дата-аналитики. Но проектов, где нужен анализ данных и предиктивная аналитика, оказалось не так много, чтобы мы могли их полноценно загрузить. Поэтому решили вернуться к предыдущей концепции, когда анализом данных занимается DS.
В таких проектах бизнес-аналитик сначала изучает предметную область, помогает сформулировать потребности и задачи клиента к анализу данных, передаёт это DS — и тот выполняет свою часть. На практике стало понятно, что BA нужно хорошо ориентироваться в переданных данных, а это тоже предполагает анализ.
Поэтому мы решили попробовать подход, когда задачи по анализу данных разделены между BA и DS. Для этого потребовалось обучить бизнес-аналитиков. Вместе с DS мы придумали, как будет выглядеть разделение по задачам, какие навыки нам нужны, — и они нас обучили.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Как научить Transformer обрабатывать длинные тексты
#почитать
⏱ Читать статью
#почитать
Стоит отметить, что в задачах генерации короткого текста по длинному контексту хорошо показывают себя и модели на основе декодировщика Transformer, и полный Transformer. Но если речь идёт о задачах типа суммаризации, то при фиксированных размерах моделей лучше могут справиться именно полные Transformer-ы.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Методы работы со смещением и дисперсией в моделях машинного обучения
#почитать
Переобучение и недообучение – это Сцилла и Харибда в ML, между которыми нужно лавировать. С тех давних времен появилось множество методов для решения этой проблемы. Рассмотрим их кратко.
⏱ Читать статью
#почитать
Переобучение и недообучение – это Сцилла и Харибда в ML, между которыми нужно лавировать. С тех давних времен появилось множество методов для решения этой проблемы. Рассмотрим их кратко.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍1
Приручаем нейросети
#почитать
⏱ Читать статью
#почитать
Сегодня будем говорить и применять новые инструменты для создания RAG, улучшим качество наших результатов относительно прошлой статьи за счет использования других моделей для embeddings. Также затронем использование трушной векторной БД Chroma.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥1
Дифференциальная приватность в машинном обучении
#почитать
Концепция дифференциальной приватности впервые появилась в начале 2000-х. Она позволяет проводить анализ данных, сохраняя информацию о личности индивидов неприкосновенной. В машинном обучение это означает возможность обучать модели, делающие общие выводы, не раскрывая информацию о конкретных индивидах в наборе данных.
⏱ Читать статью
#почитать
Концепция дифференциальной приватности впервые появилась в начале 2000-х. Она позволяет проводить анализ данных, сохраняя информацию о личности индивидов неприкосновенной. В машинном обучение это означает возможность обучать модели, делающие общие выводы, не раскрывая информацию о конкретных индивидах в наборе данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2