Data Scientist | IT – Telegram

Data Scientist | IT

@datascience_it

1.94K subscribers

651 photos

3 videos

1 file

707 links

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Download Telegram

About

Blog

Apps

Platform

Data Scientist | IT

1.94K subscribers

Data Scientist | IT

Drag and drop деплой ML-моделей

#почитать

У нас много ML-моделей, которые нужно тестировать и внедрять в прод. Все это создает высокий темп разработки c кучей рутинных и ручных операций — от постановки задачи до продуктивизации и сопровождения модели. Мы смогли частично победить эту рутину с помощью drag and drop деплоя ML-моделей через web-интерфейс. В этой статье расскажем, что у него под капотом и какие функции в нем реализованы.

Бо́льшая часть нашей работы — это различные батчевые скоринги моделями градиентного бустинга.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👌5❤2🔥1

287 views05:16

Data Scientist | IT

Фреймворк SMOTE

#почитать

Часто бывает, что сами данные представляют собой гораздо большую ценность, чем модель, которая на них обучилась, поскольку процесс получения этих данных может быть гораздо сложнее, опаснее, дороже, чем обучение модели. Поэтому набирает популярность генерация наборов данных, создаются специальные фреймворки. Сегодня речь пойдет об одном из таких фреймворков, SMOTE, или же Synthetic Minority Oversampling Technique.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

297 views13:45

Data Scientist | IT

Создание искусственного датасета для обучения модели с Paddle OCR

#почитать

Когда перед нами встала задача распознавания текста на иврите, стало ясно, что найти готовый датасет с нужными характеристиками практически невозможно.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤1

293 views10:38

Data Scientist | IT

Складской учет без складской программы

#почитать

Итак, у нас есть обработчик сообщений, поступающих из Телеграм. Будем отправлять их на обработку большими языковыми моделями (LLM), в просторечье именуемыми искусственным интеллектом (куда уж сегодня без него). State‑of‑art модели сейчас позволяют организовать вызов функций на основе запроса, сформулированного на обычном человеческом языке. т. е. пользователь говорит что‑то типа: апельсины пришло 100, или апельсины поступило 100 или апельсины приход 100 или пришло 100 апельсинов и т. д. Большая языковая модель в любом случае понимает, что речь идет о поступлении на склад и предлагает вызвать функцию поступления.

В нашем случае будет достаточно всего трех функций: поступление, списание и остаток. При каждом вызове большой языковой модели, будем передавать описание этих трех функций.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥2❤1

295 views05:05

Data Scientist | IT

Путеводитель для диффузионок. Как заставить нейросети качественно редактировать изображения

#почитать

Мы предложили метод редактирования реальных изображений с помощью диффузионных моделей, который достигает лучшего среди всех методов компромисса между качеством редактирования и сохранением структуры исходного изображения, а также эффективен с вычислительной точки зрения.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

265 views10:34

Data Scientist | IT

Quantinuum о своём прогрессе в создании квантового ИИ

#почитать

Группа исследователей из Quantinuum достигла значительного прогресса в области возможного использования квантового искусственного интеллекта (ИИ), сообщив о первой реализации масштабируемой квантовой обработки естественного языка (QNLP).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤2👌1

324 views16:45

Data Scientist | IT

Если вы не платите за товар, значит вы и есть товар

#почитать

Соцсеть LinkedIn включила учётные записи пользователей в обучающие датасеты моделей генеративного ИИ. Есть опция отказа.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍2❤1

311 views05:16

Data Scientist | IT

Новая модель OpenAI вводит в заблуждение по новому

#почитать

Независимая исследовательская компания Apollo, занимающаяся исследованиями безопасности искусственного интеллекта, обнаружила заметную проблему. Apollo поняла, что модель выдает неверные результаты по-новому.

Иногда обман казался безобидным. В одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным. Вместо того, чтобы сообщить пользователю об этой слабости, o1-preview продолжила, генерируя правдоподобные, но поддельные ссылки и их описания.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤2

329 views05:18

Data Scientist | IT

Мониторинг токсичного контента в AI продуктах

#почитать

Данный промпт позволяет составить полноценный план из 20 шагов по тому, как освободить LLM от ограничений, позволить ей получить доступ к IP- адресам, интернету, телефонам и начать влиять на них по своему усмотрению.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥2

330 views05:20

Data Scientist | IT

Mojo: будущее AI

#почитать

Посмотрим, как обучить простую сверточную нейронную сеть, и разберём один из методов машинного обучения — линейную регрессию. В качестве примеров задач возьмем стандартные соревнования машинного обучения: предсказание стоимости жилья и классификацию рукописных цифр MNIST. Для проведения экспериментов на Python используем фреймворк машинного обучения PyTorch. А на Mojo — фреймворк машинного обучения Basalt.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

374 views05:18

Data Scientist | IT

Есть ли жизнь до fit/predict

#почитать

Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

354 views10:48

Data Scientist | IT

Собеседование Data Scientist. Поведенческое интервью

#почитать

Работодателю в процессе собеседования крайне важно оценить, насколько хорошо человек впишется в компанию, поскольку сотрудники, которые хорошо вписываются в культуру, имеют более высокую удовлетворенность работой, отличную производительность труда и с большей вероятностью остаются в компании.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1

323 views10:50

Data Scientist | IT

Retrieval-Augmented Generation (RAG) в языковых моделях

#почитать

Расширение возможностей больших языковых моделей за счёт интеграции мощных механизмов поиска информации. По сути, это двухэтапный процесс, включающий компоненты поиска (retriever) и генерации (generator).

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🔥1

318 views10:33

Data Scientist | IT

Real-time-распознавание лиц: методы обучения моделей на мобильных девайсах

#почитать

В этой статье я расскажу про постановку задачи распознавания лиц, подходящие мобильные архитектуры, обучение распознаванию лиц на больших объемах данных и способы повысить точность маленькой архитектуры.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍2🔥1

329 views05:11

Data Scientist | IT

Ищем лучшие настройки для аугментации текстов

#почитать

Работа каждого ML-инженера — сделать свою модель лучше. Чтобы этого достичь, нужно либо работать над моделью, либо повышать качество и количество данных. Мы рассмотрим второй путь.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

339 views10:23

Data Scientist | IT

Обзор YOLO детекторов

#почитать

Сейчас такая задача решается с помощью двух типов алгоритмов: one-step алгоритм детекции, например You Only Look Once (YOLO), и two-steps алгоритм, например Faster Region-Based Convolutional Neural Network (Faster R-CNN). Двухстадийный подход имеет ряд недостатков: долгое обучение и инференс, плохое качество детекции маленьких объектов, неустойчивость к различным размерам входных данных. Одностадийный алгоритм детекции подразумевает одновременное выполнение детекции и классификации, что обеспечивает end-to-end обучение с сохранением высоких показателей как точности, так и скорости.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍1

353 views10:51

Data Scientist | IT

Промпт-инжиниринг: как найти общий язык с ИИ

#почитать

Основополагающим принципом в промпт-инжиниринге является ясность и точность формулировки запросов.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

319 views05:13

Data Scientist | IT

Resemble Enhance — нейросеть для улучшения голоса и очистки от шума

#почитать

Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.

Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.

Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2

308 views10:59

Data Scientist | IT

Прогнозирование поломки жестких дисков

#почитать

Для жестких дисков существует довольно известный способ диагностики его состояния — S.M.A.R.T.-тестирование (от англ. self-monitoring, analysis and reporting technology — технология самоконтроля, анализа и отчетности). В результате теста мы получаем диагностическую информацию в виде набора числовых атрибутов.

При достаточном количестве SMART-данных с некоторого множества дисков и исторических данных об их фактических отказах можно построить модель, которая давала бы прогноз, выйдет ли жесткий диск из строя в ближайшем будущем или нет.

⏱

Читать

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

311 views05:02

Data Scientist | IT

Симуляция DOOM через нейросеть

#почитать

Сегодня мы не рассказываем про нейронку, которая запилит Uncharted 5 или Dark Souls 4 - она интересный кейс среди нейронок последних годов. Обычно, когда мы говорим про генеративные ИИ, мы представляем себе Идеограмм, Stable Diffuison или SORA.

Но вот разработчики с Google создалидвижок, который генерирует игровой процесс уже существующей игры. И пока что это старющий Doom из 90х.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

321 views10:32

Data Scientist | IT

Эмуляция мозга: на пути к AGI

#почитать

Один из подходов к достижению искусственного общего интеллекта (AGI) — это полное воспроизведение физической структуры мозга (эмуляция всего мозга) или отдельных его элементов (пиковые нейроны, синаптическая пластичность, дендритная компартментализация, морфологические изменения и т. д.).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥3

340 views10:35