Data Scientist | IT – Telegram

Data Scientist | IT

@datascience_it

1.94K subscribers

651 photos

3 videos

1 file

707 links

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Download Telegram

About

Blog

Apps

Platform

Data Scientist | IT

1.94K subscribers

Data Scientist | IT

I в LLM означает Intelligence

#почитать

Я уже давно ничего не писал об ИИ или о том, как мы (не) используем его для разработки в нашем проекте curl.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2

324 views10:40

Data Scientist | IT

Реализуем машинное обучение на сервере с помощью Swift

#почитать

Ни для кого не секрет, что Apple стремится двигать свою экосистему в сторону извлечения максимальной выгоды путем переноса мощных процессов машинного обучения на устройства пользователей. Core ML предлагает молниеносную производительность. Однако новые технологии, связанные с генеративными алгоритмами, несколько усложняют ситуацию: зачастую эти модели достаточно тяжелы и требуют значительных затрат ресурсов для работы на устройстве.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

301 views10:56

Data Scientist | IT

Я больше не верю публичным датасетам

#почитать

Когда я прочитал новость о том, что исследователи MIT обнаружили вплоть до 10% ошибок в разметке самых популярных датасетов для обучения нейросетей, то решил, что нужно рассказать и о нашем опыте работы с публичными датасетами.

Уже более пяти лет мы занимаемся анализом сетевого трафика и машинным обучением моделей обнаружения компьютерных атак. И часто используем для этого публичные наборы обучающих данных.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥2❤1

299 views05:04

Data Scientist | IT

Дообучение LLM с помощью Supervised Fine-Tuning

#почитать

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

306 views10:46

Data Scientist | IT

Основы фреймворка Combine для ML в Swift

#почитать

Combine — это фреймворк, представленный Apple в 2019 году, предназначенный для работы с асинхронными потоками данных на платформе Swift. Основная задача Combine заключается в том, чтобы упростить и унифицировать обработку асинхронных событий, таких как сетевые запросы, таймеры, уведомления и пользовательские действия.

Фреймворк является частью экосистемы Swift и доступен начиная с iOS 13, macOS 10.15, watchOS 6.0 и tvOS 13.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥2

359 views10:44

Data Scientist | IT

🍳

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5😁3

366 views10:36

Data Scientist | IT

Нейронные оптимизаторы запросов в реляционных БД

#почитать

В 1970-х годах известный программист Эдгар Кодд разработал математически выверенную теорию организации данных в виде таблиц (реляций). С тех пор утекло немало воды — появилось большое количество различных коммерческих и open-source реляционных систем управления базами данных (РСУБД). Скоро стало понятно, что эффективное получение данных из базы — задача далеко не тривиальная. Если говорить прямо, она нелинейная и в общем случае NP-сложная.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2❤1

276 views10:33

Data Scientist | IT

Рой: оптимизация на Python с помощью PSO

#почитать

Что считать "оптимальным" в природе? Что является наилучшим для отдельной особи и для всей группы? Не являясь биологом, я не могу дать ответы на эти вопросы. Однако, наблюдая за подобным поведением в природе, мы можем разработать эффективный алгоритм оптимизации. Другими словами, определив критерии "оптимальности", мы можем применить этот эволюционный подход для оптимизации заданной функции. Данный алгоритм известен как оптимизация роем частиц (Particle Swarm Optimization, PSO).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

291 views10:29

Data Scientist | IT

Алгоритм управления доставкой по расписанию и динамический прайсинг

#почитать

Алгоритм плохо работал при дисбалансе партнеров (например, когда курьеров, было сильно больше, чем сборщиков). Для решения этой проблемы мы разделили показатель нагрузки. Раньше это был один surge-level, теперь показателя два: по одному на сборку и доставку. Все действия алгоритма основаны на наибольшем из двух показателей.

Кроме того, каждая из тысячи точек обладает целым рядом уникальных особенностей. Чтобы алгоритм подстраивался под них, мы настроили простой механизм адаптации параметров его работы, по духу похожий на Reinforcement Learning.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥2❤1

329 views05:16

Data Scientist | IT

Задачи транспортной видеоаналитики

#почитать

Сейчас в нашей команде четыре человека, и мы ведем продукт для транспортной видеоаналитики.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1

289 views10:35

Data Scientist | IT

Как нейросети выдают кредиты

#почитать

Ни для кого не секрет, что в современном мире лимит кредитной карты начисляет не банковский сотрудник, но нейросеть или попросту алгоритм машинного обучения.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

317 views05:05

Data Scientist | IT

ML для анализа ЭЭГ: ищем эпилептические приступы

#почитать

Negative mining — это метод, применяемый в машинном обучении для улучшения качества классификации. Он заключается в том, что модель чаще видит негативные примеры (те, которые не относятся к целевому классу), которые она ошибочно классифицирует как положительные. Эти "трудные" негативные примеры получают больший вес при обучении, что заставляет модель более тщательно их анализировать и различать от положительных примеров.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2❤1

307 views10:34

Data Scientist | IT

Оценка LLM с большим окном контекста

#почитать

Недавно у нас получилось достичь уровня gpt-4 на собственном ограниченном датасете большого контекста.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2

300 views10:22

Data Scientist | IT

Действительно ли большие языковые модели галлюцинируют

#почитать

Если дать более строгое определение термину «галлюцинация», наш эксперимент показал, что на большом количестве вопросов вероятность галлюцинаций очень мала — порядка 6%. При этом фактологически неверные ответы составляют чуть больше трети (35%) от общего числа.

А значит, при построении систем на основе генеративных моделей нужно в первую очередь уделять внимание фактологически неверным ответам. И важно не путать их с галлюцинациями. Находить последние можно с помощью простейшего порогового алгоритма — в нашем примере мы построили его на базе метрики BERTScore-Precision.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥2🙏1

336 views05:08

Data Scientist | IT

Полный цикл отбора на стажировку в Яндекс (Аналитика, МЛ, Бэкенд)

#почитать

Мне хватило 4 задач из 6. Первую и пятую мне решил ГПТ

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

344 views10:27

Data Scientist | IT

Рецепт идеальной разметки в Computer Vision

#почитать

Расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2🔥1

310 views05:10

Data Scientist | IT

Пайплайн распознавания транспортных средств: как это работает

#почитать

Чтобы решить поставленную задачу, иногда достаточно задетектировать и распознать только номер — например, в кейсе шлагбаума придомовой территории. Но я расскажу про пайплайн (многошаговый алгоритм), который анализирует транспортное средство целиком. Чтобы фиксировать и валидировать нарушения правил дорожного движения, назначать плату за проезд, разыскивать угнанные автомобили и в целом для большинства кейсов из предыдущего поста, нам мало одного номера и кадра, с которого он взят. Важна вся история перемещения транспортного средства, поэтому без пайплайна не обойтись.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤1

333 views05:09

Data Scientist | IT

Как с минимальными ресурсами улучшить качество дообучения LLM

#почитать

Допустим, нужно обучить модель работать с технологией RAG или с помощью LLM генерировать инсайты по нашим данным. Как это сделать быстро, дешево и сердито?

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥2

285 views05:12

Data Scientist | IT

ИИ и векторный поиск в Azure Cosmos DB для MongoDB vCore

#почитать

Недавно Microsoft объявила о внедрении функциональности векторного поиска в Azure Cosmos DB для MongoDB vCore. Эта функция расширяет возможности Cosmos DB, позволяя разработчикам выполнять сложные поиски по сходству в многомерных данных, что особенно полезно в приложениях на основе RAG , системах рекомендаций, поиске изображений и документов и т. д.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

282 views05:07

Data Scientist | IT

Динамический шаг в танце feature selection

#почитать

Я практикующий дата-сайентист с опытом участия и судейства в чемпионатах по прогнозированию

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

287 views05:19

Data Scientist | IT

ML-генерация шрифтов

#почитать

История о том, как я с нуля осваивал создание генеративных моделей МО, попутно обучая компьютер создавать шрифты. Да, настоящие типографские шрифты, состоящие из набора заглавных глифов. Созданная мной модель получает на входе описание шрифта и создаёт на выходе файл с их готовым набором.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

280 views05:11