Data Scientist | IT – Telegram

Data Scientist | IT

@datascience_it

1.94K subscribers

651 photos

3 videos

1 file

707 links

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Download Telegram

About

Blog

Apps

Platform

Data Scientist | IT

1.94K subscribers

Data Scientist | IT

ML в оценке кредитных рисков

#почитать

Эта система рассчитывает балл на основе информации о клиенте и выдает ответ «выдать» или «не выдать» кредит. Но традиционные кредитные модели исключают значительную часть населения, которая не набрала внушительной кредитной истории или просто имеет слишком мало данных для оценки. По данным TransUnion, США более 45 миллионов человек «невидимы» для кредитных систем. В других странах доля людей, находящихся за пределами внимания кредитных бюро, еще выше. В Индии количество таких «невидимок» составляет почти 63%, в ЮАР 51%, а в Гонконге 16%. И тут в игру вступает ML.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

274 views04:59

Data Scientist | IT

ООП для типовых ML задач

#почитать

В данной статье НЕ будет идти речи о способах построения продвинутых моделей с различными наворотами. Рассказ пойдет о том, как автоматизировать построение типовой модели.

Дело в том, что в отличие от задач из учебника, в реальной работе зачастую приходится строить много вариантов модели, делать различную сопутствующую аналитику. Может варьироваться: таргет, период для семпла разработки (если имеем дело с историческими данными), добавляются разбивки на канал продаж или ещё какие-либо продуктовые разбивки. Также возможен сценарий, что на последнем этапе, когда заказчику представили модель , решили исключить некоторую фичу. Соответственно, нужно заново прогонять часть расчетов. При этом хочется от каждого варианта расчёта сохранить результаты.

Полагаю, что по этому описанию многим на ум уже пришло слово AutoML. Да, пожалуй по смыслу подходит. Однако я предлагаю рассмотреть более узкую задачу, а именно "как это все запрогать, чтобы не утонуть в море кода". Здесь мне на помощь как раз придет ООП.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2❤1

333 views05:02

Data Scientist | IT

Big Data мертвы, да здравствуют Smart Data

#почитать

Big Data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5👍2❤1

330 views05:01

Data Scientist | IT

Анализ тональности текста за 7 минут

#почитать

Анализ тональности помогает компаниям получать ценные инсайты из необработанных данных, таких как переписки с клиентами, упоминания в блогах и социальных сетях.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

284 views10:40

Data Scientist | IT

Топология в нейросетях

#почитать

Вот часто, когда слышишь про математику в ML, звучат только байесовские методы, производные, интерполяции, а еще иногда тензоры... Но математический аппарат в машинном обучении может уходить глубоко в корни даже, как кажется, совершенно фундаментальных и абстрактных направлений этой науки.

Сегодня мы немного коснемся TDA, топологического анализа данных. Постараемся писать просто. Чтобы даже самому неопытному студенту было понятно. Цель статьи заинтересовать, ведь TDA - авангардная штука. Но начать нужно с самой базы: "Зачем и для чего, да и что такое... эта ваша топология?"

Топология занимается исследованием свойств пространств, сохраняющихся при непрерывных деформациях. Первым здесь представляется теория "гравитации", искажения пространства-времени... В отличие от геометрии, где важны размеры и формы, топология концентрируется на свойствах, устойчивых к изменениям без разрывов и склеек.

Чтобы понять, что это означает, можно представить резиновый лист, который можно сгибать, растягивать, сжимать, но нельзя рвать или склеивать — те свойства, которые сохраняются при таких изменениях, и интересуют топологов.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🔥1

317 views05:06

Data Scientist | IT

Исследование опенсорс-инструментов в области ML/DS от ИТМО: выводы и инсайты

#почитать

Задались вопросом: куда мы уже пришли и как эта отрасль изменится в ближайшие годы. А чтобы на него ответить, провели масштабное аналитическое исследование open source ― посмотрели как разработки крупных компаний, так и университетов, поговорили с экспертами рынка и проанализировали выложенный на GitHub код. На Хабре уже выходила новость с перечнем основных игроков и некоторыми результатами.

В этой статье ― более подробные выводы и инсайты от экспертов ― как тех, что уже участвовали в исходном исследовании, так и тех, кто решил прокомментировать результаты уже после публикации.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2❤1

268 views05:12

Data Scientist | IT

Support Vector Machine для начинающих

#почитать

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2👌1

268 views10:40

Data Scientist | IT

Обзор платформы Kaggle для начинающих: от состязаний до менторской программы

#почитать

Kaggle.com — открытая площадка, на которой собрано огромное количество информации по Data Science и машинному обучению:

датасетов — больших наборов данных на какую-то тему, которые нужны для обучения модели;

«ноутбуков» — так называются записи с примерами кода или готовыми проектами, выложенными в открытый доступ;

моделей — готовых моделей для машинного обучения, в том числе нейросетевых.

Одна из ключевых функций Kaggle — организация соревнований по машинному обучению. Организаторами чаще всего выступают компании: они регистрируют на площадке новое состязание, а пользователи могут в них поучаствовать. Победители получают «медали», внутренние достижения Kaggle, и призы от организатора.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

348 views05:10

Data Scientist | IT

Линейная регрессия и её регуляризация в Scikit-learn

#почитать

В этой статье мы рассмотрим модели линейной регрессии, доступные в scikit-learn. Обсудим, что такое регуляризация, на примерах Ridge, Lasso и Elastic Net, а также покажем, как эти методы можно реализовать на Python.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

359 views10:40

Data Scientist | IT

Необычные вкусы покупателей: что такое товарные пары и как их исследовать

#почитать

с чем обычно покупают лапшу быстрого приготовления, а с чем — детское питание;

как география, время суток и другие факторы влияют на выбор покупателей;

как все эти полученные знания можно применить в ассортиментных матрицах дарксторов и бизнес-процессах ритейла.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍1

304 views05:17

Data Scientist | IT

Семантическая сегментация

#почитать

Если объяснять в двух словах, то это одна из ключевых задач в области компьютерного зрения, она помогает машинам отличать разные классы объектов и фоновые регионы на изображении.

Для семантической классификации мы выделяем каждый пиксель изображения, при этом каждый сегмент изображения соотносится с определенным классом. Например, на снимке с городским пейзажем модель выделяет здания, дороги, деревья и небо, причисляя каждый пиксель к своему классу. Это помогает машине «видеть» изображение так, как это делает человек, идентифицируя отдельные объекты и области.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2

324 views05:19

Data Scientist | IT

KAN модель

#почитать

Для начала вспомним, что собой представляет KAN с точки зрения математики. Эту часть мы попросили прокомментировать руководителя лаборатории композитного искусственного интеллекта ИТМО, кандидата физико-математических наук Александра Хватова.

― Во главе всего машинного обучения стоит некоторая модель, выражающая определенную функцию, например распознавание лица человека на изображении. Как правило, для сложных задач с изображениями это сверточная нейронная сеть, для более простых ― полносвязная нейронная сеть, для обработки временных рядов (того же предсказания погоды на следующие промежутки времени) ― сети с памятью.

В основе большинства существующих архитектур лежит многослойный перцептрон, предложенный еще в 50-60-х годах прошлого века ― во время первой весны искусственного интеллекта. Эта сущность хорошо изучена, уже сложилась определенная практика эффективных компьютерных вычислений. За прошедшие 50 лет перцептрон претерпевал некоторые эволюционные изменения ― мы перешли на более сложные модели, вроде LLM, но никакой революции с ним не происходило.

Авторы из MIT предложили отойти от этой классической архитектуры ― от многослойного перцептрона ― заменив его на KAN ― сети Колмогорова-Арнольда. Статья с этой идеей была опубликована в Arxiv.org. Ее влияние на научный мир оказалось действительно масштабным, по крайней мере, в части того, что множество научных групп взялись попробовать отойти от классического многослойного перцептрона. В первой статье от MIT есть своеобразная затравочка ― пример, как применить эту архитектуру для решения дифференциальных уравнений. Позже появились публикации о том, как KAN справляется с распознаванием изображений, прогнозированием временных рядов и так далее.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2🔥1

271 views10:20

Data Scientist | IT

LLM будут врать вечно

#почитать

Статья под говорящим названием «Большие языковые модели всегда будут галлюцинировать, и нам придется жить с этим» выдвигает смелый тезис: галлюцинации в ИИ неизбежны из-за самого принципа устройства этих систем. Авторы утверждают, что независимо от того, насколько мы усовершенствуем ИИ — будь то улучшение архитектуры, увеличение объема данных или более умная проверка фактов — определенный уровень галлюцинаций всегда будет присутствовать.

Их аргументация основана на математической теории. Используя концепции из теории вычислений и теоремы Гёделя о неполноте, исследователи показывают, что некоторые ограничения непреодолимы.

Авторы выстраивают свою позицию через серию математических выкладок, каждая из которых демонстрирует неизбежность галлюцинаций в природе больших языковых моделей. В конце статьи обсуждаются практические и этические последствия этого факта.

Если они правы, нам придется пересмотреть свои цели в отношении ИИ-систем, — особенно в том, что касается достижения их полной надежности.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

301 views10:32

Data Scientist | IT

Фичи в парламент: еще один подход оценить важность признаков в древесных анcамблях

#почитать

Признаки, которыми орудует модель ИИ, в чём-то похожи на группы лиц, соединяющихся, чтобы сыграть в игру и выйграть максимально много. Этой идеей в задаче оценки важности коэффициентов в модели вдохновлен метод SHAPley values, который объективно обладает рядом хороших свойств. Теперь он не один! Про метод, основанный на идее выборов в парламент в этой статье.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

294 views05:02

Data Scientist | IT

Стеклянный потолок в развитии генеративных моделей

#почитать

Некоторые компании, включая OpenAI, начали экспериментировать с обучением на синтетических данных (созданных другими моделями). Все бы хорошо, но и здесь проблема. Получившая синтетические данные LLM может начать генерировать однообразные шаблонные фразы или структуры. Это связано с тем, что модели при формировании ответов стремятся выбирать самые вероятные или часто встречающиеся словосочетания из своего обучающего набора. В итоге новичок теряет способность создавать оригинальные и нестандартные ответы. Как OpenAI собирается избежать этого, вопрос открытый.

Другие команды надеются, что будущие модели смогут масштабироваться за счет улучшения логических способностей, а не накопления знаний из новых данных. Но некоторые исследования показывают, что современные «модели рассуждений» легко сбиваются на ложных задачах. Также изучаются методы «дистилляции знаний», при которых крупные «учительские» нейросети могут обучать «студентов» с относительно небольшим набором информации.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

278 views05:18

Data Scientist | IT

Оптимизируем дообучение LLM: теория + гайд

#почитать

Что такое fine tuning

Основные методы оптимизации файнтюнинга LLM

Применение библиотек transforemers и unsloth для файнтюнинга и его оптимизации на примере практического кейса

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

281 views10:32

Data Scientist | IT

Предсказываем стоимость логистики грузоперевозок

#почитать

Перевозка грузов является одной из важных сфер бизнеса, особенно в странах, имеющих большое транзитное значение, таких как Казахстан. При этом тарифы на перевозку, хоть и играют решающую роль при оценке доходности логистического бизнеса, весьма непрозрачны и зависят от большого количества факторов. В этих условиях кажется логичным построение модели, позволяющей с хорошим приближением предсказывать стоимость перевозки груза в зависимости от его параметров, условий перевозки, а также начального и конечного пунктов. В данном посте будут описаны основные этапы построения такой модели.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

281 views10:52

Data Scientist | IT

Реализация подобия Apple Vision Pro

#почитать

Не так давно я был свидетелем запуска Apple Vision Pro. Презентация оказалась очень интересной, но больше всего моё внимание зацепила одна деталь — дистанционное управление вводом с помощью пальцев. Выглядит очень интуитивно — использовать перемещение и сведение пальцев для управления курсором на экране. Меня этот механизм заинтриговал, и я решил воссоздать его сам.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥1

315 views05:02

Data Scientist | IT

Deepseek: лезем в голову к GPT-модели и смотрим, как она рассуждает

#почитать

Попробовать можно тут: chat.deepseek.com. Регистрация по гуглоаккаунту бесплатная, умная модель с цепочкой по переключателю под полем ввода, 50 запросов в день.

Предыдущая модель с цепочкой размышлений была ChatGPT o1 preview. Она решает некоторые задачи сильно лучше стандартной модели за счёт того, что разбивает процесс на шаги и делает много попыток решения. Но она не показывает, что творится под капотом.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2❤1

322 views10:49

Data Scientist | IT

Полное руководство по оценке компонентов системы RAG

#почитать

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

319 views10:50

Data Scientist | IT

Нейронные сети в архитектурном проектировании

#почитать

Наша команда разрабатывает инструменты с нуля, начиная с системы команд и CAD-инструментария. Поэтому мы полностью автономны в реализации и развитии продукта — в том числе, в области экспериментов с машинным обучением и нейронными сетями. Это актуально в связи со сложностью решаемых задач на этапах проектирования. Существующих методов автоматизации и алгоритмизации процессов, не включающие в себя нейронные сети, недостаточно для их решения. Они способные покрывать лишь частные случаи.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤1👍1

274 views10:51