Data Scientist | IT – Telegram

Data Scientist | IT

@datascience_it

1.94K subscribers

651 photos

3 videos

1 file

707 links

Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia

Download Telegram

About

Blog

Apps

Platform

Data Scientist | IT

1.94K subscribers

Data Scientist | IT

LLM будут врать вечно

#почитать

Статья под говорящим названием «Большие языковые модели всегда будут галлюцинировать, и нам придется жить с этим» выдвигает смелый тезис: галлюцинации в ИИ неизбежны из-за самого принципа устройства этих систем. Авторы утверждают, что независимо от того, насколько мы усовершенствуем ИИ — будь то улучшение архитектуры, увеличение объема данных или более умная проверка фактов — определенный уровень галлюцинаций всегда будет присутствовать.

Их аргументация основана на математической теории. Используя концепции из теории вычислений и теоремы Гёделя о неполноте, исследователи показывают, что некоторые ограничения непреодолимы.

Авторы выстраивают свою позицию через серию математических выкладок, каждая из которых демонстрирует неизбежность галлюцинаций в природе больших языковых моделей. В конце статьи обсуждаются практические и этические последствия этого факта.

Если они правы, нам придется пересмотреть свои цели в отношении ИИ-систем, — особенно в том, что касается достижения их полной надежности.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

301 views10:32

Data Scientist | IT

Фичи в парламент: еще один подход оценить важность признаков в древесных анcамблях

#почитать

Признаки, которыми орудует модель ИИ, в чём-то похожи на группы лиц, соединяющихся, чтобы сыграть в игру и выйграть максимально много. Этой идеей в задаче оценки важности коэффициентов в модели вдохновлен метод SHAPley values, который объективно обладает рядом хороших свойств. Теперь он не один! Про метод, основанный на идее выборов в парламент в этой статье.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

294 views05:02

Data Scientist | IT

Стеклянный потолок в развитии генеративных моделей

#почитать

Некоторые компании, включая OpenAI, начали экспериментировать с обучением на синтетических данных (созданных другими моделями). Все бы хорошо, но и здесь проблема. Получившая синтетические данные LLM может начать генерировать однообразные шаблонные фразы или структуры. Это связано с тем, что модели при формировании ответов стремятся выбирать самые вероятные или часто встречающиеся словосочетания из своего обучающего набора. В итоге новичок теряет способность создавать оригинальные и нестандартные ответы. Как OpenAI собирается избежать этого, вопрос открытый.

Другие команды надеются, что будущие модели смогут масштабироваться за счет улучшения логических способностей, а не накопления знаний из новых данных. Но некоторые исследования показывают, что современные «модели рассуждений» легко сбиваются на ложных задачах. Также изучаются методы «дистилляции знаний», при которых крупные «учительские» нейросети могут обучать «студентов» с относительно небольшим набором информации.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

278 views05:18

Data Scientist | IT

Оптимизируем дообучение LLM: теория + гайд

#почитать

Что такое fine tuning

Основные методы оптимизации файнтюнинга LLM

Применение библиотек transforemers и unsloth для файнтюнинга и его оптимизации на примере практического кейса

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

281 views10:32

Data Scientist | IT

Предсказываем стоимость логистики грузоперевозок

#почитать

Перевозка грузов является одной из важных сфер бизнеса, особенно в странах, имеющих большое транзитное значение, таких как Казахстан. При этом тарифы на перевозку, хоть и играют решающую роль при оценке доходности логистического бизнеса, весьма непрозрачны и зависят от большого количества факторов. В этих условиях кажется логичным построение модели, позволяющей с хорошим приближением предсказывать стоимость перевозки груза в зависимости от его параметров, условий перевозки, а также начального и конечного пунктов. В данном посте будут описаны основные этапы построения такой модели.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

281 views10:52

Data Scientist | IT

Реализация подобия Apple Vision Pro

#почитать

Не так давно я был свидетелем запуска Apple Vision Pro. Презентация оказалась очень интересной, но больше всего моё внимание зацепила одна деталь — дистанционное управление вводом с помощью пальцев. Выглядит очень интуитивно — использовать перемещение и сведение пальцев для управления курсором на экране. Меня этот механизм заинтриговал, и я решил воссоздать его сам.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥1

315 views05:02

Data Scientist | IT

Deepseek: лезем в голову к GPT-модели и смотрим, как она рассуждает

#почитать

Попробовать можно тут: chat.deepseek.com. Регистрация по гуглоаккаунту бесплатная, умная модель с цепочкой по переключателю под полем ввода, 50 запросов в день.

Предыдущая модель с цепочкой размышлений была ChatGPT o1 preview. Она решает некоторые задачи сильно лучше стандартной модели за счёт того, что разбивает процесс на шаги и делает много попыток решения. Но она не показывает, что творится под капотом.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥2❤1

322 views10:49

Data Scientist | IT

Полное руководство по оценке компонентов системы RAG

#почитать

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

319 views10:50

Data Scientist | IT

Нейронные сети в архитектурном проектировании

#почитать

Наша команда разрабатывает инструменты с нуля, начиная с системы команд и CAD-инструментария. Поэтому мы полностью автономны в реализации и развитии продукта — в том числе, в области экспериментов с машинным обучением и нейронными сетями. Это актуально в связи со сложностью решаемых задач на этапах проектирования. Существующих методов автоматизации и алгоритмизации процессов, не включающие в себя нейронные сети, недостаточно для их решения. Они способные покрывать лишь частные случаи.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤1👍1

274 views10:51

Data Scientist | IT

KAN 2.0: Kolmogorov-Arnold Networks Meet Science

#почитать

Предлагаю полный перевод второй статьи на тему нейронных сетей на основе алгоритма Колмогорова-Арнольда (KAN), опубликованной в августе 2024 года. В этой работе исследователи продолжают развивать тему KAN, раскрывают ее связь с наукой, а также приводят некоторые практические советы по использованию библиотеки pykan, написанной на python, в которой реализован алгоритм KAN.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

292 views04:53

Data Scientist | IT

Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги

#почитать

Место расположения банкомата подбирается как раз в зависимости от его типа. Например, банкоматы Cash OUT могут ставить под зарплатные проекты или рядом с рынками, а RCL ставят в местах более оживленных, типа торговых центров или отделений. Наиболее интересными и важными для банка являются именно RCL банкоматы, поэтому при решении задачи мы сосредоточились на них.

В данной статье не будем останавливаться на устройстве банкоматов, тем более, что на эту тему есть много статей. Здесь я расскажу о том, как мы разработали алгоритм, подбирающий сумму денег и момент инкассации. Естественно, что до нас подобный алгоритм уже существовал и очень хорошо работал, иначе банкоматы были бы бесполезны. Но у него была пара моментов, которые требовали улучшения.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

289 views05:25

Data Scientist | IT

У нас тоже есть системный промпт, контекст и всё остальное

#почитать

Можно ли найти что-то подобное понятию «системный промпт» у людей?

Да сколько угодно.

То, как мы сами себя определяем в жизни, наша самоидентификация. Она формируется постепенно в процессе жизни и сильно связана с нашей моделью мира. Это роль, которую мы сами играем. Точнее, это детальное описание этой роли, которое сформировалось и укоренилось глубоко в нашем сознании. С помощью методов психоанализа можно в какой‑то степени извлечь этот наш системный промпт и изучить его. Это базовый системный промпт, но он может быть дополнен и другими.

Например, люди творческих профессий, такие как актеры театра и кино, способны на время перевоплощаться в своих героев, играя заданные роли. У них системный промпт формируется режиссером и сценаристом. Получается очень убедительно, и даже сами актеры искренне и глубоко вживаются в свои роли, становясь на время «другими» личностями.

Вот еще одна яркая демонстрация системного промпта у людей — гипноз. Особенно эффектно это работает на эстраде, когда человеку на сцене дают установку, например, что он моряк и находится на корабле, который сильно качается на волнах. В это время человек полностью подчинен этому системному промпту: он становится моряком на корабле в океане и начинает жить жизнью моряка и выполняет любые указания гипнотизера, который волен менять системный промпт человека любым образом.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤1👍1

321 views10:42

Data Scientist | IT

Как мы создали LLM-модель Cotype Nano

#почитать

В этой статье мы расскажем про дроп трех маленьких моделей Cotype-Nano, Cotype-Nano-4bit и Cotype-Nano-CPU. Расскажем, как нам удалось достичь 1 места на RuGeneralArena в своей весовой категории.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

242 views10:55

Data Scientist | IT

Генерируем презентации с помощью GigaChat и Kandinsky

#почитать

Мы решили проверить, насколько современные LLM и модели генерации изображений могут тут облегчить нам жизнь, учитывая, насколько мощно они продвинулись в последние годы. Для этого мы собрали MVP на базе GigaChat-Max и Kandinsky 3.1, принимающий на вход текстовый запрос и количество слайдов и генерирующий файл презентации в формате .pptx.

Для первого подхода к снаряду мы сформировали относительно простой базовый конвейер, который включает в себя генерацию заголовков и текстов слайдов с помощью GigaChat с последующей генерацией изображений с помощью Kandinsky. В итоге весь синтезированный контент наполняет слайды презентации по несложным шаблонам. Далее мы расскажем обо всех шагах подробно и покажем, что получилось. Но если вам не очень хочется читать и уже хочется что-нибудь сгенерировать, то мы подняли space на Hugging Face.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2❤1

254 views05:05

Data Scientist | IT

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

#почитать

Зачем нам свой токенизатор?
Согласитесь, стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

260 views10:59

Data Scientist | IT

Вопросы на собеседовании ML Team Lead

#почитать

Если вы читаете это, значит, вы, как и я когда‑то, собираетесь пройти собеседование на позицию ML Team Lead. Или возможно, вы просто интересуетесь тем, что происходит по ту сторону баррикад. В любом случае, давайте поговорим о том, какие вопросы могут задать на таком собеседовании, и как на них отвечать так, чтобы у интервьюеров не осталось сомнений в вашей компетенции.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

313 views05:04

Data Scientist | IT

Дообучаем языковую модель GPT2 с помощью Torch

#почитать

В качестве данных я возьму dataset QuyenAnhDE/Diseases_Symptoms с Huggiface. Этот dataset представляет собой небольшой (400 строк) набор болезней, их симптомов и лечение. Я буду использовать только заболевание и его симптомы. То есть на вход модели будет подаваться заболевание, на выходе модель должна написать симптомы. Вы можете использовать обратную логику ввода/вывода, добавить в обучение столбец с лечением.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍1

329 views05:02

Data Scientist | IT

Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

#почитать

Именно трансформер изменил индустрию искусственного интеллекта и сделал ее такой мощной, какой мы видим ее сейчас. До 2017 года, пока исследователи из Google Brain не изобрели эту архитектуру, краеугольным камнем ИИ-индустрии был поиск подходящего строения модели. Теперь же перед учеными стоят, в основном, другие задачи, а вот об архитектуре компании и ресерчеры почти не думают: ведь есть трансформер!

Вот так говорит об этой архитектуре знаменитый Андрей Карпаты – бывший ML-директор Tesla, сооснователь и бывший главный ученый OpenAI: "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов. Я верю, что трансформер лучше человеческого мозга во многих отношениях."

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

313 views05:03

Data Scientist | IT

Восстание DeepSeek: что не попало в заголовки новостей

#почитать

Недавние публикации об ИИ-моделях компании DeepSeek посвящены, в основном, двум моментам. Первый — эти модели гораздо лучше, чем другие, показывают себя в тестах. Второй — они обходят другие модели в плане эффективности работы. Эти достижения достойны внимания, они несут определённые политические последствия (ниже мы поговорим об этом подробнее). Но дело в том, что реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее, чем это представлено во многих материалах. Вот несколько важных вопросов, которые заслуживают более пристального внимания.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥1

292 views10:42

Data Scientist | IT

Show and Tell

#почитать

Реализация одной из самых ранних моделей нейронного генератора подписей к изображениям с помощью PyTorch.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥1

270 views05:06

Data Scientist | IT

Как LLM может валидировать данные

#почитать

Data Quality (DQ) — это набор характеристик, определяющих целостность, точность и пригодность данных для их использования в бизнес-процессах и аналитике. Высокое качество данных критически важно для достижения эффективного принятия решений, так как оно напрямую влияет на результаты анализа и позволяет организациям более точно интерпретировать информацию.

Существует множество инструментов для обеспечения качества данных (Data Quality), и они могут варьироваться по функциональности и целям, мы используем питоновский фреймворк soda. Если кратко, то soda — это open-source проект для проверки качества данных. Под капотом — собственный язык проверок SodaCL (Soda Check Language), чеки прописываются в файле YAML в интуитивно понятной форме.

⏱

Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👍2👌1

317 views10:40