Data, Stories and Languages

https://ea.rna.nl/2024/05/27/when-chatgpt-summarises-it-actually-does-nothing-of-the-kind/

tldr: LLM могут сильно искажать факты при саммаризации сложных вещей вплоть до полностью противоположных выводов

R&A IT Strategy & Architecture

When ChatGPT summarises, it actually does nothing of the kind.

One of the use cases I thought was reasonable to expect from ChatGPT and Friends (LLMs) was summarising. It turns out I was wrong. What ChatGPT isn’t summarising at all, it only looks like it…

👍3🔥1

831 views08:53

Data, Stories and Languages

Yet another sample size calculator

Я сегодня увидел на reddit неплохой тред с примером расчёта sample size для A/B тестов. Думаю, что если считаешь для себя, то настолько накрученные штуки не нужны, но показать stakeholders - самое то.

Сам калькулятор можно пощупать тут.

#datascience

❤2👍1🔥1

1.15K views10:44

Data, Stories and Languages

Forwarded from Denis Sexy IT 🤖

Meta опубликовала новые модели Llama 3.1
https://llama.meta.com/

1) Теперь доступна модель размером в 405B, запустить у нас всех ее не получится (нужно промышленное железо) – про нее я напишу отдельно потом, как почитаю внятные тесты возможностей.

2) Помимо этого, Llama 3.1 вышла в 8B и 70B размерах, они поддерживают многоязычность и просто стали лучше в своих категориях, запускаться они смогут на том же железе где и работали прошлые версии.

Вы наверное теперь понимаете почему OpenAI показало gpt4o mini неделю назад и сделала ее настолько дешевой – скоро у нас будут очень умные модели, которые очень быстро работают на любом железе

Meta классно создает давление на OpenAI через опенсорс, Цукерберг красавчик

Industry Leading, Open-Source AI | Llama

Discover Llama 4's class-leading AI models, Scout and Maverick. Experience top performance, multimodality, low costs, and unparalleled efficiency.

👍8🔥2

926 views15:15

Data, Stories and Languages

DataChain от DVC

Пока многие обсуждают релиз LLama 3.1, поделюсь "приземленной" новостью. DVC выпустили продукт для управления неструктурированными данными.

🤖 AI-Driven Data Curation: Local models, LLM APIs
🚀 GenAI Dataset scale: Millions and billions of files
🐍 Python-friendly: Python objects instead of JSON

Github

#datascience

GitHub

GitHub - datachain-ai/datachain: Data context layer for unstructured data - images, video, sensor data, text and PDFs

Data context layer for unstructured data - images, video, sensor data, text and PDFs - datachain-ai/datachain

🔥10❤‍🔥2

1.13K views15:26

Data, Stories and Languages

IT-пикник. Благотворительность для Карельского регистра доноров костного мозга

Ко мне тут обратились с неожиданной просьбой - распространить информацию об IT-ивенте с возможностью сделать пожертвование для помощи людям.

В Москве 17 августа пройдёт IT-пикник в Коломенском. Это семейное IT мероприятие - будут лекции, мастер-классы, воркшопы, музыка. А также доклады от технических людей из топовых компаний. Посещение возможно по пожертвованию от 1к рублей в один из 10 благотворительных фондов, и Карельский регистр - один их них. Он занимается помощью пациентам с лейкемией и пожертвованные деньги пойдут на на оплату обследования доноров, каждый из которых может спасти жизнь.

При регистрации на сайте пикника вам прийдёт ссылка на пожертвования, и там можно будет выбрать этот фонд. Сам я посетить ивент не смогу, поэтому пожертвование сделал просто напрямую по этой ссылке.

Фестиваль выглядит интересным, и дополнительно есть возможность помочь людям, так что рекомендую поучаствовать.

#life #datascience

🔥10❤4

1.22K views12:02

Data, Stories and Languages

Closed-source vs open-weight models

🔥15❤1

1.29K views14:29

Data, Stories and Languages

Вы не поверите, но эта картинка уже устарела (меньше, чем за 2 часа) - вышел Mistral Large 2. Не то чтобы она побила рекорды, но всё же будет занимать уважаемое место на этом графике

https://mistral.ai/news/mistral-large-2407/

#datascience

mistral.ai

Large Enough | Mistral AI

Today, we are announcing Mistral Large 2, the new generation of our flagship model. Compared to its predecessor, Mistral Large 2 is significantly more capable in code generation, mathematics, and reasoning. It also provides a much stronger multilingual support…

😁15😱2

1.36K views15:51

Data, Stories and Languages

Есть два типа людей, запускающих LLM локально...

😁28🔥5😢1

1.65K views15:13

Data, Stories and Languages

For some reason I seem to enjoy “having a life outside of work” more than “spending every waking moment programming”

https://www.reddit.com/r/ExperiencedDevs/comments/1eddgwe/i_love_programming_at_work_but_dont_do_hobby/

😁16😢3

1.24K views15:58

Data, Stories and Languages

Masked Attention is All You Need for Graphs

GNNs и вариации message passing algorithm являются основными методами обучения на графах благодаря их гибкости, скорости и производительности. Однако их надо аккуратно тюнить. Авторы этой статьи предлагают простую альтернативу, основанную исключительно на attention.

В методе Masked Attention for Graphs (MAG) графы представлены как наборы узлов или ребер, а их связь обеспечивается благодаря masking the attention weight matrix, создавая кастомные паттерны для каждого графа.

MAG демонстрирует SOTA результаты на long-range задачах и показывает крутые результаты на 55+ разных задачах. Плюс, MAG лучше делает transfer learning и у него сублинейная масштабируемость памяти по числу узлов или ребер, что позволяет обучаться на dense graphs.

Выглядит весьма интересно. В карму авторов ставлю плюсик за то, что гоняют модели по 5 раз и показывают среднее и стандартное отклонение.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥15👍4

1.56K views04:54

Data, Stories and Languages

A Visual Guide to Quantization

На днях Maarten Grootendorst опубликовал шикарный гайд по квантизации. В нём раскрывает темы:
• что такое квантизация и зачем она нужна
• symmetric vs asymmentric quantization
• post-training quantization
• quantization aware training

Всё это с качественными пояснениями и отличными визуализациями. Рекомендую почитать тем, кто давно хотел разобраться в квантизации, но не доходили руки. Или для того, чтобы обновить знания.

Link

#datascience

Maartengrootendorst

A Visual Guide to Quantization

Exploring memory-efficient techniques for LLMs

🔥10👍2❤1

1.59K viewsedited 04:48

Data, Stories and Languages

torchchat: Accelerating Local LLM Inference on Laptop, Desktop and Mobile

Новая библиотека от разработчиков PyTorch - на этот раз для запуска LLM на ноутах, телефонах и десктопах.
https://pytorch.org/blog/torchchat-local-llm-inference/

#datascience

🔥15👍1

1.38K views06:13

Data, Stories and Languages

https://x.com/PWGTennant/status/1818917890948501788

😁18

1.34K views04:29

Data, Stories and Languages

Announcing the results of the inaugural AlgoPerf: Training Algorithms benchmark competition

Какое-то время назад объявили соревнование с целью найти алгоритмы тренировки, которые бы могли ускорять разные модели.
https://mlcommons.org/2024/08/mlc-algoperf-benchmark-competition/

"""The AlgoPerf: Training Algorithms benchmark evaluates the time training required for different training algorithms across multiple realistic deep learning workloads when running on a fixed hardware configuration.

Scoring involved over 4000 individual training runs across the 14 workloads used in the benchmark."""

Было два бенчмарка.

Первый - с возможностью external tuning. Победила команда с сабмитом "Distributed Shampoo" из Meta и Samsung AI.
Второй - чисто self-tuning. Из всех сабмитов только один побил бейзлайн - "Schedule Free AdamW" от Meta.

По факту это звучит довольно круто - оптимизатор, который можно успешно использовать без scheduler. [Код](https://github.com/facebookresearch/schedule_free) доступен. Дефолтная реализация на PyTorch, но есть и вариант на Jax.

#datascience

🔥6❤2

1.16K viewsedited 15:05

Data, Stories and Languages

Повседневные вещи в иностранных языках

При изучении иностранных языков, иногда забывается, что это процесс постоянный, а не что-то с чёткими границами. Бывает так, что легко можешь говорить на рабочие темы, болтать с незнакомцами о жизни, а потом спотыкаешься на том, что не можешь вспомнить, как называется какой-то очень простой объект.

Вчера на reddit я увидел такую забавную картинку. Соотношение между словами и уровнями не особо хорошее, но в целом даёт понимание сложности слов. На английском и испанском я не знал всего несколько слов, на немецком около четверти, на японском больше половины.

А насколько хорошо вы знаете эти слова?

#languages

👍6😁2🫡1

1.25K views07:31

Data, Stories and Languages

Diffusion Feedback Helps CLIP See Better

CLIP, при всех его достоинствах, имеет некоторые недостатки, включающие в себя плохое различение ориентации, количеств, цвета и структуры. Эти недостатки ограничивают возможности мультимодальных моделей, построенных на нём. Основная причина этого - такая информация отсутствует в оригинальном датасете для тренировки.
Авторы предлагают метод DIVA, использующий модель диффузии для оптимизации представлений CLIP без использования текста. DIVA улучшает производительность CLIP на MMVP-VLM на 3-7% и повышает эффективность мультимодальных моделей и моделей зрения в задачах multimodal understanding и сегментации. При этом качество zero-shot не страдает.

Выглядит просто и эффективно.

Paper link

Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

👍3🔥1

1.3K views04:51

Data, Stories and Languages

BRAG: High Performance RAG Model Trained in $25

Авторы знают толк в названиях :) Взяли пару вариантов Qwen2 и Llama-3 (+3.1), аккуратно подбирали датасеты (походу просто выбрали те, тренировка на которых давала лучшее качество на бенчмарках), дальше тюнили. Тренировали на 4 H100 один час.

https://themaximalists.substack.com/p/brag

#datascience

Maximalists

Introducing BRAG: High Performance RAG Model Trained in $25

Cost effective family of SLMs(small language models)

😁4🔥2

1.42K views06:23

Data, Stories and Languages

Praise your GitHub vs Roast your GitHub

Люди делают прикольные вещи с помощью LLM-ок. Например, есть два противоположных сайта:
• https://github-roast.pages.dev/ - спарсит инфу о юзере с GitHub и устроит полный roast
• https://praise-me.fly.dev/ - тоже спарсит инфу, но похвалит. (работает намного медленнее)

Иногда получается вполне годно.

🔥4🤣4😁2

1.25K views06:57

Data, Stories and Languages

Ко мне тут обратились с просьбой - распространить информацию об новом опросе про текущее состояние ML/DS:

Ребята из DevCrowd впервые проводят большое исследование специалистов, работающих в направлениях DS/ML/AI:

• что входит в обязанности той или иной профессии
• какие навыки наиболее важны и каких знаний не хватает
• сколько зарабатывают специалисты в зависимости от опыта и грейда
• а так же полезные для развития каналы, курсы и книги

Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование максимально охватным. Его результаты появятся в открытом доступе в конце сентября, и помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией!

👉Пройти опрос

Посмотреть другие исследования проекта

👍5❤1

1.27K views13:53

Data, Stories and Languages

Karpathy: RLHF is just barely RL

Karpathy выкатил длинный твит с размышлениями о RLHF:
• RL - мощно, RLHF - не так мощно
• он приводит в пример AlphaGo - модель тренировалась с RL, и в итоге научилась обыгрывать людей. Если бы её тренировали на RLHF, то люди бы оценивали какое состояние доски или какая последовательность действий лучше - по факту модель, аппроксимировала бы среднее поведение людей. И это не смогло бы привести к модели, которая превосходила бы людей
• Причины две - "какой вариант тебе больше нравится" не всегда коррелирует с вариантом, который ведёт к победе в игре; и модель может поломаться на ранее невиданных вариантах
• Его в целом удивляет/впечатляет то, что RLHF работает - ибо по факту оптимизируется на правильное/лучшее решение, а которое больше нравится асессорам. И в целом модель может быстро научиться эксплойтить.
• При всем при этом, RLHF работает и является полезным. Как минимум потому, что людям не надо создавать вариант с нуля - они выбивают что-то из предложенного.
• И есть большой аргумент в пользу RLHF - использовать его для оценочных задач типа "хорошая ли шутка, хорошо ли суммаризирован текст" легко. А вот для RL не понятно, как дизайнить reward function.

И в целом он называет RLHF "vibe check" :)

Tweet

#datascience

🔥13👍1

7.37K views09:40

Data, Stories and Languages

Facial recognition to detect duplicate Captain accounts

Сегодня в корпоративном блоге моей компании опубликовали блогпост, который я начал писать два месяца назад о проекте, который был сделал в прошлом году (двигался так быстро, как мог).

По ссылке можно почитать официальный вариант. Если стиль или тон текста покажутся странными - не удивляйтесь, оригинальный текст переписывали два-три раза для соответствия корпоративным стандартам, не всегда с моего согласия :)

Суть такая - иногда капитаны (так называют водителей такси в Careem) создают больше одного аккаунта для фрода: создают новый аккаунт после блокировки прошлого, для получения бонусов или для других способов получения преимущества. Таких случаев не то чтобы много, но они есть.
Корпоративная риторика: мы любим и уважаем наших ценных капитанов, бывает что они случайно создают дополнительные аккаунты, но иногда это происходит злоумышленно.

В идеале это должно выявляться на стадии регистрации, но в некоторых странах проверки очень поверхностные, поэтому мошенники их легко проходят. Мы решили попробовать находить такие случаи с помощью face recognition - брать фото капитанов и сравнивать их для поисков похожих.

Сам подход довольно простой - собираем все фотографии капитанов (лежат у нас на S3), извлекаем эмбеддинги и сравниваем. Фоток было 2-3 миллиона. Для извлечения эмбеддингов я использовал либу face_recognition - можно использовать для коммерческих целей, работает шустро и достаточно хорошо. Эмбеддинги хранил и сравнивал с помощью Faiss-GPU. Индексирование и поиск топ-5 схожих эмбеддингов заняло около часа.

Были интересные фейлы модели - о них можно почитать в самой статье. Плюс, нужно было делать дополнительный пост-процессинг бизнес-правилами. Сложность добавляло то, что у нас очень не любят совершать ошибки в блокировках капитанов - поэтому требовали держать False Positives около нуля. После нескольких итераций обсуждений, в сумме заблокировали около 2к мошенников. Могли бы заблокировать на порядки больше - но никто не был готов делать ручные проверки, поэтому остановились на этом.

В прод для регулярных проверок не выкатывали по вышеописанной причине. И потом, через полгодика проверки при регистрации улучшили.

Для меня проект был довольно интересным, несмотря на то, что в чисто техническом смысле он был прост :) Из запоминающегося - некоторые мошенники брали свои фотки, вырезали лица и (явно в фотошопе) переносили их на яркий фон.

Ссылка

#datascience

GitHub

GitHub - ageitgey/face_recognition: The world's simplest facial recognition api for Python and the command line

The world's simplest facial recognition api for Python and the command line - ageitgey/face_recognition

👍9🔥4❤1😁1

1.54K viewsedited 11:01

About

Blog

Apps

Platform