Data, Stories and Languages

Mark Twain: Truth is stranger than fiction, but it is because Fiction is obliged to stick to possibilities; Truth isn't."

🔥6

917 views12:53

Data, Stories and Languages

DCLM-7B от Apple. Натренирована на DCLM-Baseline, MMLU 63.72. Код и веса выложили

Apple выложила свою новую модель DCLM-Baseline-7B, которая натренирована на датасете DCLM-Baseline (2.5T tokens). Цель - показать, что модель, натренированная на аккуратно подготовленных данных, круто работает. никогда такого не было, и вот опять

Главным плюсом считается то, что доступен и датасет, и код, и веса модели.

https://huggingface.co/apple/DCLM-7B
https://github.com/mlfoundations/dclm
https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
https://arxiv.org/abs/2406.11794

#datascience

🔥5👍1

1.13K views14:18

Data, Stories and Languages

Forwarded from Генеративный дизайн молекулярных машин

✨

Приглашаем на лекцию "Quantum Machine Learning: Future Revolution in AI"

✨

Лектор: Никита Серов, PhD, руководитель лаборатории "Генеративный дизайн молекулярных машин"

Искусственный интеллект уже стал ключевым фактором перемен в XXI веке, о котором говорят в каждом втором новостном сюжете. Но существуют ли фундаментальные проблемы, которые могут ограничить развитие современных технологий ИИ в ближайшем будущем? На этой лекции вы узнаете, как квантовые эффекты способны перевернуть с ног на голову самые базовые идеи машинного обучения и произвести революцию в области ИИ.

Описание лекции:

Эта лекция предоставит уникальную возможность заглянуть за горизонт текущих технологий ИИ и понять, как квантовые вычисления могут кардинально изменить правила игры. Никита Серов, PhD, руководитель лаборатории "Генеративный дизайн молекулярных машин", как человек со знанием квантовой химии и ИИ, взял на себя задачу структурировать основные достижения в этой области и выделил плюсы и минусы новой технологии.

❓В ходе лекции будут рассмотрены следующие ключевые вопросы:
- Какие ограничения существуют у современных методов машинного обучения?
- Как квантовые эффекты могут преодолеть эти ограничения?
- Какие перспективы открываются перед ИИ благодаря квантовым вычислениям?
- Примеры реальных приложений квантового машинного обучения в химии и материаловедении.

👩‍🔬👨‍🔬Для кого подойдет эта лекция:

Лекция будет интересна всем любителям ИИ, владеющим английским языком. Входных требований нет, однако для более глубокого понимания материала полезно иметь базовые знания в области линейной алгебры и квантовой механики.

🌐 Эта лекция станет первой в серии "The era after AI we know", где мы будем обсуждать будущее ИИ, естественного интеллекта и нейроморфных вычислений.

🔥Не упустите шанс узнать о передовых разработках и обсудить будущие перспективы.

Дата и время проведения: 26 июля, 17:00

Место проведения: университет ИТМО, Ломоносова 9, аудитория 1303/8 Медиацентр

❗️Язык лекции: английский ❗️

⚡️ Регистрация по ссылке ⚡️

Мы ждем вас на нашей лекции!

🖥 Также будет вестись трансляция и запись лекции. Чтобы не пропустить - подписывайтесь на телеграм-канал лаборатории.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

734 views11:32

Data, Stories and Languages

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 Если Вам интересно машинное обучение и/или математика - приглашаем Вас принять участие в проекте по применению методов МЛ/RL к теории групп/графов Кэли - напишите @alexander_v_c - если хотите принять участие, а также заходите на вводный вебинар (знаний теории групп не требуется):

👨‍🔬 Александр Червов (к.ф.-м.н) "Методы МЛ в теории групп - введение и обзор достигнутого"
⌚️ Понедельник 22 июля, 18.00 (по Москве)

Методы машинного обучения могут быть применены к ряду классических задач теории групп - разложение элемента по образующим, оценки диаметра. Мы приглашаем принять всех участие в данном проекте. Предварительное требование - знание Питона и наличие нескольких свободных часов в неделю. Если вы хотите улучшить свои знания по МЛ/RL и внести вклад в развитие науки - это отличный шанс .

В данном докладе мы простым языком объясним формулировки основных задач, и как задачи теории групп переводятся на язык машинного обучения. Предварительных знаний не требуется. Также, мы дадим обзор уже достигнутых результатов - в частности для группы порядка 4*10^19 (Rubik cube) нам уже удается находить решение задачи за минуты , а не 40 часов ГПУ как было в предыдущей работе "DeepCube".

План доклада:

1 Переформулировка основной задачи на простом языке матриц

2 Матрицы перестановок и группы типа кубика Рубика (см. ноутбук "Visualize allowed moves": https://www.kaggle.com/code/marksix/visualize-allowed-moves )

3 Графы Кэли и переформулировка основной задачи как поиск пути на графе

4 Случайные блуждания по графам - создание трейн сета для МЛ-модели

5 Подход к решению задач теории групп через машинное обучение. Оценка дистанции до цели через МЛ-модель и проблема наличия множественных локальных минимумов у этой оценки

6 Beam search. (Один из вариантов борьбы с застреваниями в локальных минимумах)

7 Бейзлайн реализация: МЛ+ Beam search - ноутбук: https://www.kaggle.com/code/alexandervc/baseline-1-for-permutations - решение кубика Рубика за пару минут

8 Cледующие шаги: RL-часть, улучшение нейросеток, улучшение трейн сета, улучшение beam search

Добавляйтесь в группу проекта: https://t.me/sberlogasci/10989 и пишите @alexander_v_c - если Вам интересно !

PS

См. также предыдущий вводный доклад:
https://t.me/sberlogasci/10989/15283 "Введение в методы поиска короткого пути на больших графах" (Кирилл Хоружий )

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

🔥4❤1

761 views11:07

Data, Stories and Languages

Жаркое лето в Дубае

В этом году лето в Дубае ещё жарче, чем в прошлом году. И самая жара + влажность обычно в августе-сентябре.
😅

#life

🫡6🔥3🆒2

1.05K views14:48

Data, Stories and Languages

RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

Интересная статья от NVIDIA с новым подходом к RAG - делают instruction-tuning одновременно для генерации ответа и для ранжирования контекста. Добавление таких датасетов для тренировки заметно улучшает качество, при этом данных достаточно не особо много.

В экспериментах Llama3-RankRAG обходит Llama3-ChatQA-1.5 и модели GPT-4 на девяти knowledge-intensive бенчмарках и показывает сопоставимые результаты с GPT-4 на пяти медицинских наборах данных без дополнительного instruction fine-tuning на биомедицинских данных, демонстрируя отличную способность к обобщению в новых областях.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥8👍3

1.36K views04:58

Data, Stories and Languages

Forwarded from Борис опять

https://ea.rna.nl/2024/05/27/when-chatgpt-summarises-it-actually-does-nothing-of-the-kind/

tldr: LLM могут сильно искажать факты при саммаризации сложных вещей вплоть до полностью противоположных выводов

R&A IT Strategy & Architecture

When ChatGPT summarises, it actually does nothing of the kind.

One of the use cases I thought was reasonable to expect from ChatGPT and Friends (LLMs) was summarising. It turns out I was wrong. What ChatGPT isn’t summarising at all, it only looks like it…

👍3🔥1

831 views08:53

Data, Stories and Languages

Yet another sample size calculator

Я сегодня увидел на reddit неплохой тред с примером расчёта sample size для A/B тестов. Думаю, что если считаешь для себя, то настолько накрученные штуки не нужны, но показать stakeholders - самое то.

Сам калькулятор можно пощупать тут.

#datascience

❤2👍1🔥1

1.15K views10:44

Data, Stories and Languages

Forwarded from Denis Sexy IT 🤖

Meta опубликовала новые модели Llama 3.1
https://llama.meta.com/

1) Теперь доступна модель размером в 405B, запустить у нас всех ее не получится (нужно промышленное железо) – про нее я напишу отдельно потом, как почитаю внятные тесты возможностей.

2) Помимо этого, Llama 3.1 вышла в 8B и 70B размерах, они поддерживают многоязычность и просто стали лучше в своих категориях, запускаться они смогут на том же железе где и работали прошлые версии.

Вы наверное теперь понимаете почему OpenAI показало gpt4o mini неделю назад и сделала ее настолько дешевой – скоро у нас будут очень умные модели, которые очень быстро работают на любом железе

Meta классно создает давление на OpenAI через опенсорс, Цукерберг красавчик

Industry Leading, Open-Source AI | Llama

Discover Llama 4's class-leading AI models, Scout and Maverick. Experience top performance, multimodality, low costs, and unparalleled efficiency.

👍8🔥2

926 views15:15

Data, Stories and Languages

DataChain от DVC

Пока многие обсуждают релиз LLama 3.1, поделюсь "приземленной" новостью. DVC выпустили продукт для управления неструктурированными данными.

🤖 AI-Driven Data Curation: Local models, LLM APIs
🚀 GenAI Dataset scale: Millions and billions of files
🐍 Python-friendly: Python objects instead of JSON

Github

#datascience

GitHub

GitHub - datachain-ai/datachain: Data context layer for unstructured data - images, video, sensor data, text and PDFs

Data context layer for unstructured data - images, video, sensor data, text and PDFs - datachain-ai/datachain

🔥10❤‍🔥2

1.13K views15:26

Data, Stories and Languages

IT-пикник. Благотворительность для Карельского регистра доноров костного мозга

Ко мне тут обратились с неожиданной просьбой - распространить информацию об IT-ивенте с возможностью сделать пожертвование для помощи людям.

В Москве 17 августа пройдёт IT-пикник в Коломенском. Это семейное IT мероприятие - будут лекции, мастер-классы, воркшопы, музыка. А также доклады от технических людей из топовых компаний. Посещение возможно по пожертвованию от 1к рублей в один из 10 благотворительных фондов, и Карельский регистр - один их них. Он занимается помощью пациентам с лейкемией и пожертвованные деньги пойдут на на оплату обследования доноров, каждый из которых может спасти жизнь.

При регистрации на сайте пикника вам прийдёт ссылка на пожертвования, и там можно будет выбрать этот фонд. Сам я посетить ивент не смогу, поэтому пожертвование сделал просто напрямую по этой ссылке.

Фестиваль выглядит интересным, и дополнительно есть возможность помочь людям, так что рекомендую поучаствовать.

#life #datascience

🔥10❤4

1.22K views12:02

Data, Stories and Languages

Closed-source vs open-weight models

🔥15❤1

1.29K views14:29

Data, Stories and Languages

Вы не поверите, но эта картинка уже устарела (меньше, чем за 2 часа) - вышел Mistral Large 2. Не то чтобы она побила рекорды, но всё же будет занимать уважаемое место на этом графике

https://mistral.ai/news/mistral-large-2407/

#datascience

mistral.ai

Large Enough | Mistral AI

Today, we are announcing Mistral Large 2, the new generation of our flagship model. Compared to its predecessor, Mistral Large 2 is significantly more capable in code generation, mathematics, and reasoning. It also provides a much stronger multilingual support…

😁15😱2

1.36K views15:51

Data, Stories and Languages

Есть два типа людей, запускающих LLM локально...

😁28🔥5😢1

1.65K views15:13

Data, Stories and Languages

For some reason I seem to enjoy “having a life outside of work” more than “spending every waking moment programming”

https://www.reddit.com/r/ExperiencedDevs/comments/1eddgwe/i_love_programming_at_work_but_dont_do_hobby/

😁16😢3

1.24K views15:58

Data, Stories and Languages

Masked Attention is All You Need for Graphs

GNNs и вариации message passing algorithm являются основными методами обучения на графах благодаря их гибкости, скорости и производительности. Однако их надо аккуратно тюнить. Авторы этой статьи предлагают простую альтернативу, основанную исключительно на attention.

В методе Masked Attention for Graphs (MAG) графы представлены как наборы узлов или ребер, а их связь обеспечивается благодаря masking the attention weight matrix, создавая кастомные паттерны для каждого графа.

MAG демонстрирует SOTA результаты на long-range задачах и показывает крутые результаты на 55+ разных задачах. Плюс, MAG лучше делает transfer learning и у него сублинейная масштабируемость памяти по числу узлов или ребер, что позволяет обучаться на dense graphs.

Выглядит весьма интересно. В карму авторов ставлю плюсик за то, что гоняют модели по 5 раз и показывают среднее и стандартное отклонение.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥15👍4

1.56K views04:54

Data, Stories and Languages

A Visual Guide to Quantization

На днях Maarten Grootendorst опубликовал шикарный гайд по квантизации. В нём раскрывает темы:
• что такое квантизация и зачем она нужна
• symmetric vs asymmentric quantization
• post-training quantization
• quantization aware training

Всё это с качественными пояснениями и отличными визуализациями. Рекомендую почитать тем, кто давно хотел разобраться в квантизации, но не доходили руки. Или для того, чтобы обновить знания.

Link

#datascience

Maartengrootendorst

A Visual Guide to Quantization

Exploring memory-efficient techniques for LLMs

🔥10👍2❤1

1.59K viewsedited 04:48

Data, Stories and Languages

torchchat: Accelerating Local LLM Inference on Laptop, Desktop and Mobile

Новая библиотека от разработчиков PyTorch - на этот раз для запуска LLM на ноутах, телефонах и десктопах.
https://pytorch.org/blog/torchchat-local-llm-inference/

#datascience

🔥15👍1

1.38K views06:13

Data, Stories and Languages

https://x.com/PWGTennant/status/1818917890948501788

😁18

1.34K views04:29

Data, Stories and Languages

Announcing the results of the inaugural AlgoPerf: Training Algorithms benchmark competition

Какое-то время назад объявили соревнование с целью найти алгоритмы тренировки, которые бы могли ускорять разные модели.
https://mlcommons.org/2024/08/mlc-algoperf-benchmark-competition/

"""The AlgoPerf: Training Algorithms benchmark evaluates the time training required for different training algorithms across multiple realistic deep learning workloads when running on a fixed hardware configuration.

Scoring involved over 4000 individual training runs across the 14 workloads used in the benchmark."""

Было два бенчмарка.

Первый - с возможностью external tuning. Победила команда с сабмитом "Distributed Shampoo" из Meta и Samsung AI.
Второй - чисто self-tuning. Из всех сабмитов только один побил бейзлайн - "Schedule Free AdamW" от Meta.

По факту это звучит довольно круто - оптимизатор, который можно успешно использовать без scheduler. [Код](https://github.com/facebookresearch/schedule_free) доступен. Дефолтная реализация на PyTorch, но есть и вариант на Jax.

#datascience

🔥6❤2

1.16K viewsedited 15:05

Data, Stories and Languages

Повседневные вещи в иностранных языках

При изучении иностранных языков, иногда забывается, что это процесс постоянный, а не что-то с чёткими границами. Бывает так, что легко можешь говорить на рабочие темы, болтать с незнакомцами о жизни, а потом спотыкаешься на том, что не можешь вспомнить, как называется какой-то очень простой объект.

Вчера на reddit я увидел такую забавную картинку. Соотношение между словами и уровнями не особо хорошее, но в целом даёт понимание сложности слов. На английском и испанском я не знал всего несколько слов, на немецком около четверти, на японском больше половины.

А насколько хорошо вы знаете эти слова?

#languages

👍6😁2🫡1

1.25K views07:31

About

Blog

Apps

Platform