Forwarded from Machinelearning
MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.
В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов
MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.
В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:
@ai_machinelearning_big_data
#AI #ML #SLM #MobileLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.
В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов
MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.
В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:
@ai_machinelearning_big_data
#AI #ML #SLM #MobileLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
MobileLLM — семейство авторегрессионных языковых моделей на оптимизированной архитектуре трансформера для использования на устройствах с ограниченными ресурсами.
В создании MobileLLM были использованы: функция активации SwiGLU, шэринг эмбединга и grouped-query attention. Модели обучались на датасете в 1 трлн. токенов
MobileLLM-125M/350M более точны на 2,7%/4,3% по сравнению с другими моделями SoTA 125M/350M в задачах zero-shot рассуждений.
В открытый доступ опубликованы 4 модели c контекстом 2 тыс. токенов:
@ai_machinelearning_big_data
#AI #ML #SLM #MobileLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
PT-2 - новейшая система фотонных квантовых систем. Она создана на основе PT-1, которая была успешно развёрнута в 7 локальных средах, и предназначена для коммерческих решений, интегрируемых с высокопроизводительными вычислительными инфраструктурами.
PT-2 обладает улучшенными квантовыми возможностями машинного обучения, согласованными с платформой разработки NVIDIA CUDA-Q, что позволяет интегрироваться с моделями генеративного ИИ. Эта разработка поможет организациям более эффективно внедрять квантовые вычисления в свои рабочие процессы ИИ.
techerati.com
— В связи с развитием ИИ-ассистентов разработчики активно переходят с JavaScript на Python;
— За 2024 год команды внесли 5,2 миллиарда изменений в 518 миллионов проектов;
— Ожидается, что к 2028 году Индия превзойдет США по числу разработчиков;
— Благодаря доминированию Python использование Jupyter Notebooks увеличилось почти вдвое (+92%).
github.blog/news-insights/
Google представил функцию "Grounding with Google Search" для Gemini API и Google AI Studio, позволяющую разработчикам получать более точные и актуальные ответы от моделей Gemini, опираясь на данные поиска Google.
Эта функция уменьшает вероятность галлюцинаций и обеспечивает доступ к информации в режиме реального времени, делая приложения ИИ более релевантными. "Grounding" предоставляет ссылки на источники информации и направляет пользователей к соответствующим результатам поиска.
Функция доступна для платных тарифов в Google AI Studio и в API. используя платный уровень.
developers.googleblog.com
Anthropic выпустила десктопное приложение Claude для Mac и Windows. Приложение практически не отличается от веб-версии и позволяет задавать вопросы, просматривать предыдущие чаты и избранные беседы.
Преимуществом является более удобный доступ к Claude прямо с рабочего стола, без необходимости открывать веб-сайт. Функция “computer use”, позволяющая Claude 3.5 Sonnet управлять компьютером, пока недоступна в приложении.
Anthropic также добавила поддержку диктовки в мобильные приложения Claude для Android и iOS.
theverge.com
Производителю чипов потребуется получить одобрение антимонопольных органов ЕС для приобретения стартапа в области ИИ Run:ai, поскольку сделка может угрожать конкуренции на рынках, где работают обе компании.
Nvidia объявила о покупке израильской компании Run:ai в апреле, сумма сделки составит около 700 миллионов долларов. Хотя сделка не достигает порога оборота ЕС, требующего запроса одобрения, она была направлена в итальянское антимонопольное ведомство, которое, в свою очередь, обратилось в Еврокомиссию.
Технология Run:ai позволяет разработчикам управлять и оптимизировать свою инфраструктуру ИИ.
reuters.com
Учёные из Технического университета Дармштадта (Германия) и MIT (США) разработали новые методы анализа безопасности литий-ионных аккумуляторов, используемых в электромобилях и системах хранения энергии.
Метод, сочетающий физические техники с машинным обучением, позволяет обнаруживать зависящие от времени и эксплуатационные изменения в аккумуляторных элементах. Для исследования учёные использовали уникальный набор данных, предоставленный анонимным партнёром: данные 28 аккумуляторных систем, возвращённых производителю из-за проблем. Набор данных включает более 133 миллионов строк данных из 224 аккумуляторных элементов и является одним из первых подобных, ставших общедоступными.
Результаты исследований подтверждают, что часто только одна ячейка в аккумуляторной системе демонстрирует аномальное поведение, которое может повлиять на всю систему.
batteriesnews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
InkSight - модель, разработанная в Google Research, для конвертации изображений рукописных заметок в цифровой формат, воспроизводящий процесс написания. Эта технология, "derendering", позволяет преобразовать физический почерк в цифровую форму, сохраняя его индивидуальность и динамику.
InkSight в отличие от OCR , выполняет захват рукописного текста в виде набора штрихов, а не просто преобразует его в текст.
Процесс преобразования входного изображения с рукописным текстом разбит на три этапа: OCR для извлечения слов, обработка каждого слова по отдельности и замена пиксельного представления слов штрихами.
Для обучения модели используются пары изображений текста и соответствующих цифровых штрихов. Штрихи, полученные из траекторий письма в реальном времени, представляются в виде последовательности точек, а соответствующее изображение создается путем рендеринга этих штрихов.
Уникальный этап в обучении модели - "
ink tokenizer", преобразующий точки в формат, удобный для обработки LLM.Архитектура InkSight вдохновлена моделью Pali и состоит из кодера ViT и кодер-декодера mT5. Были обучены три варианта модели:
Все модели используют контекст длиной 1024 для инференса и 128 для ввода.
Результаты качественной оценки с базовым методом GVS (General Virtual Sketching) показали, что модели InkSight более точно воспроизводят текстовое содержимое, игнорируя нерелевантный фон, и лучше справляются с окклюзиями по сравнению с GVS.
Количественная оценка показала, что большинство штрихов, сгенерированных моделью Large-i, сопоставимы по качеству с результатами, полученными вручную.
⚠️ В открытый доступ опубликована модель InkSight small-p в вариантах для запуска на CPU\GPU и TPU, дополнительные материалы, упомянутые в техническом отчете и ноутбук с инфренсом модели на нескольких примерах + пример кода для выполнения инференса.
# Clone the huggingface space
git clone https://huggingface.co/spaces/Derendering/Model-Output-Playground
# Install the dependencies (skip if you have them already)
pip install gradio gdown
# Run the Gradio Playground
python app.py
@ai_machinelearning_big_data
#AI #ML #InkSight #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM