This media is not supported in your browser
VIEW IN TELEGRAM
Демо новой модели стало доступно на huggingface 🚀
Отличная модель для OCR задач, извлечения текста, распознания картинок и использования в чате.
🤗 HF: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
@ai_machinelearning_big_data
#deepseek #OCR #demo #prerelease
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥19❤6😁3
- На Арене Gemini-2.0-Pro (контекстное окно размером 2 млн) занимает 1-е место во всех категориях
- Gemini-2.0-Flash- 3-место в кодинге, математике и категории «Hard Prompts»
- Gemini-2.0-Flash топ-3 в категориях
- Gemini 2.0 Flash-Lite в топ-10 по всем категориям.
Что касается ризонинга, то в приложении Gemini также появилась версия
Flash Thinking Experimental
2.0
, которая в настоящее время так же занимает лидирующие позиции в рейтинге LM Arena .https://developers.googleblog.com/en/gemini-2-family-expands/
@ai_machinelearning_big_data
#Gemini #google #deepmind #Gemini2
Please open Telegram to view this post
VIEW IN TELEGRAM
❤43👍26🔥12🤣4
Компания объявила об общей доступности Gemini 2.0 Flash через Gemini API в Google AI Studio и Vertex AI, выпуске экспериментальной версии Gemini 2.0 Pro и представила Gemini 2.0 Flash-Lite, самую экономичную модель, находящуюся в публичном превью в Google AI Studio и Vertex AI.
Все эти модели поддерживают мультимодальный ввод с текстовым инференсом, а в ближайшие месяцы будут добавлены другие модальности вывода. 2.0 Flash обладает улучшенной производительностью в ключевых бенчмарках и в скором времени в ней появятся функции генерации изображений и преобразования текста в речь.
blog.google
Nvidia GEAR Lab и Университет Карнеги-Меллона разработали ASAP (Aligning Simulation and Real Physics), фреймворк, который уменьшает ошибки в движениях роботов между симуляцией и реальностью примерно на 53% по сравнению с существующими методами. ASAP работает в два этапа: сначала роботов обучают в симуляции, а затем используют специализированную модель для учета различий реального мира, выявляя и корректируя вариации между виртуальными и физическими движениями.
Во время тестирования с гуманоидным роботом Unitree G1 разработчики продемонстрировали возможности: гибкие движения, прыжки вперед на расстояние более одного метра и имитацию движений спортивных знаменитостей. Код ASAP доступен на GitHub.
agile.human2humanoid.com
Figure AI, занимающаяся разработкой универсального гуманоидного робота для коммерческого и бытового использования, объявила о прекращении сотрудничества с OpenAI. По словам основателя и генерального директора Бретта Адкока, в ближайшие 30 дней компания представит "нечто, чего никто никогда не видел в робототехнике".
OpenAI была давним инвестором Figure, и в 2024 году компании объявили о сотрудничестве для разработки ИИ-моделей нового поколения для гуманоидов. Адкок отметил, что интеграция с OpenAI оказалась проблематичной, поскольку Embodied AI не является основным направлением деятельности OpenAI.
techcrunch.com
Apple опубликовала исследование о LOOP, RL-метода обучения, разработанного для тренировки интерактивных цифровых агентов (IDA) в сложных цифровых средах с отслеживанием состояния. В отличие от предыдущих IDA, основанных на LLM с SFT, которым не хватает обучения для целевой среды, LOOP обучает агентов в их средах, используя частично наблюдаемый марковский процесс принятия решений (POMDP).
Метод устраняет необходимость в value network и поддерживает только одну копию базовой LLM в памяти, что делает его столь же эффективным, как и файнтюн одной LLM. Такой подход позволяет агенту с 32 млрд. параметров превзойти гораздо большую o1 от OpenAI на 9 процентных пунктов (15% относительно).
machinelearning.apple.com
Fujitsu примет участие в Mobile World Congress Barcelona 2025 (MWC25), где представит AI-технологии для сетей под лозунгом "Безграничный потенциал" и покажет сетевую инфраструктуру в под управлением ИИ действи - AI-RAN.
Будет представлен 5G Radio Unit, совместимый с O-RAN, вместе с оптическим решением передачи серии 1FINITY для обеспечения переключения с нулевой задержкой. Fujitsu также представит AI-приложения для улучшения IT-операций, производства и экологической устойчивости.
fujitsu.com
Работает даже без регистрации. SearchGPT дает осмысленный ответ с источниками, таблицами, картинками и схемами, которые нашел и обработал.
Попробовать.
Если не осилите - последние 10 минут — краткая выжимка по всему материалу.
Смотрим здесь.
Пошаговый гайд с кодом для обучения рассуждающей LLM с RL-алгоритмом от GRPO.
Сolab
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤33🔥11🥰1👌1🎃1
Инструмент, который поможет добавить рассждуения в ваши LLM проекты , подобно OpenAI o1 и deepseek R1.
✨ Функции:
🧠 Пошаговые рассуждения: Больше никаких ответов из «черного ящика»! Узнайте, как именно мыслит ваш LLM, по аналогии с O1.
🔄 Прогресс в реальном времени: позволяет наблюдать за ходом рассуждений с помощью плавных анимаций
🎯 Поддержка множества LLM провайдеров: Работает со всеми провайдерами LiteLLM
🎮 Streamlit: Удобный пользовательский интерфейс
🛠️ Поддердка CLI: для тех, кто любит возиться с командной строкой.
📊 Проверка уверенности ответа: Узнайте, насколько уверен ваш LLM в каждом шаге рассуждений.
pip install llm-reasoner
Пример с кодом:
from llm_reasoner import ReasonChain
import asyncio
async def main():
# Create a chain with your preferred settings
chain = ReasonChain(
model="gpt-4", # Choose your model
min_steps=3, # Minimum reasoning steps
temperature=0.2, # Control creativity
timeout=30.0 # Set your timeout
)
# Watch it think step by step!
async for step in chain.generate_with_metadata("Why is the sky blue?"):
print(f"\nStep {step.number}: {step.title}")
print(f"Thinking Time: {step.thinking_time:.2f}s")
print(f"Confidence: {step.confidence:.2f}")
print(step.content)
asyncio.run(main())
@ai_machinelearning_big_data
#llm #ml #ai #opensource #reasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59🔥15❤13❤🔥2⚡1😐1
Разработчик рассказал на Хабре универсальные методы оптимизации инференса LLM, применимые к большинству современных архитектур, включая LLaMA-подобные и MoE.
Дистилляция знаний — метод создания небольших эффективных моделей. Hard-label представлен как наиболее простой подход к передаче знаний от учителя к ученику. Soft-label даёт ученику доступ к внутренним распределениям вероятностей модели‑учителя. On-policy эффективно отражает неопределённость модели учителя, когда та присваивает сходные вероятности нескольким правдоподобным токенам.
Квантизация трансформеров эволюционировала от простой квантизации весов к борьбе с выбросами в активациях через LLM.int8(), SmoothQuant и GPT-Q.
EAGLE — метод спекулятивного декодирования — способен принести ускорение на compute bound сценариях. При KV-cache подсчитанный кеш для конкретного префикса сохраняется в VRAM/RAM и может быть переиспользован в другом запросе. Он применяется при ускорении сценариев с длинными контекстами.
Все описанные методы комбинируются между собой, давая мультипликативный эффект в ускорении модели.
@ai_machinelearning_big_data
#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥15❤13😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Модель может выполнять аудио и текстовые переводы речи в режиме реального времени, сохраняя голос говорящего и оптимально адаптируя его темп на основе содержания исходной речи.
Hibiki превосходит предыдущие модели по качеству перевода, естественности и по схожести говорящих и приближается к переводчикам-людям.
> Открытые веса
> Потоковый перевод: обрабатывает аудио в реальном времени
> Многопотоковая архитектура: использует архитектуру Moshi для моделирования исходной и целевой речи
> Способна работать в шумных условиях
> Обучена на 48 Nvidia H100
> Работает с MLX, Candle и PyTorch
> На данный момент поддерживает французский и английский языки (дальше больше)
> Отлично подходит на запусках на девайсах
Посмотрите на примере, как плавно и естественно выглядит перевод 💥
🤗 HF: https://huggingface.co/collections/kyutai/hibiki-fr-en-67a48835a3d50ee55d37c2b5
#speechtospeech #ai #ml #Hibiki
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🔥43❤8🗿4🤗2👀1
Главное в обновлении - новая функция "Flash Answers", которая генерирует ответы со скоростью до 1000 слов в секунду. Mistral AI утверждает, что это делает Le Chat самым быстрым AI-ассистентом на данный момент.
Обновление включает в себя интерпретатор кода с возможностью его запуска, возможность научного анализа статей и создание визуализаций. За генерацию изображений в сервисе отвечает модель Flux Ultra от Black Forest Labs.
Mistral также презентовал новую структуру ценообразования с 4 тарифными планами: бесплатный базовый план, план Pro за $14.99 в месяц, план Team за $24.99 в месяц на пользователя и план Enterprise с индивидуальным ценообразованием для крупных организаций. Le Chat теперь доступен на iOS и Android.
mistral.ai
OpenAI подтвердила разработку потребительского устройства на базе ChatGPT. По словам Сэма Альтмана, компания планирует разрабатывать его в сотрудничестве с несколькими компаниями, предполагая, что голосовой ввод станет основным способом взаимодействия.
Поскольку над дизайном работает Джони Айв, бывший дизайнер Apple, ожидается, что устройство будет обладать привлекательным внешним видом. Конфиденциальность также является ключевым моментом, особенно если устройство будет оснащено камерами и микрофонами.
techradar.com
Google пересмотрела свои этические принципы в отношении ИИ, отменив прежний запрет на использование его в оружии и системах наблюдения. Компания объясняет это решение растущей глобальной конкуренцией за лидерство в сфере ИИ. В новой редакции принципов акцент делается на человеческом контроле и тестировании, чтобы обеспечить соответствие международному праву и правам человека и минимизировать непреднамеренные или вредные последствия.
Другие крупные ИИ-вендоры - OpenAI, Anthropic и Microsoft уже начали сотрудничество с оборонными подрядчиками или предоставляют свои технологии американским военным.
washingtonpost.com
Методы, предложенные Microsoft - это: компилятор типов данных Ladder, библиотека T-MAC mpGEMM и аппаратная архитектура LUT Tensor Core.
Ladder преобразует неподдерживаемые форматы данных в аппаратно-совместимые представления, библиотека T-MAC mpGEMM оптимизирует вычисления смешанной точности, используя метод на основе таблицы поиска (LUT), а архитектура LUT Tensor Core представляет собой специализированный ускоритель, предназначенный для низкобитного квантования.
Их совокупность позволяет LLM эффективно работать на широком спектре оборудования, от ноутбуков до маломощных IoT-устройств. В тестах библиотека T-MAC достигла 48 токенов в секунду для модели 3B BitNet-b1.58 на Surface Laptop 7 и 11 токенов в секунду на Raspberry Pi 5.
microsoft.com
Израильская компания Inspira Technologies OXY анонсировала интеграцию кислородного индикатора нового поколения в свою технологию HYLA на базе искусственного интеллекта, которая изменит неотложную помощь, обеспечив мониторинг оксигенации тканей в реальном времени без традиционного забора крови. Индикатор на базе ИИ предназначен для непрерывного мониторинга уровня кислорода для раннего выявления гипоксии и других респираторных осложнений.
Сейчас датчики HYLA проходят клиническую проверку в медицинском центре Sheba, и Inspira ожидает, что вскоре будут опубликованы предварительные результаты, а подача в FDA для получения разрешения регулирующих органов ожидается во второй половине 2025 года.
prnewswire.com
Простая реализация PyTorch для обучения вашего собственного LLM с нуля. Репозитория создан для образовательных целей изучения больших языковых моделей на практике.
Github
Dataset
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍62❤15🔥7👌4🌭3
OpenAI планирует создать местную команду, которая будет заниматься продажами, развитием, коммуникациями, лоббированием и укрепить связи с немецкими университетами. По словам Сэма Альтмана, репутация Германии в области технического совершенства и промышленных инноваций сделала ее естественным выбором для расширения OpenAI. Германия - один из ключевых рынков OpenAI , а за последний год количество платных пользователей ChatGPT в Германии увеличилось в три раза.
heise.de
Объединенные Арабские Эмираты и Франция подписали соглашение о строительстве масштабного ИИ-кампуса с ЦОД мощностью в 1 гигаватт. Проект потребует инвестиций в размере от 30 до 50 миллиардов евро и станет крупнейшим объектом такого рода в Европе.
Проект кампуса, подписанный президентом Франции и президентом ОАЭ будет разработан консорциумом французских и эмиратских компаний, с участием инвестиционного фонда MGX. Точное местоположение объекта еще не определено.
france24.com
ИИ AlphaGeometry2, улучшенная версия системы AlphaGeometry, превзошла среднего золотого медалиста в решении задач по геометрии на международном математическом конкурсе. DeepMind утверждает, что их ИИ может решить 84% всех олимпиадных задач по геометрии за последние 25 лет.
AlphaGeometry2 состоит из языковой модели из семейства Gemini и "символьного движка". Модель Gemini помогает символьному движку, который использует математические правила для вывода решений задач, приходить к возможным доказательствам для целевой теоремы. AlphaGeometry2 считает проблему "решенной", когда приходит к доказательству, которое объединяет предположения Gemini с принципами символьного движка. DeepMind создала свои собственные синтетические данные для обучения AlphaGeometry2, сгенерировав более 300 миллионов теорем и доказательств различной сложности.
techcrunch.com
Новая функция Microsoft Edge на базе ИИ работает на компьютерах с Windows. Она способна выявлять и блокировать существующие мошеннические схемы и обнаруживать новые благодаря локальной модели машинного обучения.
Когда обнаруживается мошенничество, Microsoft Edge автоматически выходит из полноэкранного режима, который пытаются навязать вредоносные сайты, останавливает воспроизведение аудио и предупреждает пользователя миниатюрой просматриваемой страницы. После этого пользователь может сообщить о сайте, чтобы его добавили в службу Microsoft Defender SmartScreen.
Функция блокировки теперь доступна в предварительной версии в последней стабильной ветке браузера. Чтобы получить доступ к этой функции, необходимо вручную включить блокировку scareware в настройках конфиденциальности Edge и перезапустить браузер. Модель машинного обучения, используемая для блокировки, работает локально, не сохраняя и не отправляя данные в Microsoft.
theverge.com
Компания разработала систему, способную анализировать мозговую активность человека во время набора текста и определять, какие клавиши он нажимает, основываясь только на мыслях. Система использует магнитно-энцефалографический сканер для сбора сигналов, производимых в коре головного мозга.
Несмотря на то, что система способна определять буквы с точностью до 80%, она далека от коммерческого применения из-за своего размера, стоимости в 2 миллиона долларов и необходимости работы в экранированной комнате. Разработчики рассматривают ее как фундаментальное исследование принципов интеллекта, которое может быть использовано для создания более мощных систем искусственного интеллекта, способных учиться и рассуждать, как люди.
technologyreview.com
🤗 Kokoro
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥58👍39❤12❤🔥2
VideoLLaMA - это серия мультимодальных моделей (MLLM), разработанных для различных задач понимания изображений и видео!
Модели подойдут для создания универсальных приложений, способных решать широкий спектр задач, связанных с анализом визуальной информации.
🖐️Результаты 7B модели: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
🤏 Результаты 2B-модели для мобильных устройств: MMMU: 45.3, VideoMME: 59.6/63.4
▪ Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
▪Image Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
▪Video Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3
@ai_machinelearning_big_data
#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47❤13🔥12👏1
Forwarded from Анализ данных (Data analysis)
Это самая популярная в мире библиотека обработки данных, но она медленная, и многие библиотеки значительно превзошли ее.
Проблема альтернатив Pandas в том, что никто не хочет изучать новый API.
Давайте посмотрим правде в глаза: люди не будут переносить свои проекты, га другие фреймворки, без особой причины.
Я уже давно работаю с FireDucks
Эта библиотека в разы быстрее Pandas, и вам не придется менять код старых проектов для перехода на нее.
Вы можете изменить *одну* строку кода и весь остальной код будет работать на FireDucks :
import fireducks.pandas as pd
Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:
python
$ python -mfireducks.imhook yourfile[.]py
FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.
Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.
FireDucks побеждает с отрывом.
⛓️Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks
⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo
⛓️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb
⛓️И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/
#fireducks #Pandas #dataanalysis #datascience #python #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤83👍60🔥19🤣16🤔11🥰3🥱3🙊3😎2
This media is not supported in your browser
VIEW IN TELEGRAM
DepthFlow — это продвинутый конвертер изображений в видео с 3D-параллакс-эффектом, позволяющий превращать статичные фотографии в динамичные анимации!
В DepthFlow добавлены настраиваемые пресеты для достижения профессионального вида анимаций.
Быстрая обработка происходит благодаря оптимизированному шейдеру GLSL, работающему на GPU. Рендеринг до 8k50fps с RTX 3060, поддердивает экспорт видео с любым разрешением.
Дополнительные функции включают использование апскейлеров и пост-эффекты, такие как искажение линз, глубина резкости и тд .
▪ Github: https://github.com/BrokenSource/DepthFlow
▪Docs: https://brokensrc.dev/depthflow/
▪ComeUI: https://github.com/akatz-ai/ComfyUI-Depthflow-Nodes
@ai_machinelearning_big_data
#computervision #shadertoy #depthmaps #depthmap #depthprediction #parallaxeffect #monocular #imagetovideo #depthy #shaderflow
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🔥15❤9