Павленко про Dev & AI
309 subscribers
238 photos
61 videos
4 files
333 links
GenAI-евангелист. 21 год в разработке.
Download Telegram
Docker скопировали Ollama 😄 Теперь модели можно запускать с помощью докера. Не знаю насколько на данный момент реализация кривая, так что, думаю есть смысл еще какое-то время пользоваться Ollama.
OpenAI показали свои новые модели GPT-4.1, GPT-4.1 mini и GPT-4.1 nano

В чате их не будет: они только для разработчиков в API. У всех трех моделей контекст 1 миллион токенов, для OpenAI это впервые. Знания до 1 июля 2024.

Эти модели тренировали специально, чтобы они были эффективны в задачах связанных с разработкой. В честь запуска Cursor и Windsurf дают попользоваться этими моделями совершенно бесплатно 🆓
🤯3
Forwarded from Machinelearning
🚀 Codex CLI

"Модели o3 и o4-mini настолько сильны в программировании, что мы решили упростить их использование и выпустить новый продукт"" — Codex CLI - написал в своем аккаунт Альтман

💻 Codex CLI — это мощный программирующий агент, который работает локально на вашем компьютере.

- Чат-ориентированная разработка: Позволяет взаимодействовать с вашим репозиторием через диалоговый интерфейс.​

- Выполнение кода: Способен запускать код, манипулировать файлами и выполнять итерации прямо в терминале.​

- Интеграция с системами контроля версий: Обеспечивает работу под управлением систем контроля версий, таких как Git.​

🌟 Полностью open source и уже доступен для скачивания!

npm install -g @openai/codex

https://github.com/openai/codex

@ai_machinelearning_big_data


#AI #OpenSource #CodexCLI #Coding #LLM #DevTools
Forwarded from Data Secrets
Вышла Gemini 2.5 Flash. Что нужно знать:

– Это гибридная модель с ризонингом, продолжительность рассуждений она контролирует сама, но в API можно настраивать бюджет ризонинга вручную

– Почти на всех бенчмарках модель лучше Sonnet 3.7 и R1.

– o4-mini и Grok-3 выглядят чуть получше, но по соотношению цена-качество проигрывают однозначно

Модель очень дешевая. 0.15$/М инпут и 0.6$/М аутпут (с ризонингом 3.5$).

Попробовать можно здесь
Google выпустила свой инструмент для AI-разработки. Упаковали в браузер VS Code + чат + браузер. Идея такая, что можно быстро прототипировать свои идеи и допиливать также через чат, либо более привычным способом, через IDE. https://firebase.studio/

Я попробовал: дал ему простенькое задание веб-приложения. Он составил хороший чёткий план, но с кодом не справился. Писал на Typescript+React. Вылетают постоянные ошибки компиляции и сам себя исправить не может. Для проектов, где больше 1000 строк кода пока что не годится.
Месяц спустя, после релиза Claude Code и усиленного внутреннего тестирования, и фидбэка от комьюнити, Anthropic опубликовали Best Practices по разработке в Claude Code. Это реально интересно - первый гайд не от вайб-кодеров, а создателей 👏
Forwarded from Data Secrets
Там Стэнфорд выложили на YouTube свой свежий курс CS336: Language Modeling from Scratch

Это практический курс, в котором вся теория по LLM подается в процессе разработки собственной модели. Получается изучение end-to-end: от обработки данных и архитектуры трансформера до RL и эвала.

Ведет курс опытный профессор университета и сооснователь TogetherAI Перси Лианг.

Ну и главное: курс новый и вся информация актуальна на сегодняшний день. Он даже в самом Стэнфорде еще идет прямо сейчас, так что лекции и код продолжат выкладывать по ходу.

Репозиторий с дз и ноутбуками
Сайт курса
YouTube
🔥3🏆1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Кстати, кому интересно, Микрософт опенсорснул вот такой питонг-тул, для конвертации любых документов в MarkDown.

С потерями, конечно, но поглядите, что он умеет конвертировать:

- PDF
- PowerPoint
- Word
- Excel
- Images (EXIF metadata and OCR)
- Audio (EXIF metadata and speech transcription)
- HTML
- Text-based formats (CSV, JSON, XML)
- ZIP files (iterates over contents)
- Youtube URLs
- EPubs

Он даже звук и картинки на вход принимает, и описывает их.

https://github.com/microsoft/markitdown

@cgevent
🔥4
Имба для кодеров: появилась новая тулза, превращающая любой гитхаб-репозиторий в полноценный учебник.

ИИ анализирует весь код, разбирает его структуру и создаёт подробный, понятный гайд, объясняющий, как всё устроено.

Вы сможете:
- Легко осваивать новые технологии;
- Учиться программированию на реальных проектах;
- Писать документацию для своих репозиториев;
- Разбираться в сложном и запутанном коде.
🔥4👍2
Forwarded from Data Secrets
Мотивации пост: сейчас в топ-1 по популярности на Hugging Face висит модель, которую разработала команда… из двух человек

Лаборатория называется Nari Labs, и она действительно состоит всего из двух исследователей. Несмотря на это, на этой неделе они со своей text2speech моделью DIA оставили позади Microsoft, Anthropic, Nvidia и другие корпорации.

Моделька у них правда крутая. В ней всего 1.6B параметров, но она генерирует из текста очень качественные диалоги. Сохраняет даже смех, кашель и вздохи. Плюс, пользователь может управлять эмоциями.

При этом у ребят действительно понятная и красивая карточка модели и хорошо оформленный код на гитхаб. Респект?
🔥3
Forwarded from Denis Sexy IT 🤖
CISO (директор по защите информации) Анторопика считает, что уже через ~год в ваших слаках / тимс / гитхабах начнут появляться виртуальные коллеги – автономные АИ-сотрудники с собственной «памятью», корпоративными логинами и чётко прописанной ролью и в отличие от сегодняшних агент-скриптов, они смогут самостоятельно расширять задачи и принимать решения без прямого запроса человека. И даже ставить задачи вам, я знаю вы только этого и ждали ☕️

Пока что системы контроля доступа к такому уровню свободы не готовы: непонятно, как безопасно выпускать и отзывать их учётные данные, до какой степени открывать им доступ к внутренним сетям и кто понесёт ответственность, если такой бот все сломает и хакнет компанию (спойлер – виноват IT отдел, как всегда)

В статье еще написано, что компаниям бы уже сейчас начать думать, про – автоматические учётки, перевести их на короткоживущие токены, внедрить аварийный «килл-свитч» для подозрительных АИ-аккаунтов и чётко прописать, кто отвечает за действия бота, если тот вдруг превратится из помощника в инсайдера

Но зная как работает бизнес много где, мне кажется многие компании сначала подключат АИ-коллег, а потом будут разбираться с последствиями 💃

Статья целиком:
https://www.axios.com/2025/04/22/ai-anthropic-virtual-employees-security
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
Модель перевода видео в Яндекс Браузере научили сохранять тембр и интонации спикера

Раньше в Яндексе синтез речи при переводе видео осуществлялся заранее подготовленным набором голосов, которые просто подбирались по полу и тону. Но сейчас инженеры шагнули дальше, и теперь система сохраняет интонации и тембр говорящего, а перевод звучит максимально близко к оригиналу.

Вот, как это устроено технически:

🟦 За основу взяли модель Tortoise text-to-speech. Идея похожа на привычные LLM: модель принимает на вход некоторый аудиопромпт (это наше видео) и текстовую последовательность (это перевод), а далее происходит предсказание дискретных аудиотокенов речи. Однако оригинальная Tortoise очень медленная на инференсе (отсюда и название), а еще у нее есть проблемы с акцентом и шумными аудиопромптами, так что модель пришлось значительно дорабатывать.

🟦 Во-первых, исследователи заменили токенизатор BPE на фонемное представление. Это значит, что текст перевода, который подается в сеть, токенизируется не ванильным LLM-ным способом, а фонемной транскрипцией. Для такой токенизации компании пришлось даже найти лингвиста и составить с ним русско-английский фонемный алфавит.

🟦 Во-вторых, в модель добавили биометрические эмбеддинги. Важно, что эти эмбеддинги практически не обучаются, чтобы предотвратить «подглядывание» LM за правильным ответом и снизить риск переобучения.

🟦 Кроме биометрии для снижения акцента и повышения качества в модель добавили автометрику синтеза UTMOS. В данном случае это как бы гиперпараметр качества синтеза, чтобы модель училась генерировать не просто какую-то речь, а хорошо различимую, но в то же время естественную.

🟦 Ну и, наконец, рисерчеры плотно поработали с данными (включая пайплайн предобработки с денойзингом) и добавили инженерных хаков для скорости. Например, с диффузионкой провернули knowledge distillation, прикрутили flash attention, добавили обработку масок в батчах. В итоге из мега-медленной Tortoise получилась модель, которая очень шустро работает в реалтайме.

В общем, очень значительная работа получилась и с инженерной, и с исследовательской, и с продуктовой точки зрения. Итоговые метрики на уровне даже по сравнению с ElevenLabs.

Больше тех.деталей – на Хабре. А модельку уже можно попробовать в Яндекс Браузере.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from Data Secrets
Ого: Илон Маск анонсировал Grok-3.5 на следующей неделе

Это будет ранняя бета-версия. Маск обещает, что модель будет рассуждать from first principles, и сможет давать ответы, который просто нет в Интернете.

"Это первый ИИ, который может, например, точно отвечать на вопросы о ракетных двигателях или по электрохимии"
🔥3
Представлен проект отдельного процессора под названием PyXL, для выполнения байткода Python под девизом «No VM, No C, No JIT. Just PyXL and actual Python executed in silicon». Проект развивает инженер и разработчик Рон Ливне (Ron Livne), специализирующийся на оптимизации производительности и разработке аппаратных ускорителей.

https://habr.com/ru/news/905458/

Могли бы мы подумать, что когда-то появится ASIC для Python? :)
👍1
Forwarded from Refat Talks: Tech & AI
This media is not supported in your browser
VIEW IN TELEGRAM
NotebookLM теперь умеет делать AI-подкасты на 50 языках, включая русский и украинский. Это реально один из самых уникальных инструментов в AI, который есть сейчас на рынке, да еще и от Google.

Как это работает: закидываешь PDF-ку, статью или ссылку на YouTube-видео — и получаешь:
- конспект
- презентацию
- и самое прикольное: озвученный подкаст, где два ИИ-болтуна живо обсуждают твою тему. Звучит все супернатурально: с шутками, паузами и дружеским трёпом.

Пара идей, как круто использовать:
- Превращать сложные ресерчи и статьи в подкасты — особенно полезно для тех, кому проще воспринимать на слух.
- Генерировать аудио-конспекты встреч или лекций, чтобы освежить память или быстро войти в курс дела.
- Персональные дайджесты Телеграм-канала: я думаю запустить еженедельный аудиодайджест топовых постов из канала - закинуть лучшие посты за неделю и получить 10-минутную аудиоверсию для тех, кто предпочитает слушать

Как пользоваться: создаешь ноутбук (типа проект), бросаешь туда ссылки или тексты, жмешь "Generate Audio Overview" и готово. Не забудь только выбрать сверху Settings -> Output language. Через пару минут получаешь подкаст, который можно скачать и слушать где угодно.

Сегодня поигрался с этим апдейтом, получилось реально прикольно. Парочку примеров подкастов закину в комментарии.

Ах да, кстати, для любителей Open Source нашел прикольную альтернативу: https://www.open-notebook.ai
Audio
Собрал маленький подкаст на русском в NotebookLM. Инструкций никаких не давал, просто накидал ссылок на курсы и статьи по LLM.

UPD: в коментах версия с дополнительным уточняющим промптом - получилось намного лучше.
👍1
Forwarded from Data Secrets
О, Cursor поделились статистикой самых популярных среди разработчиков моделей

Топ-5 самых популярных:

1. Claude 3.7 Sonnet
2. Gemini 2.5 Pro
3. Claude 3.5 Sonnet
4. GPT-4.1
5. GPT-4o

Топ-5 быстрее всего набирающих популярность:

1. o3
2. o4-mini
3. DeepSeek 3.1 (видимо после выхода свежего чекпоинта)
4. GPT-4.1
5. Grok 3

Кстати, на днях основатель Cursor также поделился тем, что сейчас их агент генерирует порядка миллиарда строк кода в день (и это только те, которым пользователь поставил апрув). Это при том, что во всем мире ежедневно пишется всего несколько миллиардов строчек 😱
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1