Forwarded from Neural Deep
Whispex+Frontend+Open-source
Ваш личный/корпоративный/безопасный транскрибатор который можно доделать до крутого MVP
И так как вы помните я рассказывал тут про свой опыт AI кодинга (когда ни строчки не пишу сам)
Вышло достаточно сложно но если кратко ОНО не работает если ты не стараешься (как из мема "Да ладно?")
Спонсором данного поста является моя жена
Меня все просили выпустить это чудо-юдо в open-source(нашел минимум 10 реквестов!) но неугомонные руки Артёма доделали это чудо до https://speechcoreai.com (вменяемого прод решения которое почти не валится под нагрузкой, его увы выкладывать не будем), кстати он собрал огромный опус своих действий болей и проблем, он как синьор из тех тестов что форсят уже 3 дня решил взять и погрузится только в задачи чатинга LLM внутри курсора на пару недель
Но мы немного поразмышляли (я выпросил пару вечеров)
Встречайте!
Локальный домашний безопасный сервис whisperx-fronted-docker-compose полностью AI VIBE CODING 3000
Что переделал:
все конфиги через env
вырезал все хардкоды урлов
упростил сборку
выкинул кучу мусора
вырезал саммари из хардкода js файла перенес на бэкенд
как мог поработал над стабильностью (увы синхронщины оч много)
Удалил все лишние зависимости, база файлов в s3 сессии и бд в json)
Как поднимать (нужно будет два сервера или две видяхи) можно vllm взять удаленный
Берем локальную модель не тупее 7b на vllm
Берем еще сервер с 8гб памяти у видяхи
Делаем
Ииии, вы прекрасный у вас свой локальный сервис ASR (там даже есть апи)
Так как за основу взят whisperx то на rtx4500 скорость анализа записи длиной 1:30ч занимает 4 минуты
Юзабилити в массы!
Ваш личный/корпоративный/безопасный транскрибатор который можно доделать до крутого MVP
И так как вы помните я рассказывал тут про свой опыт AI кодинга (когда ни строчки не пишу сам)
Вышло достаточно сложно но если кратко ОНО не работает если ты не стараешься (как из мема "Да ладно?")
Меня все просили выпустить это чудо-юдо в open-source(нашел минимум 10 реквестов!) но неугомонные руки Артёма доделали это чудо до https://speechcoreai.com (вменяемого прод решения которое почти не валится под нагрузкой, его увы выкладывать не будем), кстати он собрал огромный опус своих действий болей и проблем, он как синьор из тех тестов что форсят уже 3 дня решил взять и погрузится только в задачи чатинга LLM внутри курсора на пару недель
Но мы немного поразмышляли (я выпросил пару вечеров)
Встречайте!
Локальный домашний безопасный сервис whisperx-fronted-docker-compose полностью AI VIBE CODING 3000
Что переделал:
все конфиги через env
вырезал все хардкоды урлов
упростил сборку
выкинул кучу мусора
вырезал саммари из хардкода js файла перенес на бэкенд
как мог поработал над стабильностью (увы синхронщины оч много)
Удалил все лишние зависимости, база файлов в s3 сессии и бд в json)
Как поднимать (нужно будет два сервера или две видяхи) можно vllm взять удаленный
Берем локальную модель не тупее 7b на vllm
Берем еще сервер с 8гб памяти у видяхи
Делаем
git clone https://github.com/vakovalskii/whisperx-fronted-docker-compose
docker compose build
docker compose up -d `
Ииии, вы прекрасный у вас свой локальный сервис ASR (там даже есть апи)
Так как за основу взят whisperx то на rtx4500 скорость анализа записи длиной 1:30ч занимает 4 минуты
Юзабилити в массы!
Ссылочки из новостей
ЕС реестр запрещенных сервисов
https://circabc.europa.eu/ui/group/d0803128-7d62-40ee-8349-c43ee92745aa/library/23dd00d2-90c0-4f58-9411-15be3807f1f4/details
Учимся говорить на иностранном языке
https://toritark.com/ru
Ai ide from amazon
https://kiro.dev/blog/introducing-kiro/
Ydb vector search
https://habr.com/ru/companies/yandex/articles/926724/
https://github.com/ydb-platform
https://ydb.tech/docs/en/quickstart
https://arxiv.org/pdf/2404.17625
Ai influencer
https://apob.ai/
Генерация видео для рекламы
https://higgsfield.ai/
Реестр экстремистских материалов
https://minjust.gov.ru/ru/extremist-materials/
Llmagent бенчмарк предсказания будущего
https://www.together.ai/blog/futurebench
Stt and diarization:
Whisperx
https://github.com/m-bain/whisperX
Whisper model/api plus pyannote model/api
https://github.com/pyannote/pyannote-audio?tab=readme-ov-file
ЕС реестр запрещенных сервисов
https://circabc.europa.eu/ui/group/d0803128-7d62-40ee-8349-c43ee92745aa/library/23dd00d2-90c0-4f58-9411-15be3807f1f4/details
Учимся говорить на иностранном языке
https://toritark.com/ru
Ai ide from amazon
https://kiro.dev/blog/introducing-kiro/
Ydb vector search
https://habr.com/ru/companies/yandex/articles/926724/
https://github.com/ydb-platform
https://ydb.tech/docs/en/quickstart
https://arxiv.org/pdf/2404.17625
Ai influencer
https://apob.ai/
Генерация видео для рекламы
https://higgsfield.ai/
Реестр экстремистских материалов
https://minjust.gov.ru/ru/extremist-materials/
Llmagent бенчмарк предсказания будущего
https://www.together.ai/blog/futurebench
Stt and diarization:
Whisperx
https://github.com/m-bain/whisperX
Whisper model/api plus pyannote model/api
https://github.com/pyannote/pyannote-audio?tab=readme-ov-file
Toritark
Изучайте языки с помощью ИИ-историй / Toritark
Изучайте языки естественным образом, читая и пересказывая истории, сгенерированные ИИ. Получайте мгновенную обратную связь для улучшения беглости речи. Начните свое бесплатное путешествие по изучению языков уже сегодня!
Forwarded from Open Source
This media is not supported in your browser
VIEW IN TELEGRAM
SurfSense
SurfSense — это настраиваемый AI-агент для исследований, который интегрируется с личной базой знаний и внешними ресурсами, такими как поисковые системы и платформы вроде Slack и YouTube.
Он поддерживает более 50 форматов файлов, быстро находит сохраненный контент и предоставляет ответы на естественном языке с цитированием.
Функции SurfSense также включают быстрое создание подкастов, преобразование чатов в аудио, поддержку различных TTS-провайдеров и гибкий поиск с использованием семантического и полнотекстового подходов.
https://github.com/MODSetter/SurfSense
================
👁 News | 👁 Soft | 👁 Gear | 👁 Links
SurfSense — это настраиваемый AI-агент для исследований, который интегрируется с личной базой знаний и внешними ресурсами, такими как поисковые системы и платформы вроде Slack и YouTube.
Он поддерживает более 50 форматов файлов, быстро находит сохраненный контент и предоставляет ответы на естественном языке с цитированием.
Функции SurfSense также включают быстрое создание подкастов, преобразование чатов в аудио, поддержку различных TTS-провайдеров и гибкий поиск с использованием семантического и полнотекстового подходов.
https://github.com/MODSetter/SurfSense
================
Please open Telegram to view this post
VIEW IN TELEGRAM
https://wan.video
Open source video generation
https://github.com/exa-labs/exa-hallucination-detector
Open source used exa search api
https://demo.exa.ai/hallucination-detector
https://ai-for-teens.yandex.ru/promo
Бесплатный курс для старшеклассников по ИИ и python
https://openrouter.ai/openrouter/horizon-alpha
Бесплатная модель от openrouter
https://designarena.ai/
Design Arena (elo rating on your ui/ux tasks)
https://blogs.microsoft.com/blog/2025/07/24/recommitting-to-our-why-what-and-how/
Оправдание алчности с помощью ИИ
https://www.entrepreneur.com/business-news/microsoft-study-ai-will-replace-automate-these-jobs/495189
А вот их отчет по прогнозу рынка труда из-за ИИ
https://kilocode.ai/
The best AI coding agent for VS Code
Kilo combines the best features of AI coding tools into one. Batteries included.
https://github.com/rafska/Awesome-local-LLM
Куча готовых шаблонов автоматизации для n8n
https://opal.withgoogle.com/landing/
Google Opal создание своих приложений без кода
https://github.com/TCM-Course-Resources/Practical-Ethical-Hacking-Resources
Хакни что угодно
http://chat.z.ai/
Бесплатно, Китай, чат
https://www.lindy.ai/
Бесплатно, собрать своего ИИ агента
https://grok.com/chat
Бесплатно, чат, x.com
Open source video generation
https://github.com/exa-labs/exa-hallucination-detector
Open source used exa search api
https://demo.exa.ai/hallucination-detector
https://ai-for-teens.yandex.ru/promo
Бесплатный курс для старшеклассников по ИИ и python
https://openrouter.ai/openrouter/horizon-alpha
Бесплатная модель от openrouter
https://designarena.ai/
Design Arena (elo rating on your ui/ux tasks)
https://blogs.microsoft.com/blog/2025/07/24/recommitting-to-our-why-what-and-how/
Оправдание алчности с помощью ИИ
https://www.entrepreneur.com/business-news/microsoft-study-ai-will-replace-automate-these-jobs/495189
А вот их отчет по прогнозу рынка труда из-за ИИ
https://kilocode.ai/
The best AI coding agent for VS Code
Kilo combines the best features of AI coding tools into one. Batteries included.
https://github.com/rafska/Awesome-local-LLM
Куча готовых шаблонов автоматизации для n8n
https://opal.withgoogle.com/landing/
Google Opal создание своих приложений без кода
https://github.com/TCM-Course-Resources/Practical-Ethical-Hacking-Resources
Хакни что угодно
http://chat.z.ai/
Бесплатно, Китай, чат
https://www.lindy.ai/
Бесплатно, собрать своего ИИ агента
https://grok.com/chat
Бесплатно, чат, x.com
wan.video
Wan AI | Wan 2.2: Leading AI Video Generation Model
Wan is an AI creative platform from Alibaba. It aims to lower the barrier to creative work using artificial intelligence, offering features like text-to-image, image-to-image, text-to-video, image-to-video, and image editing.
Forwarded from XOR
Полезное на ночь: репозиторий-роадмап, как стать девопсом в 2025 году
Внутри есть все, что нужно — от основ Git и Linux до CI/CD и Kubernetes с кучей ссылок на полезные, актуальные ресурсы. Можно прокачать отдельную тему, можно прям начать с 0.
Сохраняем. GitHub тут☕️
@xor_journal
Внутри есть все, что нужно — от основ Git и Linux до CI/CD и Kubernetes с кучей ссылок на полезные, актуальные ресурсы. Можно прокачать отдельную тему, можно прям начать с 0.
Сохраняем. GitHub тут
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров. Обе — микстуры экспертов, что означает, что несмотря на размер, если вам хватает памяти GPU, модели быстрые: 5.1b и 3.6b активных параметров.
Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.
Ссылки:
— https://openai.com/open-models/
— https://openai.com/index/gpt-oss-model-card/
— https://cookbook.openai.com/articles/openai-harmony
— https://gpt-oss.com/ - тут можно поиграть с моделью
Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.
И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.
Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.
Ссылки:
— https://openai.com/open-models/
— https://openai.com/index/gpt-oss-model-card/
— https://cookbook.openai.com/articles/openai-harmony
— https://gpt-oss.com/ - тут можно поиграть с моделью
Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.
И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.
Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
Forwarded from Сиолошная
Системная карточка со всеми бенчмарками для нетерпеливых: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
И более аккуратный блогпост: https://openai.com/index/introducing-gpt-5/
И более аккуратный блогпост: https://openai.com/index/introducing-gpt-5/
Forwarded from Борис опять
Оказывается у Univercity of Amsterdam есть отличный набор материалов к курсам по Deep Learning
https://uvadlc-notebooks.readthedocs.io/en/latest/index.html
Например, посмотрите какой красивый туториал по реализации SimCLR: https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/tutorial17/SimCLR.html
Куча каких-то тем о которых очень сложно найти нормальные материалы, например про Tensor Parallelism для обучения и инференса одной большой модели на нескольких GPU.
Лекции тоже частично доступны за прошлые годы, например 2023: https://uvadlc.github.io/lectures-nov2023.html#.
https://uvadlc-notebooks.readthedocs.io/en/latest/index.html
Например, посмотрите какой красивый туториал по реализации SimCLR: https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/tutorial17/SimCLR.html
Куча каких-то тем о которых очень сложно найти нормальные материалы, например про Tensor Parallelism для обучения и инференса одной большой модели на нескольких GPU.
Лекции тоже частично доступны за прошлые годы, например 2023: https://uvadlc.github.io/lectures-nov2023.html#.
Xbow
XBOW - XBOW Unleashes GPT-5’s Hidden Hacking Power, Doubling Performance
OpenAI's initial assessment of GPT-5 showed modest cyber capabilities, yet integrating it into the XBOW platform unleashed its hidden hacking power and doubled our agent's performance
https://xbow.com/blog/gpt-5
Получается выпустили модель gpt-5 которая на внутренних тестах по кибер безопасности показала себя как gpt-o3, а по факту интегрировав в платформу XBOW это просто настоящий хакер. 70% прирост по сравнению со всеми другими моделями. Вот так и выпустят в конце концов что-то опасное, даже не заметив.
Получается выпустили модель gpt-5 которая на внутренних тестах по кибер безопасности показала себя как gpt-o3, а по факту интегрировав в платформу XBOW это просто настоящий хакер. 70% прирост по сравнению со всеми другими моделями. Вот так и выпустят в конце концов что-то опасное, даже не заметив.
https://arxiv.org/abs/2508.09834
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
Large Language Models (LLMs) have delivered impressive results in language understanding, generation, reasoning, and pushes the ability boundary of multimodal models. Transformer models, as the foundation of modern LLMs, offer a strong baseline with excellent scaling properties. However, the traditional transformer architecture requires substantial computations and poses significant obstacles for large-scale training and practical deployment. In this survey, we offer a systematic examination of innovative LLM architectures that address the inherent limitations of transformers and boost the efficiency. Starting from language modeling, this survey covers the background and technical details of linear and sparse sequence modeling methods, efficient full attention variants, sparse mixture-of-experts, hybrid model architectures incorporating the above techniques, and emerging diffusion LLMs. Additionally, we discuss applications of these techniques to other modalities and consider their wider implications for developing scalable, resource-aware foundation models. By grouping recent studies into the above category, this survey presents a blueprint of modern efficient LLM architectures, and we hope this could help motivate future research toward more efficient, versatile AI systems.
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
Large Language Models (LLMs) have delivered impressive results in language understanding, generation, reasoning, and pushes the ability boundary of multimodal models. Transformer models, as the foundation of modern LLMs, offer a strong baseline with excellent scaling properties. However, the traditional transformer architecture requires substantial computations and poses significant obstacles for large-scale training and practical deployment. In this survey, we offer a systematic examination of innovative LLM architectures that address the inherent limitations of transformers and boost the efficiency. Starting from language modeling, this survey covers the background and technical details of linear and sparse sequence modeling methods, efficient full attention variants, sparse mixture-of-experts, hybrid model architectures incorporating the above techniques, and emerging diffusion LLMs. Additionally, we discuss applications of these techniques to other modalities and consider their wider implications for developing scalable, resource-aware foundation models. By grouping recent studies into the above category, this survey presents a blueprint of modern efficient LLM architectures, and we hope this could help motivate future research toward more efficient, versatile AI systems.
https://github.com/RootbeerComputer/backend-GPT/blob/main/backend/server.py
Надо бы апгрейдить этот прикол двухлетней давности. Бэкендерский кринж.
1 современная модель
2 state = sql/vector db
3 инструменты, включая поиск, запуск кода
4 so
5 frontend через httpx или другой способ генерации разметки бэкендом
6 генерация и пересборка кода веб приложения на лету
7 добавить стриминг
8 мультимодальность
Надо бы апгрейдить этот прикол двухлетней давности. Бэкендерский кринж.
1 современная модель
2 state = sql/vector db
3 инструменты, включая поиск, запуск кода
4 so
5 frontend через httpx или другой способ генерации разметки бэкендом
6 генерация и пересборка кода веб приложения на лету
7 добавить стриминг
8 мультимодальность
GitHub
GitHub - RootbeerComputer/backend-GPT
Contribute to RootbeerComputer/backend-GPT development by creating an account on GitHub.