🦶Как я начал много ходить: история и наблюдения.
Раньше я думал, что занимаясь спортом 4-5-6 раз в неделю, я точно двигаюсь достаточно. Однако, в какой-то момент я понял, что активность внутри дня важнее, чем разовые спортивные сессии. Сравнивая регулярный спорт и много ходьбы, я бы выбрал ходьбу. И вот почему:
·Ходьба - это идеальный вид активности с низкой вероятностью травм и 0 порогом входа (нет необходимости в спецзалах, расписаниях, других людях или тренере).
·Ходьба способствует улучшению настроения и снижению уровня стресса благодаря выработке эндорфинов.
Но я все же за комбинацию спорта + ходьбы.
Теперь о том, как я увеличил среднее количество шагов до 15 тысяч в день. Два простых фактора:
1) Я стал выбирать звонки, где мне не нужен экран и где я не ключевой спикер, чтобы ходить во время них. AirPods Pro и Zoom обеспечивают отличный звук. Особенно ценю Zoom за низкую чувствительность к шумам по сравнению с другими платформами. И да - я хожу на звонках и в -20 (спасибо что аирподсы выключают/включают звук на девайсе), и в ливень и тд.
2) Жена - важный фактор. Мы гуляем вместе каждое утро за кофе и вечером перед сном, по крайней мере 30 минут.
Отдельно хочу упомянуть про звонки на улице с точки зрения СДВГ и концентрации. На улице я гораздо более сосредоточен: не открываю YouTube или мессенджеры, ведь у меня уже есть параллельная активность - ходьба. Она помогает мне погрузиться в бесконечный транс, позволяя внимательно слушать даже трёхчасовой контент. Нет звонков? Слушаем аудиокниги!
А еще когда ходишь по улице, то видишь много смешных моментов и вывесок)
Рекомендую пробовать!
@aihappens
Раньше я думал, что занимаясь спортом 4-5-6 раз в неделю, я точно двигаюсь достаточно. Однако, в какой-то момент я понял, что активность внутри дня важнее, чем разовые спортивные сессии. Сравнивая регулярный спорт и много ходьбы, я бы выбрал ходьбу. И вот почему:
·Ходьба - это идеальный вид активности с низкой вероятностью травм и 0 порогом входа (нет необходимости в спецзалах, расписаниях, других людях или тренере).
·Ходьба способствует улучшению настроения и снижению уровня стресса благодаря выработке эндорфинов.
Но я все же за комбинацию спорта + ходьбы.
Теперь о том, как я увеличил среднее количество шагов до 15 тысяч в день. Два простых фактора:
1) Я стал выбирать звонки, где мне не нужен экран и где я не ключевой спикер, чтобы ходить во время них. AirPods Pro и Zoom обеспечивают отличный звук. Особенно ценю Zoom за низкую чувствительность к шумам по сравнению с другими платформами. И да - я хожу на звонках и в -20 (спасибо что аирподсы выключают/включают звук на девайсе), и в ливень и тд.
2) Жена - важный фактор. Мы гуляем вместе каждое утро за кофе и вечером перед сном, по крайней мере 30 минут.
Отдельно хочу упомянуть про звонки на улице с точки зрения СДВГ и концентрации. На улице я гораздо более сосредоточен: не открываю YouTube или мессенджеры, ведь у меня уже есть параллельная активность - ходьба. Она помогает мне погрузиться в бесконечный транс, позволяя внимательно слушать даже трёхчасовой контент. Нет звонков? Слушаем аудиокниги!
А еще когда ходишь по улице, то видишь много смешных моментов и вывесок)
Рекомендую пробовать!
@aihappens
Мы в одном чате выяснили, чем пользуется Telegram для расшифровки аудио. Ответ окажется очевидным, но путь к нему интересный.
Хронология:
- Я отправляю аудиосообщение в чат, его расшифровывает друг, и в конце видит следующий текст: "Ну, в общем, мы это узнаем завтра. Зав. Редактор субтитров А. Семкин, Корректор А. Егорова". Я, конечно, так не заканчивал своё сообщение, но это хорошо, что не "directed by Robert B. Weide".
- Мы гуглим и находим интересную тему на GitHub: https://github.com/openai/whisper/discussions/928, где люди описывают баги расшифровки Whisper:
1. Иногда он выводит (на французском) ❤️ Translated by Amara.org Community.
2. Когда музыка затихает, он выводит: "Thank you for watching".
3. Во время проигрывания закрывающей темы: Legendas pela comunidade Amara.org.
- И так далее.
Что интересного в теме: там есть список фраз, которые встречаются как артефакты, и если вы используете Whisper в проде, то можете их просто исключить. Для РФ это, например, "ru": ["Редактор субтитров А.Синецкая, Корректор А.Егорова"].
Саммари:
1. Telegram перешёл с Google на Whisper (раньше точно был Google, и было стрёмно, что данные уходили ещё и туда).
2. Whisper обучали на данных сериалов, в том числе с странных платформ, но на комбинации звука и субтитров.
3. Если вы используете Whisper, возьмите из ссылки выше слова, которые надо вырезать из текста (это сообщение специально для Паши Д.).
4. Генеративные модели смешно галлюцинируют 🙂
@aihappens
Хронология:
- Я отправляю аудиосообщение в чат, его расшифровывает друг, и в конце видит следующий текст: "Ну, в общем, мы это узнаем завтра. Зав. Редактор субтитров А. Семкин, Корректор А. Егорова". Я, конечно, так не заканчивал своё сообщение, но это хорошо, что не "directed by Robert B. Weide".
- Мы гуглим и находим интересную тему на GitHub: https://github.com/openai/whisper/discussions/928, где люди описывают баги расшифровки Whisper:
1. Иногда он выводит (на французском) ❤️ Translated by Amara.org Community.
2. Когда музыка затихает, он выводит: "Thank you for watching".
3. Во время проигрывания закрывающей темы: Legendas pela comunidade Amara.org.
- И так далее.
Что интересного в теме: там есть список фраз, которые встречаются как артефакты, и если вы используете Whisper в проде, то можете их просто исключить. Для РФ это, например, "ru": ["Редактор субтитров А.Синецкая, Корректор А.Егорова"].
Саммари:
1. Telegram перешёл с Google на Whisper (раньше точно был Google, и было стрёмно, что данные уходили ещё и туда).
2. Whisper обучали на данных сериалов, в том числе с странных платформ, но на комбинации звука и субтитров.
3. Если вы используете Whisper, возьмите из ссылки выше слова, которые надо вырезать из текста (это сообщение специально для Паши Д.).
4. Генеративные модели смешно галлюцинируют 🙂
@aihappens
вышел концерт моего друга, над которым он страдал, а я (без шуток) плакал, сильная в общем работа. Он только что вышел на ютубе - гляньте, поставьте лайк, коммент оставьте плз, для меня это очень важно)
https://www.youtube.com/watch?v=wjuvaaxccAQ
https://www.youtube.com/watch?v=wjuvaaxccAQ
YouTube
Андрей Айрапетов — "ПОЗОРИЩЕ" | Сольный stand-up концерт 2024 |18+
Позорище=зрелище.
Всем спасибо за поддержку!
Ссылка для донатов
https://www.donationalerts.com/r/andreyayrapetov
Карта Сбера
5469 4900 1688 4971
Карта Тинькофф
2200 7001 6962 7147
Карта Каспи-банка для международных переводов
4400 4302 6917 8098
Купить…
Всем спасибо за поддержку!
Ссылка для донатов
https://www.donationalerts.com/r/andreyayrapetov
Карта Сбера
5469 4900 1688 4971
Карта Тинькофф
2200 7001 6962 7147
Карта Каспи-банка для международных переводов
4400 4302 6917 8098
Купить…
Будем скоро писать еще один подкаст с Димой Мацкевичем про текущее состояние в мире AI/GPT. Накидайте вопрос и тем, о чем хочется узнать.
я перестал участвовать в гонке "расскажи все новости про AI", но новости от компании Антропик заслуживают вашего внимания.
спустя год появилась модель, которая со смешной припиской (о ней в конце) обгоняет GPT4 по качеству и это модель ОПУС, которая еще и умеет принимать за 1М токенов контекста.
ключевое из блог поста:
1. Серия Claude 3: Включает модели Haiku, Sonnet и Opus, каждая из которых адаптирована под определенные задачи. Такое разнообразие позволяет пользователям выбрать модель, наилучшим образом соответствующую их потребностям.
2. Усовершенствованные Возможности: Среди заметных улучшений - повышенные способности визуализации и расширенные функции обработки изображений, а также широкое окно контекста.
3. Ориентация на Бизнес: Пост акцентирует внимание на сильной ориентации на рынок B2B, что указывает на стратегическое направление для широкого применения.
Теперь про смешную приписку - все бенчмарки и история про обгон на повороте GPT4 сделаны до момента, когда гугл пару месяцев назад уже "обогнал" openai и те выпустили метрики для свежей модели с прокаченными промптами(см картинки), где видно, где и антропик и гугл все еще отстают. Те еще раз - за год GPT4 так реально никто и не обогнал :(
но модель антропик точно заслуживает больше внимания, чем гугл и ближайший месяц погружусь в нее.
@aihappens
спустя год появилась модель, которая со смешной припиской (о ней в конце) обгоняет GPT4 по качеству и это модель ОПУС, которая еще и умеет принимать за 1М токенов контекста.
ключевое из блог поста:
1. Серия Claude 3: Включает модели Haiku, Sonnet и Opus, каждая из которых адаптирована под определенные задачи. Такое разнообразие позволяет пользователям выбрать модель, наилучшим образом соответствующую их потребностям.
2. Усовершенствованные Возможности: Среди заметных улучшений - повышенные способности визуализации и расширенные функции обработки изображений, а также широкое окно контекста.
3. Ориентация на Бизнес: Пост акцентирует внимание на сильной ориентации на рынок B2B, что указывает на стратегическое направление для широкого применения.
Теперь про смешную приписку - все бенчмарки и история про обгон на повороте GPT4 сделаны до момента, когда гугл пару месяцев назад уже "обогнал" openai и те выпустили метрики для свежей модели с прокаченными промптами(см картинки), где видно, где и антропик и гугл все еще отстают. Те еще раз - за год GPT4 так реально никто и не обогнал :(
но модель антропик точно заслуживает больше внимания, чем гугл и ближайший месяц погружусь в нее.
@aihappens
Forwarded from Dbrain: распознавание документов
Хорошие специалисты на помойке не валяются. Поэтому ищем здесь. Помогайте искать (пожалуйста)
Ищем специалистов в команду Dbrain. Если ты крутой менеджер проектов по интеграции (B2B API) или специалист техподдержки, пиши нашему HR-Яне в ТГ: @lupandina
Если ты SMM-щик и можешь сделать этот пост круче, а ещё продвинуть его и задизайнить в фигме, пиши нашему контент-райтеру Кристине:
kristina@dbrain.io
@dbrainfriends
Ищем специалистов в команду Dbrain. Если ты крутой менеджер проектов по интеграции (B2B API) или специалист техподдержки, пиши нашему HR-Яне в ТГ: @lupandina
Если ты SMM-щик и можешь сделать этот пост круче, а ещё продвинуть его и задизайнить в фигме, пиши нашему контент-райтеру Кристине:
kristina@dbrain.io
@dbrainfriends
Ян Лекун шарит:
Язык имеет низкую пропускную способность: менее 12 байт/сек. Человек может прочитать 270 слов/минут или 4,5 слова/секунду, что составляет 12 байт/с (предполагая 2 байта за токен и 0,75 слов за токен). Современный LLM обычно тренируется с двухбайтовыми токенами 1x10 ^13, что составляет 2x10 ^13 байт. Это займет около 100 000 лет для чтения (по 12 часов в день).
Зрение гораздо выше пропускная способность: около 20 МБ/с. Каждый из двух оптических нервов имеет 1 миллион нервных волокон, каждый несет около 10 байт в секунду. 4-летний ребенок не спит в общей сложности 16 000 часов, что означает 1х10 ^15 байт.
Другими словами:
- Пропускная способность данных визуального восприятия примерно в 16 млн раз превышает пропускную способность данных письменного (или разговорного) языка.
- Всего за 4 года ребенок увидел в 50 раз больше данных, чем самые крупные LLM, обучаемые по всему тексту, доступному в интернете.
Это говорит нам о трех вещах:
1. Да, текст излишен, а визуальные сигналы в оптических нервах еще лишнее (не смотря на 100-кратные сжатые версии выходов фоторецептора в сетчатке). Но избыточность данных — это *точно* то, что нам нужно для Самоконтрольного Обучения для улавливания структуры данных. Чем больше избыточности, тем лучше для SSL.
2. Большая часть знаний человека (и почти все знания животных) исходит из нашего сенсорного опыта физического мира. Язык - это вишенка на торте. Нам нужен торт для поддержки глазури.
3. Нет *абсолютно ни за что* мы никогда не достигнем ИИ на человеческом уровне без того, чтобы машины обучались на сенсорных входов с высокой пропускной способностью, таких как зрение.
Да, люди могут умнее без зрения, даже довольно умнее без видения и прослушивания. Но не без прикосновения. Прикосновение тоже довольно высокая пропускная способность.
@aihappens
Язык имеет низкую пропускную способность: менее 12 байт/сек. Человек может прочитать 270 слов/минут или 4,5 слова/секунду, что составляет 12 байт/с (предполагая 2 байта за токен и 0,75 слов за токен). Современный LLM обычно тренируется с двухбайтовыми токенами 1x10 ^13, что составляет 2x10 ^13 байт. Это займет около 100 000 лет для чтения (по 12 часов в день).
Зрение гораздо выше пропускная способность: около 20 МБ/с. Каждый из двух оптических нервов имеет 1 миллион нервных волокон, каждый несет около 10 байт в секунду. 4-летний ребенок не спит в общей сложности 16 000 часов, что означает 1х10 ^15 байт.
Другими словами:
- Пропускная способность данных визуального восприятия примерно в 16 млн раз превышает пропускную способность данных письменного (или разговорного) языка.
- Всего за 4 года ребенок увидел в 50 раз больше данных, чем самые крупные LLM, обучаемые по всему тексту, доступному в интернете.
Это говорит нам о трех вещах:
1. Да, текст излишен, а визуальные сигналы в оптических нервах еще лишнее (не смотря на 100-кратные сжатые версии выходов фоторецептора в сетчатке). Но избыточность данных — это *точно* то, что нам нужно для Самоконтрольного Обучения для улавливания структуры данных. Чем больше избыточности, тем лучше для SSL.
2. Большая часть знаний человека (и почти все знания животных) исходит из нашего сенсорного опыта физического мира. Язык - это вишенка на торте. Нам нужен торт для поддержки глазури.
3. Нет *абсолютно ни за что* мы никогда не достигнем ИИ на человеческом уровне без того, чтобы машины обучались на сенсорных входов с высокой пропускной способностью, таких как зрение.
Да, люди могут умнее без зрения, даже довольно умнее без видения и прослушивания. Но не без прикосновения. Прикосновение тоже довольно высокая пропускная способность.
@aihappens
Хочется попробовать предсказать будущее; Чтобы понять, что будет с ИИ в ближайшие годы, давайте взглянем на ожидаемые тенденции:
- От GPT-3 к GPT-4, а потом к GPT-5. Это как переход от лошадиной тяги к автомобилю, а затем к беспилотникам (которые, к слову, ещё не стали повседневной реальностью). То есть должны быть действительно качественный переход, а не просто быстрее разгон или меньше расход;
- Вот как выглядят модели в цифрах (весах): GPT-3 имеет 0,18 триллиона параметров, GPT-4 — около 1,7 триллиона, а у GPT-5, скорее всего ждем, будет порядок 15 триллионов.
- Интересный момент: последние чипы от NVIDIA рассчитаны на модели с 27 триллионами параметров, что в точку соответствует нашим прогнозам.
Соответственно, я не верю в слухи о том, что модели следующего поколения выйдут в 2024 году, новые "патчи" - да, кардинально переходы - нет. Но готов поспорить, что увидим их в 2025. Еще раз - с качественным переходов пользовательского опыта.
А ещё вот вам интересный факт: крутое интервью с Сэмом Альтманом, которого я считаю ключевой фигурой в мире технологий, за два дня посмотрели всего миллион человек. И это при том, что интервью на английском. Странно, правда?
(линк интервью)
@aihappens
- От GPT-3 к GPT-4, а потом к GPT-5. Это как переход от лошадиной тяги к автомобилю, а затем к беспилотникам (которые, к слову, ещё не стали повседневной реальностью). То есть должны быть действительно качественный переход, а не просто быстрее разгон или меньше расход;
- Вот как выглядят модели в цифрах (весах): GPT-3 имеет 0,18 триллиона параметров, GPT-4 — около 1,7 триллиона, а у GPT-5, скорее всего ждем, будет порядок 15 триллионов.
- Интересный момент: последние чипы от NVIDIA рассчитаны на модели с 27 триллионами параметров, что в точку соответствует нашим прогнозам.
Соответственно, я не верю в слухи о том, что модели следующего поколения выйдут в 2024 году, новые "патчи" - да, кардинально переходы - нет. Но готов поспорить, что увидим их в 2025. Еще раз - с качественным переходов пользовательского опыта.
А ещё вот вам интересный факт: крутое интервью с Сэмом Альтманом, которого я считаю ключевой фигурой в мире технологий, за два дня посмотрели всего миллион человек. И это при том, что интервью на английском. Странно, правда?
(линк интервью)
@aihappens
Media is too big
VIEW IN TELEGRAM
Классный блог-пост про модель Sora.
https://openai.com/blog/sora-first-impressions
Лучшим (по мнению компании OpenAI) художникам предоставили ранний доступ к модели, чтобы получить обратную связь о ее работе, и знаете, какой основной был фидбек?
"ААААА, ОНА УБЬЕТ НАШУ РАБОТУ!!!"... Нет.
Working with Sora is the first time I’ve felt unchained as a filmmaker,” he states. “Not restricted by time, money, other people’s permission, I can ideate and experiment in bold and exciting ways.”
Генеративные модели расширяют возможности профессий, снимают ресурсные ограничения и бесконечно усиливают тех, кто проявляет к ним любопытство.
@aihappens
https://openai.com/blog/sora-first-impressions
Лучшим (по мнению компании OpenAI) художникам предоставили ранний доступ к модели, чтобы получить обратную связь о ее работе, и знаете, какой основной был фидбек?
"ААААА, ОНА УБЬЕТ НАШУ РАБОТУ!!!"... Нет.
Working with Sora is the first time I’ve felt unchained as a filmmaker,” he states. “Not restricted by time, money, other people’s permission, I can ideate and experiment in bold and exciting ways.”
Генеративные модели расширяют возможности профессий, снимают ресурсные ограничения и бесконечно усиливают тех, кто проявляет к ним любопытство.
@aihappens
Почти год лидером среди открытых решений для распознавания речи был Whisper от OpenAI. Но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI.
(я постестил на длинном звонке - работает правда хорошо. Можно 100 часов бесплатно потестить)
Universal-1 превосходит Whisper и другие коммерческие решения по нескольким ключевым параметрам:
Качество: на 10% и более точнее распознает речь на английском, испанском и немецком языках в сравнении с лучшими протестированными аналогами. При этом генерирует на 30% меньше некорректных вставок слов (так называемых "галлюцинаций") на обычной речи и на 90% - на фоновых шумах.
Скорость: в 5 раз быстрее благодаря оптимизации архитектуры и распараллеливанию инференса. Теперь 1 час аудио обрабатывается всего за 38 секунд на одном GPU.
Многоязычность: умеет распознавать речь сразу на нескольких языках в рамках одного аудиофайла (code switching).
В 71% случаев пользователи предпочитают транскрипции Universal-1 по сравнению с предыдущей моделью Conformer-2.
Новая версия Universal-1 уже доступна клиентам AssemblyAI через API. Похоже, лидерство в гонке решений для speech-to-text переходит от открытого Whisper к проприетарному Universal-1.
Учитывая такой технологический рывок, теперь AssemblyAI может составить серьезную конкуренцию гигантам вроде OpenAo, Google, Amazon и Microsoft на быстрорастущем рынке Speech AI.
@aihappens
(я постестил на длинном звонке - работает правда хорошо. Можно 100 часов бесплатно потестить)
Universal-1 превосходит Whisper и другие коммерческие решения по нескольким ключевым параметрам:
Качество: на 10% и более точнее распознает речь на английском, испанском и немецком языках в сравнении с лучшими протестированными аналогами. При этом генерирует на 30% меньше некорректных вставок слов (так называемых "галлюцинаций") на обычной речи и на 90% - на фоновых шумах.
Скорость: в 5 раз быстрее благодаря оптимизации архитектуры и распараллеливанию инференса. Теперь 1 час аудио обрабатывается всего за 38 секунд на одном GPU.
Многоязычность: умеет распознавать речь сразу на нескольких языках в рамках одного аудиофайла (code switching).
В 71% случаев пользователи предпочитают транскрипции Universal-1 по сравнению с предыдущей моделью Conformer-2.
Новая версия Universal-1 уже доступна клиентам AssemblyAI через API. Похоже, лидерство в гонке решений для speech-to-text переходит от открытого Whisper к проприетарному Universal-1.
Учитывая такой технологический рывок, теперь AssemblyAI может составить серьезную конкуренцию гигантам вроде OpenAo, Google, Amazon и Microsoft на быстрорастущем рынке Speech AI.
@aihappens
Год я исследую вопрос - как научить людей пользоваться GPT моделями (тут остались те, кто считает это бесполезным навыком?). Главный вывод такой:
Нужно не давать сложные промпты, замороченные примеры дообучения опенсорс моделей или информацию о том, как работает векторный поиск, а нужно закрыть для человека базовые проблемы: доступы, простые бытовые примеры, азы того, как это устроено, и познакомить со всеми функциями внутри (со всеми не знаком, мне кажется, никто). Казалось бы - если это дать, то точно все получится! Но ни-хре-на. Часто, чтобы учиться и меняться нам еще нужны другие люди :)
Из этого концепта появился gconf.io - интенсив, где ты изучаешь все про GPT вместе с хорошими людьми (еще есть много инфы тут @gptlovers). Мы его придумали с Олей Маркес и Димой Мацкевичем, где они помогают сдерживать мою гиковость, за что я им очень благодарен.
Мы провели этот формат в прошлом году, и отзывы были супер. В этом году мы часть вещей поменяли - контент записан сразу, и на звонках только обсуждаете и решаете задачи. Появились мини-клубы:
·помогающие профессии
·контент
·автоматизация личных дел
·про детей, семья
·как найти партнера
Которые проводим даже не мы, а приглашенные фасилитаторы и участники с прошлой конференции.
В общем, сообщество и формат меняются, и туда еще можно запрыгнуть. Ближайший интенсив начинается 15 апреля, будем тебя ждать на нем.
@aihappens
Нужно не давать сложные промпты, замороченные примеры дообучения опенсорс моделей или информацию о том, как работает векторный поиск, а нужно закрыть для человека базовые проблемы: доступы, простые бытовые примеры, азы того, как это устроено, и познакомить со всеми функциями внутри (со всеми не знаком, мне кажется, никто). Казалось бы - если это дать, то точно все получится! Но ни-хре-на. Часто, чтобы учиться и меняться нам еще нужны другие люди :)
Из этого концепта появился gconf.io - интенсив, где ты изучаешь все про GPT вместе с хорошими людьми (еще есть много инфы тут @gptlovers). Мы его придумали с Олей Маркес и Димой Мацкевичем, где они помогают сдерживать мою гиковость, за что я им очень благодарен.
Мы провели этот формат в прошлом году, и отзывы были супер. В этом году мы часть вещей поменяли - контент записан сразу, и на звонках только обсуждаете и решаете задачи. Появились мини-клубы:
·помогающие профессии
·контент
·автоматизация личных дел
·про детей, семья
·как найти партнера
Которые проводим даже не мы, а приглашенные фасилитаторы и участники с прошлой конференции.
В общем, сообщество и формат меняются, и туда еще можно запрыгнуть. Ближайший интенсив начинается 15 апреля, будем тебя ждать на нем.
@aihappens
ну и еще (не пропустите пост выше) - дядюшка Сэм был на втором месте лучших моделей меньше недели. Новая модель OpenAI снова в топ "человеческого" лидерборда. Смотреть тут. Я думаю у них в загашнике есть модели и покруче текущей. И кстати - теперь дата обновления знаний конец 2023 (был апрель).
@aihappens
@aihappens
Audio
Тестируем разные форматы с @Matskevich. Подкасты сложно делать, долго монтировать. Новый формат! Записали два видео про разборы кейсов с GPТ, держите первое. В нем мы обсуждаем и смотрим кейсы из инсты + рассказываю как работает suno и мы генерим бомбический трек (он будет ниже, послушайте!).
@aihappens
@aihappens