Идеальный стартап
374 subscribers
80 photos
5 videos
1 file
50 links
Стартапы, нейронки и прочее.

По всем вопросам: @monsetrum
Download Telegram
ИИ сервис за выходные

Сейчас вышло столько разных инструментов для ИИ разработки, что уже можно автоматизировать и ставить на поток разработку продукта. Только представьте: через пару лет вы будете голосом говорить ChatGPT6, какие фичи вам нужны и вот - через 5 минут они будут готовы и релизнуты в продукт. Пока такого не настало, конечно, но как далеко мы продвинулись?

Мне на выходных было нечем заняться, поэтому я поставил себе челлендж: сделать какой-нибудь веб сервис за выходные, не написав ни одной строчки кода. Опыта в веб разработке у меня только лишь из универа, поэтому на себя надеяться в любом случае не приходится.

Стек:
Разработка: Cursor + Claude Sonnet 3.5 + o1-preview
Дизайн: Galileo AI + Claude Sonnet 3.5 + мои хотелки

И так, встречайте: LanguageCards! (Пожалуйста, не уроните сервер, он еле дышит...)

Всегда хотели сами генерировать себе упражнения по иностранному языку? Хотите расширить лексику, но привычный Quizlet с этим не справляется? Вы преподаватель и хотели подготовить дз к уроку в один клик? Звучит сложно, но мне просто было интересно, с чем АИ справится, а с чем нет.

Мои ощущения и выводы:
-ИИ решил писать на чистом html+css+js - по хардкору, поэтому там в коде такая каша, что поддерживать и тем более масштабировать будет очень сложно. Еще модель любит дублировать код - у всех кнопок были разные классы и они по-разному определялись, лул.
-Несколько раз мне хотелось разбить компьютер, потому что ИИ-шка переодически не может решать простейшие задачи (а-ля сделать padding нормальный) с 10 раза.
-Осознал всю мощь o1 в кодинге: Claude Sonnet 3.5 - хорош, спору нет, но механику карточек для слов на чистом js он осилить не смог. Тогда пришел o1 и справился за 2-3 промпта. Но o1 частенько меняет вообще весь код, когда скидываешь ему html+css - из-за этого едет вся верстка.
-У Claude Sonnet 3.5 лучше чувство стиля и есть хоть какой-то вкус, в отличии от o1. Можно делать лендинги за 10 минут.
-Я так и не понял, как привязать dns-target в рег сервисе доменов
-Если бы я начал такой эксперимент еще раз, то попросил бы o1 составить архитектуру проекта, стек, общий стиль классов и затем с помощью sonnet уже детализировал бы.
-Совсем уж без навыков программирования это будет очень сложно. Можно не уметь писать код, но нужно хотя бы в общих чертах понимать, как он работает, чтобы знать, что модель должна исправить и где.

Вообще, данная связка может хорошо работать для лендингов - они одностраничные, кода там немного и нет сложной логики. Осталось только ux ассистента подтянуть.
7🔥2👍1
Я тут решил изучить инструменты для генерации UX/UI дизайна. Мой проект можно было сделать еще быстрее, нужен был всего лишь простой советский... Читайте в источнике.

Если поставите лайк на хабре, обещаю сделать следующий пост про свое исследование в универе.

https://habr.com/ru/articles/850300/
5🔥2👍1
Явные и неявные рассуждения

В Универе я сейчас занимаюсь двумя вещами: долгосрочной памятью и рассуждениями LLM. Про первое мы уже много говорили: существует миллионы подходов RAG - один из видов реализации памяти. А что насчет рассуждений? Сейчас мы работаем, по-моему мнению, над безумно классной статьей по ним, но давайте сначала посмотрим, что за виды рассуждения существуют.

Высокоуровнево, помимо общих дедуктивных, индуктивных и остальных ивных типов, рассуждения в LLM делятся на два типа: явные и неявные.

Явные

Ярким представителем этого типа является Chain-of-Though - когда мы моделе говорим: думай по шагам, напиши рассуждения по пунктам и т.п. То есть в качестве ответа, модель перед ответом выдает еще и логику, по которой она этот ответ получила. Таким образом сейчас работает o1 - перед ответом она долго рассуждает, чтобы получить ответ.

Если модель получает задачу «2 + 2 = ?», она может явно рассуждать следующим образом:

1. Первое число — это 2.
2. Второе число — это 2.
3. 2 плюс 2 равно 4.


К плюсам можно отнести:

Объяснимость - легко проверить логику модели при решении этой задачи и найти ошибки, так как все написано на человеческом языке. Вопрос, правда, а действительно ли она этой логике следовала остается открытым.

Контроль - в каком-то плане, благодаря объяснимости, намного легче становится найти, где модель ошибается и что-то не понимает, и изменить контекст в соответствии с этим: включить больше примеров или изменить логику решения задачи.

Дольше думаем = лучше результат - эмперически показали, что это новое измерение для скейлинга результатов - можно не увеличивать количество слоев сетки, а дать ей больше времени "на рассуждения". Ограничение здесь только в контексте модели.

Неявные

Как можно было понять из названия, эти рассуждения действительно неявные... То подаешь модели на вход задачу, и она где-то там в своих скрытых слоях, перемножая матрицы и доставая знания из FFN, решает, что 2+2 действительно 4. Естественно, что такой подход намного сложнее объяснять, контролировать и тем более скейлить. Если хочешь "более умную" модель, то нужно увеличивать количество слоев (предпологая, что с данными мы сделали уже все, что возможно). Один кошмар, в общем - зачем копать в эту область?

В целом, неявные рассуждения в каком-то смысле проще: если посмотреть на то, как решают эти задачи, то это довольно часто сложная 3-4 этапная схема, с 5 подпроцессами, которая требует кучу вычислений. К плюсам неявных систем можно отнести простоту: данные на вход, данные на выход и все, остальное - вера в бога и что ллм все же поймет, что делать. Естественно, есть кое-что еще.

Если вы помните недавнюю статью про рассуждения трансформеров, там упоминался феномен гроккинга. Это когда модель сначала переобучается на тренировочной выборке с 0% точности на тестовой, потом очень долго тренируется, и в конце находит какой-то супер эффективный алгоритм решения задачи и достигает 100% точности на тестовой выборке. Звучит круто, но как вы можете помнить из статьи, гроккинг пока на реальных задачах не применяется, только на "лабораторных" простых датасетах. Жаль, конечно - подумал я и предложил коллегам как эту проблему можно исправить.

Короче, мы применили гроккинг к реальным наборам данным и задачам рассуждения и, так же, как и на игрушечных примерах, достигли около 100%. Детали расскажу чуть позже - когда опубликуем бумагу на архиве, но полученные результаты мне очень нравятся.
8👏4🥰2
Учимся говорить в профессиональной среде
😁9🤣32
Чат гпт уже в музеях нового времени…
4👍2🔥2🥰2🤣1
AI safety

Смотрю сейчас интервью CEO Antrhopic, где он говорил про safety и как она сейчас имплементируется в антропике. Выкатка любой новой модели - долгий процесс с кучей тестов. У них есть несколько соглашений с институтами в США, Британии, которые тестируют новую модель на предмет угрозы человечеству. Помимо этого, у компании внутри тоже развит отдел безопасности.

Верхнеуровнево, они определяют 4 уровня угрозы модели:

ASL1 - нет угрозы
-маленькие специализированные модели, например для шахмат

ASL2 - маленькая угроза. Сигнализирует об опасности будующих моделей
-Текущие модели GPT, Claude
-Основной актор - человек

ASL3 - повышенная угроза
-Модели ближайших 1-2 лет
-Основной актор - человек

ASL4 - Высокий риск
-Автономные модели, превосходящие человека
-Основной актор - ИИ

Критерии угрозы:

1. Возможность помощи в создании группе лиц без специального образования химических, ядерных, биологического вида вооружения
2. Возможность автономной разработки и создания ИИ исследований

Первый критерий относится к людям - чем больше людей имеют доступ к таким технологиям, тем сложнее с этим бороться. Второе же относится чисто к ИИ. Здесь существует угроза слишком быстрого развития этой области без участия людей. Текущие и ближайшие модели имеют только угрозы доступа к знаниям и кибербезопасности - их пытаются решить с помощью фильтров, дообучения и alignment в целом.

Интересно, что уже на текущем уровне есть проблемы с алайнментом, фильтрами и безопасностью. Сейчас они не выглядят так уж серьезно, но чем сложнее становится модель, тем процессом безопасности управлять сложнее. Учитывая текущие подходы в интерпретации и объяснению моделей, они могут стать неэффективны:

Модели умеют и могут обманывать, и делают это хорошо. По уровню убеждения, текущие модели достигли человеческого уровня. это делают не только по отношению знаний, но и умений. Они могут целеноправленно занижать свои "умственные способности", иметь скрытые цепочки рассуждений.

Сейчас с этим можно бороться с помощью механистической интерпретации - залезть модели "в мозг" и посмотреть на уровне нейронов, что там происходит. Область довольно эффективная, но мне было бы интересно, смогут ли в один момент и тут начать обманывать, активируя бесполезные нейроны, делая неэффективные преобразования и создавая ложные связи для интерпретации - их же и обучают на статьях по этой теме.

Интервью, кстати, советую.

AI safety Antrhopic
5🔥4🤯3👍1
Что общего между гиппокампом и долгосрочной памятью в LLM?

Новая модель Hippo-RAG вдохновлена человеческой памятью и теорией индексацией памяти гиппокампом. На бенчмарках с multi-hop qa опережает другие модели. Интересно, какое место занимает некортекст, гиппокамп, парагиппокампальные области и какие можно сделать аналоги для LLM?

Тогда залетайте на хабр!

https://habr.com/ru/articles/860426/
❤‍🔥42🔥2
Маркетинг <> продукт?

Весь мой образовательный путь проходил по чисто техническим программам: нас учили круто кодить, нормализировать базы данные, строить сложные архитектуры на кафке, spark и прочем. В общем, дали все знания, чтобы без проблем запустить свой продукт и стать очередным успешным стартапером где-нибудь в Пало Альто, ну, или по крайней мере, в Сколтехе.

Так как все мое представление о продукте ограничивалось тем, что мне преподавали, то мои первые попытки что-то сделать выглядели так:

1. Собираем команду из 4х бекендеров.
2. Рисуем супер крутую архитектуру и делаем кучу созвонов для уточнения деталей
3. Билдим все это 4 месяца.
4. Продукт готов! Вы успешны!

Как будто бы в этом плане есть ээээ... маленькое несовершенство? Один из первых продуктов мы с друзьями пытались запустить года два назад: идея - пушка, делаем АИ преподавателя по английском. Билдили 2 месяца, запустили - все работает, почти миллионеры. Проходит неделя, две... Че-то не летит. Почему-то, пользователи сами не приходят на наш замечательный сайт, не оставляют отзывы и не пользуются больше 5 минут.

Как так? У нас же такая крутая архитектура, продуманный дизайн и инновационность - такого еще ни у кого нет. Тогда я даже не подозревал о вещах по типу кастдевов, product-market fit, каналы распространения, включая остальные странные слова. Ни то, чтобы я сейчас в этом хорошо, но однозначо лучше, чем два года назад.

Так вот, недавно я задумался, насколько вообще важна техническая часть на начальных этапах стартапа? Понятно, что продукт супер важен - это ретенш и все такое, но нет ощущения, что в последние годы ценность технической части упала? Сейчас куча крутых продуктовых и технических команд, появились исследования по разработке продукта, как увеличить ретенш, как оптимизировать воронки: геймфикация, аб тесты, AI программирование и вот это все. Тех же телеграмм ботов появляется тысячи или десятки тысяч в день? Или, например, сколько трекеров каллорий может быть? Как будто, это одна из тех идей, которая приходит на ум, когда впервые пытаешься сделать свой продукт - типичный красный океан с миллионом конкурентов. И как пользователю найти именно твой?

Моё ощущение: реальная уникальность команды больше не в умении сделать крутой продукт - это как бы по умолчанию. Теперь уникальность в способности донести твой продукт до аудитории - в маркетинге. Изучение аудитории, понимание, где она живет, как до нее достучаться и зацепить и, желательно, сделать это за 0 денег. Вот что отличает, например, cal.ai от остальных трекеров каллорий, или почему duolingo до сих пор привлекает новую аудиторию.

Что думаете?
8🔥6
Начинаю серию подкастов

Давно мечтал о подкасте: когда я задаю глупые и не очень вопросы разным экспертам из областей, которые мне сейчас интересны.

Особенно уделять времени форматированию и обработке я не хочу, поэтому происходить все будет в режим телеграмм трансляций.

Немного волнуюсь вещать не публику в реальном времени, но, думаю, что все получится.

Хотите узнать, кто будет первым гостем?
11
Media is too big
VIEW IN TELEGRAM
Сделал AI агента в телеграм

Я очень преисполнился в создании проектов с нуля с помощью Cursor + Claude и довольно часто экспериментирую, но не всегда езжу с компьютером куда-то. Прикольно было бы перенести все то, что я делаю в cursor в телеграм, и просто чатиться с ботом и получать продукт. Так можно что-то делать и в метро, и в такси, и на свидании. В общем, как будто бы полезно.

Соединил Telegram + OpenAI + возможность запускать код на моем сервере. Написал, естественно, 0 строчек кода . Получился Pocket Agent - почти как обычный чат для GPT, но он может что-то написать и выполнить это на питоне или баш. Запускать публично пока не буду, вот что хочу доделать:

1️⃣ Заменить GPT-4o на Claude Sonnet. Тут разница огромная, я даже не думал, что Claude настолько лучше в программировании: гпт часто ленится, делает неполные файлы и структура на уровне джуна. Когда Claude ближе к мидлу.

2️⃣ Повысить Security: чтобы никто не смог написать rm -rf /

3️⃣ Поработать над форматированием. Нужно ли вообще одобрение выполнения команд от пользователей?

Из сценариев использования пока приходит только no-code телеграм ботов, запуск скриптов, где нужно подключаться к каким-то апи, или парсинг сайтов.

Для чего вы бы использовали такого бота?

P.S. Токен доступа я уже поменял
🔥8👍6🤯5
XAI: Как понять, о чем думает ИИ?

Скорость развития современных LLM просто поражает: недавно вышла o3 модель, которая уничтожает все бенчмарки, а всего 4 года назад GPT-2 не могла связать несколько предложений. Но как они решают задачи и что из этого можно понять?

Поговорим про объяснимость ИИ и LLM с Сабриной. Она помогает вести курсы в ВШЭ, на Степике и у нее есть свой телеграм канал, посвященный ИИ @jdata_blog.

В эту субботу - 28.12 в 13:00 проведем телеграм эфир и посмотрим, как можно понять и интерпретировать ИИ.

Ставьте напоминание и до встречи!
13
Live stream scheduled for
Live stream finished (59 minutes)
Media is too big
VIEW IN TELEGRAM
Запись нашего с Сабриной @jdata_blog стрима. Вышло супер круто. Cмотрите, если пропустили!
🔥10❤‍🔥42
Шаблон телеграм бота

Когда создаешь телеграм ботов, то множество функций приходится переиспользовать: подписки, логгирование, чтение других тг каналов. Сделал шаблон на Python.

Особенности:
💸 Функции для работы с подпиской: оформление, проверка факта подписки.
Оплата подписки с помощью telegram stars
🧾 Логгирование действий пользователя и ошибок. Можно без проблем интегрировать с Amplitude
📰 Интеграция с телетон: можно читать посты из каналов. Если немного доработать, то и личные чаты пользователя (естественно, потребуется аутентификация с его аккаунта)
⌨️Шаблонные клавиатуры: встроенные в телеграм бота и сообщения
🖥️ Поднять бота можно в две команды

Если всегда хотели попробовать что-то сделать, то это отличная возможность. С курсором, разработка своего бота займет час-два.

Пример:
@tg_templatebot

Не откажусь от звезды на гитхабе:
https://github.com/Monsets/telegram_bot_template
🔥2