Канал Доброго Вани | Data Science и Продуктики
1.5K subscribers
502 photos
26 videos
7 files
116 links
Самый добрый канал про DataScience, ML, техпред, стартапы и про много чего еще 🥰

Реклама, сотрудничество и любые другие вопросы -> @Pleshakovski
Download Telegram
Что-то на деловом х2 💅💅💅

P.s. простите, что не выходят посты, неделя ужасно загружена
10🔥5👍1
Решил немного рассказать про наш прошлогодний проект, про НейроСтаниславского. Возможно, кто-то знает из предыдущих постов, а кто-то не в теме, но осенью прошлого года мы создали помощника драматурга на базе ЖПТ3.

https://itatmisis.ru/theatre

Кто-то скажет, что в этом нет научной новизны. Кто-то скажет, что это работает кривовато. Я скажу, что это был наш первый крупный проект, на который мы положили 99,9% нашего времени и здоровья, чтобы всё вышло так, как оно вышло (на тот момент еще не было чатжпт и тема с ИИ-ботами еще не ушла настолько глубоко в массы). Да и еще пьесу поставили в театре с использованием этой модели.

Мне кажется, ИИ-отрасль насколько убежала вперед, что в некоторых передовых разработках люди уже не находят смысла. Однако какие-то базовые идеи для ИИ-ботов до сих пор не реализованы, так в чем проблема заполнить эту нишу какими-то идейными проектами? Да, в этом, скорее всего, мало науки, но в этом есть определенное бизнесовое зерно, да и жить станет проще с такими модельками)

Безусловно, выход чатжпт повлиял на эту ситуацию, до этого любое упоминание в речи фразы "Я работаю с ИИ" ввергало людей в шок. Сейчас уже есть ассоциации с чатжпт, многие на него подсели, но не более того.

Ничего не имею против ресерча, это мегакруто, я сам иногда в него погружаюсь и за матешу топлю, но...
Имхо, идеальное время, чтобы (хотя бы немного) переключиться с ресерча на продуктовый МЛ 🤜🤛

#ИсторияАдмина #Стартапы
👍91
Лучшее занятие в полпервого ночи

Кто разберет варианты в комментах?)
Разрабы кредитных скорингов на месте?
😁6💩2
Как поживает админ? Насыщенно, я бы сказал

Сегодня поеду на митап ТинькофАИ лаба, послушаю про их нейросеточки. Про ASR особенно актуально. Если кто-то тоже едет, то пишите)

К нашему проекту присоединился бэкенд. Возможно, скоро расскажу что вообще разрабатываем, но это неточно🥲

А в воскресенье поеду на митап года среди инвесторов, чего жду уже с июля. Десятки эмитентов, инфлюенсеров - очень крутой ивент.

Ну и, конечно, грядет декабрьский парад хакатонов, готовимся залетать, закупаем кофе и энергосы
🔥7💩1
Хороший митапчик получился. Интересные выступления про диффузию, спич рекогнишн и дипфейки.

Ооочень много заряженных ребят, было очень приятно пообщаться.

Ну и вкусная 🍕, куда без нее
7🔥1
Лица удаленщиков представлять не нужно
7
Еще пару слов о вчерашнем митапе, с которого я ушел только в 8 вечера, послушав еще КЛВЗ кристалл, Совкомбанк, Кармани и Глобалтранс.

Огромный плюс таких конференций- это общение. С другими инвесторами (после общения с которыми, как минимум начинаешь думать, что расти можно и нужно еще быстрее), с инфлюенсерами (и да, не все инфенсеры- инфоцыгане🙂).

Молчу уже про заряд эмоций, крутые доклады, инсайты и афтерпати в хинкальной.

Вобщем, всем понедельник, друзья. Заряжаемся на продуктивный день 🌅

(В ближайшее время будет больше контента по датасайнс)
8
#Ботаем

Сегодня поговорим про распределение тренировочной и тестовой выборок. Пусть, мы имеем задачу прогнозирования количества правильных ответов (допустим, на какой-то тест) в день. То есть True - это правильный ответ, False - неправильный (по оси X отмечены дни, по оси Y - кол-во True и False в эти дни).

На картинке изображен реальный кейс (тренировочная выборка). Видно, что, начиная с определенного дня, соотношение True и False резко меняется. В то же время дни, взятые для тестовой выборки, шли сразу после тренировочных и имели соотношение True и False такое же, как на правой части картинки.

Просто взять и выкинуть кусок трейна невыгодно, так как все равно часть трейна с "плохим" распределением содержит в себе полезные зависимости, которые может извлечь модель. И что делать в таком случае, когда часть распределения трейна похожа на тест, а часть - нет?

Как обычно, однозначного ответа на этот вопрос нет. Можно попробовать (как это делали легенды из нашей тимы Mr MISISter) давать больший вес той части трейна, которая имеет нужное распределение (используя Catboost Pool weight, например). Можно обучить сначала на одной части, затем на другой (такой себе файнтун).

В очередной раз напомню, что почти каждая задача уникальна и требует индивидуального подхода к решению. Лидируем и катбустируем💪
5🔥2👍1