csdscvetc
8 subscribers
39 photos
1 video
1 file
90 links
Привет, я Data Scientist. Пишу свои мысли о Data Science с упором на Computer Vision, и не только.
Download Telegram
​​Астрологи объявили взрывной рост объемов 3D-контента — ситуация стремительно набирает обороты. За конец марта опубликовано 13 статей про генерацию трехмерных объектов из текста и изображений.

SV3D: Stability AI показала новую модель для реконструкции изображения в 3D с высоким разрешением.
LATTE3D от NVIDIA: новый метод преобразования текста в 3D, позволяющий генерировать текстурированные сетки из текста всего за 400 мс.
Isotropic3D: генерация изображения в 3D на основе создания многоракурсных плоских изображений.
MVControl: преобразование текста в 3D с управлением по типу ControlNet (резкость, глубина и т. д.).
Make-Your-3D: преобразование изображения в 3D с возможностью управления генерацией с помощью текстовых подсказок.
MVEdit: поддерживает преобразование текста в 3D, изображения в 3D и 3D в 3D с генерацией текстур.
VFusion3D: преобразование изображения в 3D на базе предварительно обученных моделей видеодиффузии.
GVGEN: преобразование текста в 3D с объемным представлением.
GRM: эффективное преобразование текста в 3D и изображения в 3D за 100 мс.
FDGaussian: преобразование изображения в 3D с предварительной генерацией разных ракурсов в 2D.
Ultraman: преобразование изображения в 3D с упором на человеческие аватары.
Sculpt3D: и снова преобразование текста в 3D.
ComboVerse: преобразование картинок в 3D с комбинированием моделей и созданием сцен.
Не везде доступен код, так что сравнивать сложно, но первые результаты уже есть — пара божественных мезоамериканских нейролягушек.
🗿1
Forwarded from Унежить душу
Нашёл просто офигительный нейропроект VERLAB. Один из самых остроумных, что я видел.

Его создатели генерят мебель, интерьеры и архитектуру, используя элементы русской культуры или природы за реф.

Например, на прикрепленных фотографиях можно посмотреть на мебель по мотивам творчества Билибина и керамику, вдохновлённую советской ёлочной игрушкой.

Кроме этого на канале можно увидеть интерьеры, вдохновлённые Сталкером Тарковского, озёрами в Астраханской области и горами Кабардино-Балкарии.

В общем, одно из самых лучших применений нейронки, что я видел. Ведут канал, кстати, практикующие архитекторы и преподаватели Британки.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Приболел и застрял дома, поэтому сделал в этот раз более полезную GPT конкретно для ChatGPT приложений в режиме «аудио»:

Если вы искали работу, то вы наверное помните как это стрессово — во время интервью, HR может задать какие-то вопросы по CV, и хоть вы их и знаете, можете разнервничаться, запинаться — отсутствие практики сильно добавляет тревожности.

Многие с кем я говорил, кто работает в корпорациях из топа IT — часто говорили что «пройти собеседование» это навык, который можно практиковать и развивать, а сама работа отличается от того, что спрашивают на собеседованиях (так везде ☕️).

Чтобы помочь как-то людям, появилось целое направление HR-видео для кандидатов — они называются «Mock Interview» или «Интервью покабудки»:
Псевдо-собеседование записывается на камеру, иногда между реальным HR и реальным сотрудником из какой-то корпорации, потом выкладывается на Yotube и кандидатам это помогает понять как именно отвечать на вопросы и как готовиться к интервью.

Естественно, такое интервью — не адаптировано конкретно под ваше резюме, конкретно под ваш язык, или под вакансию на которую вы откликаетесь.

Поскольку мы уже живем в АИ-будущем, я подумал что это нужно исправить.

⚙️ Mock Interview Practice GPT:

1) Сохраняете вакансию и ваше CV в виде PDF или HTML страницы, или просто копируете как текст (только отметьте где что)

2) Открываете мою новую GPT «Mock Interview Practice»

3) Вставляете туда файлы / текст, и пишите ей в стиле «Спасибо что пригласили меня, давайте начнем»

4) GPT предложит вам включить «Voice Mode» (иконка 🎧 в аппе, в вебе этой функции нет) — обязательн включите его

5) Проходите интервью как в жизни — займет минут 15-20, в конце, попросите дать фидбек по тому, что улучшить и над чем поработать

6) Добро пожаловать в OpenAI, передавайте привет Сэму

GPT поддерживает все языки, в видео пример (и я болеющий)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
В Nature вышла интересная статья (pdf), в ней рассматрели «человеческий язык» как инструмент для передачи информации и пришли к выводу, что это клевый способ для коллаборативной работы нас как вида (и шитпоста в интернете), но язык не нужен мозгу для «мыслительного процесса»

Я никогда не задумывался, как выглядит «мысль» если исключить из нее «язык», поэтому вот пару интересных наблюдений из статьи о том как устроен процесс мышления:

1. Мысли, вероятно, опираются на абстрактные, неязыковые ментальные представления. Это могут быть визуальные, пространственные или другие специфические представления под конкретные задачи и концепции. Как человек, который в любой момент времени может вспомнить любой маршрут по которому я ходил где-то и был трезвый, могу сказать что все так, у меня «карта местности» просто существует в виде образа в голове, как оказалось, так не у всех

2. В голове есть ансамбль нейронок — в статье упоминается несколько «мозговых сетей», участвующих в различных задачах:

— Есть нейронка «множественных требований» для целенаправленного поведения и решения новых задач, она поощряет находчивость при решении проблем, активируется при выполнении когнитивно сложных задач, особенно тех, которые требуют гибкого мышления и адаптации к новым ситуациям. Она же отвечает за планирование и рабочую память;

— Есть нейронка «теории разума» или «эмпатии»: для социального рассуждения и понимания психических состояний – мыслей, чувств, убеждений и намерений других людей. Это та, которая у нас уже хуже чем в GPT4o;

— Есть «Дефолтная нейронка», активируется когда мозг в покое – связана с кучей когнитивных штук, включая: способность мысленно перемещаться во времени (вспоминая прошлое или представляя будущее), пространственное познание, размышление о себе, своих чертах и опыте. Интересно, что повреждение это "сетки" ведет к депрессии или даже шизофрении (в теории).

3. Символическое мышление может происходить без языка как инструмента. Это означает, что мозг может манипулировать абстрактными символами или концепциями, не опираясь на слова или грамматические структуры. Условно, когда вам что-то «пришло в голову из неоткуда», это этот эффект.

4. Рассуждение по специфичным задачам — разные типы мышления (математические, социальные, пространственные и т.д.), по-видимому, задействуют разные мозговые «нейронки», что предполагает, что процессы мышления могут быть в некоторой степени модульными и специфичными для конкретных задач; это как если бы у одной мощной LLM было много Lora натренированных на конкретных задачах датасета, а не единая модель для решения всех задач.

5. Параллельная обработка — все эти «нейронки» для решения специфичных задач (социальные, причинно-следственные, решение проблем и т.д.) могут работать параллельно, получая при этом информацию с разных «сенсоров» тела, а не определяться единой системой, такой как язык.

6. Мы сильно похожи на животных — в статье упоминается непрерывность человеческой эволюции, предполагая, что наши процессы мышления могут быть более похожими на процессы мышления других животных, чем считалось ранее, просто они оказались более сложными из-за наших расширенных когнитивных способностей. То есть, условная собака может оказаться намного ближе к нам по процессу мышления чем мы раньше думали.

7. Культура развивает мышление — хоть это и не прямой механизм мышления, в статье упоминается что передача культурных знаний от поколения в поколение, повышает когнитивные способности человека с течением времени, это уже влияние языка как инструмента.


Короче, все еще ничего не понятно — но на всякий случай продолжайте тренировать лоры ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Надо посмотреть на нее повнимательнее
Forwarded from Denis Sexy IT 🤖
Одно из направлений развития AI индустрии которое лично мне очень нравится, это «предсказательные» модели – вы ей данные на вход, а она вам предсказывает погоду, курсы, счета за воду, что угодно.

Так вот, IBM выпустила маленькую модель «Tiny Time Mixer (TTM)», с нормальной лицензией для коммерческого использования, которая для своего размера бьет много крупных моделей такого же типа – если вы любите попытку предсказания будущего, то вот полезная ссылка про эту модельку, передавайте привет там в будущем

P.S. Любопытно, что модель не на архитектуре трансформеров (на которой все эти GPT4 и тп)
Forwarded from Denis Sexy IT 🤖
Недавно провел часовую встречу по работе, записал ее на видео, и решил потестировать Google Gemini 1.5 Pro в плане анализа аудио и видео – скормил ей видео файл на ~50 минут и начал задавать вопросы по встрече

Gemini 1.5 Pro начала выплевывать ответы по предложению, при этом тратя 960 тысяч токенов на запрос 🎶

В итоге, самый дешевый и быстрый способ получить важные инсайды по встрече, это пройтись по аудио-дорожке с помощью Whisper (я использовал этот мак апп, но вообще это Open Source модель) и уже полученный текст, приносим в Sonnet 3.5 и задаем по встрече вопросы с температурой 0

В итоге, на часовую встречу тратится примерно 11 тысяч токенов. Если вам кажется, что модель придумала что-то, можно спросить не галлюцинация ли это следующим сообщением и она поправит себя

Я знаю, что есть готовые сервисы анализа встреч, но зачем платить за еще одну подписку, если всех дел минут на 10

P. S. Промпт агента анализатора текста где-то уже есть в канале, но быстрее тут сделать с нуля, можно даже под конкретную тему встречи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Пока нет сил на полноценный контент, хотя бы репосты поделаю что ли
🔥1
Forwarded from 🏆 Data Feeling | AI (Aleron M)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Кодеры, это вам — чувак запихнул Claude 3.5 в VSCode и теперь он может заменить собой целую команду разрабов.

Claude «держит в голове» весь проект/репо, а не только текущую страницу. Благодаря этому он лучше справляется с большим количеством взаимодействий между различными файлами, не путает их имена и пишет более качественный код.

🎯 Расширение бесплатное, налетаем!

🎚️ С вас буст за лайфхак. Теперь сможете экономить десятки часов на кодинге, высвобождая время на более творческую часть❤️

Уже год использую copilot-like расширения -это бомба 💣
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🏆 Data Feeling | AI
🔥 Кодеры, это вам — чувак запихнул Claude 3.5 в VSCode и теперь он может заменить собой целую команду разрабов. Claude «держит в голове» весь проект/репо, а не только текущую страницу. Благодаря этому он лучше справляется с большим количеством взаимодействий…
Инсайт от пользователей: «Там финт ушами, тип само расширение - бесплатное, но ему нужен ключ по апи, и уже на сайте конторы есть лимиты. Для новых пользователей - 5 баксов». Так что не все бесплатно🤷‍♀️
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents

Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код

Агента Смита пожалуйста не делайте, спасибо
Forwarded from Denis Sexy IT 🤖
Google выпустил манул по промпт инженерингу на 68 страниц – в нем все существующие стратегии составления промптов:

https://www.kaggle.com/whitepaper-prompt-engineering

Все кто хотели вкатиться в LLM-парселтанг, время пришло
🌚1