topdatalab
1.27K subscribers
99 photos
10 videos
17 files
222 links
Канал поддержки книги «Как монетизировать данные». https://topdatalab.ru
Download Telegram
Amazon не справился с разработкой AI движка для Alexa 🙁

Мое личное впечатление от нынешней Alexa. Как колонка для воспроизведения музыки - отлично.
Как голосовой помощник - полная ерунда. Я так и не смог подружить ее со спотифай. А покупать через нее я просто боюсь.

И я все думал, они нанимают лучших. На собеседование к ним очень сложно попасть.
Рассказывают про Customer Obsession :(. В общем, если бы я был там разработчиком, я бы не хотел, чтобы мое имя ассоциировалось с этим продуктом.

История продолжилась на появлении LLM. В Амазон решили сделать сами, но не справились.
В итоге Alexa с собственной LLM внутри “испытывала трудности с формированием ответов, иногда требуя шесть или семь секунд, чтобы распознать запрос и ответить на него.”
В итоге запустят на Anthropic Claude:
https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/


PS: Кстати, OpenAI обещает выкатить полностью свой новый звуковой движок только осенью. А я все лето ждал когда его включат, чтобы английский учить с ней.
Все-таки звук будет посложнее, чем генерация текста
👍101
Оказывается на Metabase можно писать несложные приложения без авторизации!

На выходных собрал такой отчет. Интерактивный dashboard с двумя параметрами: HS коды импортированного товара и SIC код рода деятельности компании.
https://app.retenly.com/public/dashboard/b9c30308-6099-4921-a645-d18f1af1aba5?tab=3-importer-statistics&commodity_(hs)_codes=32041100&commodity_(hs)_codes=32041200&commodity_(hs)_codes=32041300&commodity_(hs)_codes=32041400&commodity_(hs)_codes=32041500&commodity_(hs)_codes=32041600&commodity_(hs)_codes=32041900&sic_codes=20120&sic_codes=13100&sic_codes=13200&sic_codes=13300&sic_codes=13921&sic_codes=13990

Теперь любой поставщик, который ищет B2B покупателя в UK может это сделать самостоятельно.
В отчете он увидит общую статистику по выбранным HS и SIC кодам, во второй вкладке названия и разных параметры компаний, в третьей имена директоров.
Список можно загрузить в CRM, найти контакты и продавать!

HS и SIC коды подобрать не так просто, но с этой работой отлично справилась ChatGPT. Я ей отдал описание поставляемых товаров, а она мне в ответ необходимые HS и SIC коды.
Для ссылки выше я искал коды для поставщика пигментов краски. Вот какие коды вернула ChatGPT:

3204 11 00 - Disperse dyes and preparations based thereon.
3204 12 00 - Acid dyes, whether or not pre metalized, and preparations based thereon; mordant dyes and preparations based thereon.
3204 13 00 - Basic dyes and preparations based thereon.
3204 14 00 - Direct dyes and preparations based thereon.
3204 15 00 - Vat dyes (including those usable in that state as pigments) and preparations based thereon.
3204 16 00 - Reactive dyes and preparations based thereon.
3204 19 00 - Other synthetic organic coloring matter and preparations based thereon.

SIC:
20120 - Manufacture of dyes and pigments: Directly related to companies producing or using dyes and pigments.
13100 - Preparation and spinning of textile fibers: Companies that prepare and spin fibers may require dyes.
13200 - Weaving of textiles: Involves companies engaged in textile weaving, which would likely need your products.
13300 - Finishing of textiles: Focus on companies involved in the finishing process, which typically involves dyeing.
13921 - Manufacture of soft furnishings: Soft furnishing manufacturers often require dyed textiles.
13990 - Manufacture of other textiles n.e.c. (not elsewhere classified): This is a broad category that might include various textile manufacturers needing dyes.

PS: Если хотите сами поиграть с данными, то это можно сделать через ссылку https://retenly.com/login
Я сделал автоматическую регистрацию пользователя через API Metabase. Работает только для Google аккаунтов
5👍3🔥3
мне кажется будет интересно, если интересуетесь карьерой в больших компаниях
Forwarded from New Yorko Times (Yury Kashnitsky)
Стрим про карьеру, собеседования и бигтех
#career #interviews

Choose your fighter. Собрал вам тут бигтех-банду для стрима:

- Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие). Недавно устроилась, может рассказать про собесы и что именно спрашивают на менеджера;

- Артем Санакоев (LI) – Staff Research Scientist в цюрихской Мете, GenAI, автор канала @ai_newz (пост-приветствие). Собеседует на синьорные позиции в Мету;

- Сергей Иванов (LI) – Senior Applied Scientist в парижском Amazon, соавтор канала @graphML. Провел 100+ собесов в Амазон, может рассказать про хардкорные поведенческие вопросы;

- Борис Цейтлин (LI) – Staff MLE в берлинском eBay, автор канала @boris_again (пост-приветствие). Недавно отмучился с собесами;

- Юрий Кашницкий (LI) – Staff GenAI Solutions Architect в амстердамском Google Cloud, автор канала @new_yorko_times (пост-приветствие). Читатели этого канала знают про этот долгий заход по собесам (пост). Он же (то есть я) будет скоморошить, вести встречу.

Вопросы можно задавать заранее тут в треде, либо во время стрима. Можно адресовать конкретно кому-то из спикеров, например, «Вопрос Борису: доколе?»

Время: 20 сентября, 17:30-18:30 CET. Streamyard – ссылка для просмотра (там же по ссылке можно добавить в календарь).

Записи не будет, все вживую. Мест – максимум 1000 😀
2👍2
New Yorko Times
Стрим про карьеру, собеседования и бигтех #career #interviews Choose your fighter. Собрал вам тут бигтех-банду для стрима: - Татьяна Шаврина (LI) – Research Scientist Manager в лондонской Мете в команде LLama-4, авторка канала @rybolos_channel (пост-приветствие).…
Я сходил туда и было довольно интересно послушать людей, кто работает на топ позициях в МААНГ:
1) Если ты идешь в ML ресерч в MAANG, то лучше хоть какое-то PhD, даже из бывшего СССР. Аргумент следующий - тебе придется приоритезировать свои исследования, выбирать куда двигаться, и всему этому ты должен был научиться на PhD
2) Для старших позиций Behavioral interview - это 80% успеха прохождения интервью. Здесь важно показать масштаб решенных проблем, например, в деньгах. Если масштаб не очень большой - плохо. Про подготовку - выписать и запомнить несколько своих примеров в виде: ситуация, проблема, как вы ее решили.
3) Субъективное мнение - в MAANG ML сложнее стало попасть, возможно это связано с появлением LLM
4) Сами позиции ML engineer будут вырождаться и разделяться на обычную разработку и ML research
5) Еще важное - в ML research проблема - сидишь и пишешь одну статью целый год :). Нет ничего нового под этим солнцем. Сам страдаю

UPDATE: запись выложили https://www.youtube.com/watch?v=6E2JWezLzs4
👍91
Как вы помните, я начал летом заниматься алгоритмами высокочастотного трейдинга на криптобиржах.
Меня попросили рассказать детали - не могу, под NDA. 😢

Но я могу посоветовать пару книг по теме:
1) Developing High-Frequency Trading Systems (SebastienDonadio| SouravGhosh| RomainRossie) - я прочитал только начало, в программную часть не лез.
2) Trades, Quotes and Prices. Financial Markets Under the Microscope - мне посоветовал ее один очень хороший трейдер. Много математики, но автор старался все упрощать для понимания. Много ссылок на литературу. Сейчас ее читаю.

PS: до лета я был в этой теме полным нулем, сейчас хотя бы начал разговаривать на одном языке с коллегами
8👍3😱1🤓1
Про эффективность последних LLM в программировании.
Понадобилось мне сменить способ авторизации в Metabase (лучшая система BI отчетности). Вроде бы сделать легко - плати 500$ в месяц за 10 пользовательских лицензий и подключай свою авторизацию.
Но ведь это Open Source, денег платить я не хотел, и решил немного переписать Metabase, сменив доступную авторизацию через Google на свою.
Вроде задача не сильно сложная, но сам проект очень сложный (хотя написан красиво). Написан на двух языках программирования Clojure и TypeScript(React + Redux).
Оба я их знаю плохо :(.

Итак я обратился к LLM:
1) Claude Sonnet 3.5 - не справился с TypeScript. Вроде что-то получалось, но не работало. Хотя было вроде удобнее c точки зрения UI.
2) ChatGPT 4o - то же самое
3) ChatGPT o1-preview - очень порадовал. Было несколько моментов, но я смог отдебажить и разобраться в вопросах сам.

Сама задача заняла около 8 часов с учетом мучений с предыдущими LLM. Возможно, первые две LLM лучше бы справились, если бы я формулировал задачу лучше.
Но o1-preview смогла помочь с почти такими же формулировками.
🔥7
Думаю написать большой пост про ML research. Как к нему подходить, грабли, на которые я напоролся.
Пишите вопросы в комментариях, попробую на них ответить!
🔥10👍2
Вчера была конференция OpenAI, где они рассказывали про текущие и будущие изменения продукта.
https://simonwillison.net/2024/Oct/1/openai-devday-2024-live-blog/

Мне лично было очень интересно почитать, что OpenAI теперь поддерживает API реального времени для приложений.
Кроме текста поддерживаются форматы данных, к которым мы привыкли в ChatGPT: звук, изображения. Причем, она может отвечать звуком!
Они опубликовали Speech API, которое, например реализовано в приложении Speak для изучения языков. Поставлю себе обязательно.
Как раз вчера тестировал новый аудио движок в ChatGPT приложении. Это реально большое изменение, и оно ударит по всему.
От преподавателей языка на italki до операторов call центра.
Что еще?
1) Улучшение работы JSON для приложений. Очень важная вещь. Я с этим мучался 🙁
2) Рекомендуется пользоваться o1-mini для кодинга и математики, хотя по моему мнению o1 preview лучше в этом плане.
3) Показано, как можно обучить небольшие модели на основе датасета из больших моделей. Очень полезно для оптимизации расходов

Пока не дочитал до конца - но Сэм Альтман стали сливаться с темы AGI :). Но это нисколько не умаляет достижений OpenAI.

PS: Спасибо Федору Шабашеву, что он расшарил этот блог пост в LinkedIn
👍10🔥3
Мой товарищ в Лондоне, бывший разработчик Google делает свой проект a-la Goolge Streetview
для морских экологических проектов. Они обрабатывают видео с камер и строят такие интерактивные карты
https://3d.wildflow.ai/W32Em7

Выглядит очень интересно!
🔥8👍1
скриншот оттуда
🔥12
Простите, про жизнь и наследование в UK!
If a person gives away more than £325,000 in cash or gifts but dies within seven years, recipients could be liable to pay inheritance tax.

Если вы подарили что-то и умерли в течение семи лет, то принявшему подарок придется заплатить 40% примерно 🙁 (С порогом в 325 тыс.)
Пора делать прогнозные модели на ML, которые прогнозируют смерть в течение семи лет
🌚7🔥4👍3😁2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Claude выпустила computer use, теперь через чат можно управлять вашим компьютером!
Подробнее: https://www.anthropic.com/news/3-5-models-and-computer-use
🤯4👏3
Нашел интересный проект по использованию LLM локально на своем ноуте.
Качать тут: https://nexa.ai/download-sdk
Потом просто запустить на своем ноутбуке в терминале команду “nexa run llama3.2”
Скорость ответа очень приличная! Буду использовать на своих локальных проектах
Мой диалог в скриншоте.
Вообще она много что умеет, speech-to-text, text-to-img и все делает на вашей локальной машине

Update: в комментариях подсказали ollama и LM studio
Я ненавижу удаленку!

Особенно, когда я работаю удаленно, а остальные члены команды сидят в офисах. В таком случае все вопросы решаются очень медленно. Что бы ни говорили, но если стремишься к серьезным результатам, офис эффективнее.

Когда я работал на Бостон, офиса не было, все было хорошо. Открыли офис в Бостоне, все вопросы пошли мимо меня. Почему? Потому что можно было перекинуться парой фраз в офисе, не подключая удаленщика меня. Тогда я понял, что пора сливаться оттуда.

С каким я удовольствием ходил в офис в Лондоне каждый день. Половину времени сидел там один, так как у остальных был гибридный режим. Эх

PS: к полностью удаленным командам это не относится, потому что там только онлайн коммуникации.
И я с пониманием отношусь, что фирмы закручивают гайки и тянут всех из удаленки в офис
💯14👍4🫡2👏1
Получил вот такое письмо, так как попал в outreach. Думаю, что я есть еще в других системах, но такое письмо получаю впервые. Рынок данных становится цивилизованным!
См блок Your Rights - я могу удалить оттуда свои персональные данные
👍4🔥3
Чуть больше чем через час (в 18 по Лондону) будет Zoom вебинар от одного из разработчиков AI.
Речь будет идти про агентов в LLM.
Регистрация здесь: https://lu.ma/6l07vqgk

Я сам послушаю, так как вижу насколько последние модели OpenAI (mini и preview) на агентах лучше, чем прошлые
👍3
Началось!
Рассказывает про Klarna - финтех компанию
Сэкономил тысячи долларов в год, добавив кастомную авторизацию в Metabase.

По прежнему считаю, что Metabase одна из самых удобных BI систем для пользователей.
Но есть одна проблема - коммерческая PRO версия довольно дорогая - 500 долларов в месяц плюс 10 за пользователя.
Мне нужна была только одна фича из PRO - моя собственная система авторизации.

В итоге я хакнул код Metabase, и опубликовал свою версию с инструкциями здесь
https://github.com/rzykov/metabase/blob/fiev_auth/Fief_auth.md
Демо видео https://www.youtube.com/shorts/hfmGOYF_6RI

Кому это нужно:
1) Вы пишите стартап/продукт и вам нужно дать поиграться данные пользователям в приличном интерфейсе
2) Вы внедряете Metabase, но пока хотите сэкономить 🙂

Пользуйтесь на здоровье
🔥25
К черту AI видео. Человек рулит.
На выходных записал видео ролик к проекту.
На проработку процесса у меня ушел примерно месяц. Много читал реддит.
Тестировал софт для AI генерации. Даже клонировал свой голос в elevenlabs - ничего стоящего не нашел.
При прослушивании чувствуется рука AI 🙁 не натурально.

Кто будет тратить на просмотр видео свое время, если сразу заметит, что автор потратил мало усилий на его создание и воспользовался роботом?

Также я заметил, что многие видео редакторы впаривают AI фичи, которые не являются AI.
Например, анализ звука на паузы, чтобы их отметить в видео ряде? Нейронка там не нужна, нужно примитивное решение.

Итак по шагам:
1) Основной инструмент - OBS (бесплатная LUMA). Я писал в нем скринкаст со звуком (15 минут)
2) Закидываю видео в Slack (сюрприз!). Он автоматически транскрибирует. (1 минута)
3) Беру субтитры и отправляю их в ChatGPT. Прошу поправить английский и сгенерировать SRT файл. (1 минута)
4) Пишем второй звук в OBS с наложением моей головы на видео! Для этого в OBS загружаю наш прошлый ролик. (15 минут)
Для субтитров я написал плагин для OBS, который в отдельном окне показывает субтитры, которые засинхронизированы с прошлым видео.
Получился телесуфлер!
Для записи моей головы сверху воспользовался обычным зеленым экраном. Нейронки пока выдают всякие ауры вокруг головы.
Записали
5) Монтаж - прохожусь консольной программой auto-editor, которая автоматически отмечает паузы в звуке и видео и сразу выдает файл для монтажа в DaVinchi Resolve.
Есть один хак - сразу указать, что участки с паузами проигрывать быстрее, чем обычные, это сократит время монтажа
Пример: auto-editor new_audio.mp4 --margin 0.2sec --edit "(or audio:0.03 motion:0.06)" --video-speed 1 --silent-speed 3 --export resolve
(3 минуты)
6) В Resolve я загружаю файл с прошлого шага, делаю один прогон и удаляю пару косяков (10 минут)

Результат тут:
https://www.youtube.com/watch?v=YpUKnWEm_6g

Сейчас у меня создание такого ролика занимает примерно час на все. Заказал микрофон. Голову записывал через камеру Iphone
🔥14👏21