Aspiring Data Science – Telegram

Aspiring Data Science

@AspiringDataScience

318 subscribers

386 photos

10 videos

6 files

1.41K links

Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.

Download Telegram

About

Blog

Apps

Platform

Aspiring Data Science

318 subscribers

Aspiring Data Science

У каждого айтишника есть свои классные идеи стартапа. Но делать стартап в одиночку сложно: надо много знаний в разных областях, много времени, само-мотивация. Стоит ли вовлекать партнёров и работать в команде?

Anonymous Poll

У меня пока ещё нет своей достойной идеи

Буду работать в одиночку, даже если это затянет процесс - не хочу делиться ни с кем будущей прибылью

Буду работать в одиночку - не верю что партнёр(ы) будут выкладываться на 100% или что-то улучшат

Буду по возможности бесплатно консультироваться у друзей и знакомых

Буду нанимать платных консультантов и специалистов в тех областях, которые плохо знаю

Постараюсь найти одного или нескольких партнёров с долевым участием в расходах и будущей прибыли

Постараюсь продать свою идею в инкубатор стартапов, "бизнес-ангелам", возможно, сделав MVP

13 voters47 views10:40

Aspiring Data Science

#biglanguagemodels

"Хотя Google и Microsoft активно соперничают, пытаясь доказать превосходство своих чат-ботов, технология «человекоподобных» ИИ-инструментов — не единственная сфера применения машинного обучения и языковых моделей.

Наряду со слухами о планах представить более 20 инструментов на базе алгоритмов ИИ в ходе конференции I/O этого года, Google продолжает работать над языковой моделью, поддерживающей 1000 языков. В понедельник компания поделилась новой информацией о своей универсальной речевой модели, которую в Google описывают как «критический первый шаг» в реализации своих планов на этом поприще.

Ещё в прошлом ноябре компания анонсировала планы создания языковой модели, поддерживающей 1000 наиболее распространённых языков, рассказав об USM. Google описывает её как «семейство ультрасовременных речевых моделей» с 2 млрд параметров. При тренировке использовались 12 млн часов речи и 28 млрд предложений из более чем 300 языков.

USM уже используется Google для создания субтитров на YouTube, модель уже поддерживает автоматическое распознавание речи. Это позволяет автоматически определять и распознавать различные языки, от распространённых вроде английского или мандаринского диалекта китайского до амхарского или ассамского. По данным Google, уже сейчас USM поддерживает более 100 языков и послужит основой для строительства ещё более масштабной системы. Известно, что над аналогичной технологией ИИ-перевода уже работает Meta."

https://3dnews.ru/1082990/noviy-variant-rechevoy-iimodeli-google-usm-pozvolit-obrabativat-bolee-1000-yazikov

3DNews - Daily Digital Digest

Новый вариант речевой ИИ-модели Google USM позволит обрабатывать более 1000 языков

В разработке у Google находятся практически все виды ИИ-технологий, но Универсальная речевая модель (Universal Speech Model или USM) занимает в портфолио компании особое место.

49 views10:44

Aspiring Data Science

#hardware #cpu

А между тем полупроводниковый техпроцесс входит уже в зону 2 нанометров, кто бы мог подумать об этом десять лет тому? Разве что Мур.

"В рамках Intel 20A будет применена новая структура транзисторов RibbonFET с круговым затвором Gate-All-Around (GAA), а также новая схема питания Back Side Power Delivery (BSPD). Одновременное внедрение транзисторов меньшего размера, новой архитектуры транзисторов и новой схемы их питания является рискованным шагом со стороны Intel, однако компания ожидает, что техпроцесс Intel 20A позволит ей обогнать конкурентов в лице TSMC и Samsung. Компания Intel планирует начать использовать указанный техпроцесс уже в первой половине 2024 года. Последующий техпроцесс Intel 18A, как предполагается, будет внедрён до конца того же года и позволит поднять эффективность полупроводниковых устройств ещё на 10 %. Изначально компания планировала использовать для производства 1,8-нм полупроводников сканеры Twinscan EXE нидерландской компании ASML с оптикой, обладающей числовой апертурой 0,55 NA. Но поскольку она решила вывести указанный техпроцесс на рынок раньше, то ей придётся полагаться на менее передовые нынешние сканеры Twinscan NXE с апертурой 0,33 NA, а также на EUV-сканеры с последовательной сменой двух фотошаблонов. Intel считает, что её 1,8-нм техпроцесс производства станет самым передовым на рынке."

https://3dnews.ru/1082983/intel-zavershila-razrabotku-tehprotsessov-intel-18a-i-intel-20a

3DNews - Daily Digital Digest

Intel завершила разработку ангстремных техпроцессов для выпуска самых передовых чипов — их внедрят в 2024 году

Компания Intel завершила разработку своих технологических процессов Intel 18A (1,8-нм класс) и Intel 20A (2-нм класс), которые будут применяться при производстве как её будущих продуктов, а также чипов от сторонних заказчиков, которые будут выпускаться в…

56 views10:50

Aspiring Data Science

Придумайте заголовок )

45 views07:57

Aspiring Data Science

Forwarded from Пресидский залив (ex Надя пробует) (Nadia ズエバ)

Мой фреймворк для проектов с DL-экспериментами

Начиная новый проект, я представляю, что вокруг меня прогружается мир в игре. Взаимодействуя с ним я лучше понимаю задачу и как хорошо я могу ее выполнить. И что вообще значит "хорошо"

👉🏻 Формулирую задачу в первом приближении
Что хотим на вход, а что — на выход. Какие есть ограничения? По мере взаимодействия с миром проекта формулировка может уточняться

👀 Смотрю по сторонам.
Что уже было сделано до меня, куда можно потыкать палкой? Какие есть статьи по этой теме, на кого они ссылаются? С какими конфами/соревнованиями ассоциированы? Метрики? Здесь не нужно фиксировать метрику и архитектуру — это про насмотренность чтобы в процессе решения задачи быстрее ориентироваться

🚴Создаю бейзлайн-решение.
Это может быть опенсорс из коробки, главное, чтобы работало. Фраза с физтеха — "лучше иметь велосипед, чем дверь от ламборгини"

📈 Фиксирую метрики и голденсеты Второй пункт лучше зафиксировать и не менять, а вот первый по мере получения новой информации о нашем мире вполне может обновляться

🏆 Выбираю своего "чемпиона" из доступного на этом шаге набора — сетап в который больше всего верю. После обучения я делаю анализ слабых мест модели — на голденсете и процессинге семплов с большими ошибками

📚 Data
В первых итерациях — опенсорс, выявили сложные места и итеративно добавляем пачки. Почти всегда данные придется собирать дополнительно

♻️ После того как была получена модель с ok качеством, ее можно оптимизировать. Ускорять, уменьшать без значительных проигрышей в точности

📲 Куда поедем?
На сервер — стоит убедиться, что не течет память. Если модель будет жить на девайсе — стоит быть готовым к тому, что она не спортируется с пол-пинка. Особенно, если там есть какие-то нетривиальные слои. Я сталкивалась с ситуациями, когда приходилось повозиться с coremltools/tfjs и даже безобидным onnx

🛫 Taking off!
Все спортировано, с инфраструктурой помержено. АВ тесты прошли успешно. Посматриваем мониторинг и перемещаемся в следующую локацию 🧙🏻‍♂️

кто узнал игру? 😏

48 views11:29

Aspiring Data Science

#optimization #bayesian

https://www.youtube.com/watch?v=ImXOdgEgaTM&ab_channel=PyData

Quan Nguyen - Bayesian Optimization- Fundamentals, Implementation, and Practice | PyData Global 2022

www.pydata.org

How can we make smart decisions when optimizing a black-box function?
Expensive black-box optimization refers to situations where we need to maximize/minimize some input–output process, but we cannot look inside and see how the output is determined…

51 views12:01

Aspiring Data Science

Изучаем байесовскую оптимизацию

https://bayesoptbook.com/book/bayesoptbook.pdf

55 viewsedited 12:20

Aspiring Data Science

#timeseries #ml #competition #electricity

Тот момент, когда организаторы ML сорева с валидацией в реальном времени задают странные вопросы о том, где ты взял OOS данные...

53 viewsedited 14:41

Aspiring Data Science

#chess #stats

Нашёл свою старую шахматную аналитику по рейтингам FIDE, вдруг кому надо подобное. Цель была в определении "восходящих звёзд" и особенно "подозрительно быстро восходящих звёзд".

https://github.com/fingoldo/FideRatings/blob/master/FideRatings.ipynb

55 views16:22

Aspiring Data Science

#ml #featureengineering #geofeatures #advicewanted

Есть задачка на генерацию геофичей. Юзер логинится в приложение в разных точках города, Известны его координаты при логине и метки времени. Какие бы интересные фичи построить из графа его перемещений?

Пока что нашел вот такую прекрасную серию статей

https://towardsdatascience.com/graph-machine-learning-with-python-pt-1-basics-metrics-and-algorithms-cc40972de113

https://towardsdatascience.com/graph-machine-learning-with-python-part-3-unsupervised-learning-aa2854fe0ff2

https://towardsdatascience.com/graph-machine-learning-with-python-part-4-supervised-semi-supervised-learning-d66878161b79

Graph Machine Learning with Python Part 1: Basics, Metrics, and Algorithms

An introduction to networks via key metrics and algorithms on a Football dataset

100 viewsedited 19:23

Aspiring Data Science

Aspiring Data Science

#ml #featureengineering #geofeatures #advicewanted Есть задачка на генерацию геофичей. Юзер логинится в приложение в разных точках города, Известны его координаты при логине и метки времени. Какие бы интересные фичи построить из графа его перемещений? Пока…

#ml #gbm #catboost #quantileloss

https://towardsdatascience.com/a-new-way-to-predict-probability-distributions-e7258349f464

A New Way to Predict Probability Distributions

Exploring multi-quantile regression with Catboost

59 views07:56

Aspiring Data Science

#ml #graphs #yourfriendsfriendsvote #cascadingchurn

https://youtu.be/yhD2ksHPzWY

Improving ML Predictions with Connected Feature Extraction - Amy Hodler - ML4ALL 2019

Improving ML Predictions with Connected Feature Extraction
Amy Hodler

One of the most practical ways to improve our machine learning predictions right away is by using graphs for connected features. You’ll learn how graph algorithms can provide more predictive…

63 viewsedited 08:01

Aspiring Data Science

#surverys

Кто может посоветовать сервис для проведения опросов? Гугл формс, конечно, бесплатный, но по ссылке нельзя передать параметры (например, хэш юзера или кампании), и он не собирает ip, а если бы собирал, можно было бы у респондента не спрашивать страну.
СурвейМанки, с другой стороны, задирает цены, $34/mo и это только при оплате сразу за год, а так ещё выше.

63 views08:48

Aspiring Data Science

#ml #graphs #convolution #templatematching #spectral #laplacian #fourier #gcn #chebyshev #chebnets #cayleynets #graphsage #gin

Оказывается, ну почти всё в нашей жизни можно представить как граф. Так вот внезапно ты становишься объктом исследования науки и учёных, о которых ничего и не знал.

https://youtu.be/Iiv9R6BjxHM

Week 13 – Lecture: Graph Convolutional Networks (GCNs)

Course website: http://bit.ly/DLSP20-web
Playlist: http://bit.ly/pDL-YouTube
Speaker: Xavier Bresson
Week 13: http://bit.ly/DLSP20-13

0:00:00 – Week 13 – Lecture

LECTURE Part A
In this section, we discuss the architecture and convolution of traditional…

946 viewsedited 09:39

Aspiring Data Science

#recommendations

Попробовал трипадвизор, он советует кафешки, которые тупо не работают. Ну зато хоть размял свои мощные мышцы.

64 views12:21

Aspiring Data Science

#payments

Уважаемые подписчики из России, мне удалось открыть карту в зарубежном банке, если у вас из-за войны/санкций такая же аховая ситуация с оплатой зарубежных облачных сервисов (AWS, GCP, etc), какая была у меня недавно, но очень надо, можете написать в личку для помощи с оплатой. По себе знаю, что фиг кто поможет.

61 viewsedited 13:56

Aspiring Data Science

62 viewsedited 15:57

Aspiring Data Science

#ml #geofeatures #python

Отличная глава о подготовке геофичей

https://geographicdata.science/book/notebooks/12_feature_engineering.html

83 viewsedited 16:24