Aspiring Data Science
327 subscribers
390 photos
10 videos
6 files
1.46K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#finance

Это просто бриллиант какой-то. Абсолютно бесполезная по содержанию лекция, но докладчик посетил курсы ораторского мастерства. Как будто в театр сходил! На 20й минуте заснул. Советую против бессонницы.

https://www.youtube.com/watch?v=z-HHsUfc1C8
#lightgbm

Внезапно выяснил, что бустинг от мелкософт может требовать очень много памяти. Оказалось, если у входного фрейма пандас есть столбцы int32/uint32, он конвертирует всё в float64. Написал вот такую утилитку для сохранения float32 ценой потери точности:

def ensure_dataframe_float32_convertability(df:pd.DataFrame)->None:
"""Lightgbm uses np.result_type(*df_dtypes) to detect array dtype when converting from Pandas input,
which results in float64 for int32 and above. For the rational mem usage, it makes sense to convert cols to float32 directly before training lightgbm."""
for precise_dtype in "uint32 int32".split():

tmp=df.select_dtypes(precise_dtype)
if tmp.shape[1]>0:
logger.info(f"Converting {tmp.shape[1]:_} {precise_dtype} columns to float32")
df[tmp.columns]=tmp.astype(np.float32)
#stats #numpy #numba

Набрёл на вот такую библиотечку быстрых вычислений статистик bottleneck. Мне надо было считать скользящую среднюю, так эта библа вдвое заруливает мою реализацию на numba!

PS. Ах, нет, заруливает только в некоторых частных случаях ) В большинстве случаев нумба король.
#astronomy #milkyway #loneliness

Оказывается, примерно так выглядит наша галактика Млечный Путь, если бы мы могли посмотреть со стороны. Солнце находится в плоскости галактики в одном из спиральных рукавов. В центре Млечного Пути сидит сверхмассивная чёрная дыра с массой 4 млн солнечных. Всего у нас в галактике от 100 до 400 миллиардов звёзд.

Число галактик в видимой части Вселенной оценивается в несколько сотен миллиардов.

Всё ещё думаешь, что мы одни? )
#trading #options

Важные советы от практика. Заметил, что если человек подготовил презенташку, даже самую скупую, материал уже на порядок легче воспринимается. Ведь 70% доклада это обычно шелуха, а тут лектор сам готовит для зрителя выжимку основных идей. по сути, саму лекцию можно и не слушать, достаточно пробежаться по слайдам. Топчик.

https://www.youtube.com/live/LYOofrrRSiE?si=nkULmhzkD3y6Y4TF
#databases #postgres

А тем временем вышла 17-я постгре! Много улучшений. Я не понимаю, как у них поднимается рука релизить заведомо слабые решения, а потом течение лет и десятилетий их постепенно допиливать, но хоть так.

https://www.postgresql.org/about/news/postgresql-17-beta-1-released-2865/
#gpt #turingtest

А ведь еще недавно это казалось недостижимым.

"Цель исследования была в том, чтобы определить, смогут ли участники отличить синтетического собеседника от живого человека. Исследование учёных представляет собой современную интерпретацию теста, который был предложен знаменитым математиком Аланом Тьюрингов ещё в 1950 году. Тест считается пройденным, если ИИ-алгоритм в процессе общения с человеком может заставить его думать, что беседу с ним ведёт другой человек.

В тестировании приняли участие 500 человек, которые некоторое время поочерёдно беседовали с четырьмя агентами, одним из которых был человек, а ещё три — программные продукты, такие как написанный в 60-е годы прошлого века виртуальный собеседник ELIZA и современные чат-боты, построенные на базе больших языковых моделей GPT-3.5 и GPT-4 (последняя также является основой популярного ИИ-бота ChatGPT).

Респонденты по пять минут беседовали с каждым из агентов, после чего они должны были сказать, с кем, по их мнению, они разговаривали — с человеком или чат-ботом. В итоге было установлено, что 54 % участников тестирования приняли GPT-4 за человека. ELIZA, не имеющая в арсенале большой языковой модели и архитектуры нейросети, была признана человеком лишь в 22 % случаев. Алгоритм на базе GPT-3.5 признали человеком в 50 % случаев, а человека опознали в 67 % случаев.

«Машины могут рассуждать, смешивая воедино правдоподобные обоснования вещей постфактум, как это делают люди. Они могут быть подвержены когнитивным предубеждениям, ими можно манипулировать, и они становятся всё более обманчивыми. Всё это означает, что в ИИ-системах выражаются человеческие недостатки и причуды, что делает их более похожими на человека, чем предыдущие подобные решения, которые имели в арсенале лишь список готовых заранее ответов», — прокомментировал результаты работы один из исследователей."

https://3dnews.ru/1106570/ii-stanovitsya-umnee-chatbot-na-baze-gpt4-proshyol-test-tyuringa

https://arxiv.org/abs/2405.08007
Forwarded from Генерал СВР
Дорогие подписчики и гости канала! "Газпром" движется к краху, но российское руководство не теряет надежд изменить ситуацию. Представители "политбюро 2.0" проводят консультации с экспертами, пытаясь найти решения по спасению газового гиганта. Пока консенсуса вокруг определённого плана нет, но есть уже утвержденная позиция по смене руководства Газпрома и ряда сопутствующих структур. Запланировано не просто смена большей части руководства, но и многим из управляющего персонала придётся ответить перед законом. Репрессии коснутся и управленцев самого высокого ранга. Алексей Миллер должен перейти на работу помощником Председателя Правительства РФ Михаила Мишустина, что само по себе для председателя правления ПАО Газпром значительное понижение. Впоследствии судьба Миллера будет зависеть от перестановок в Правительстве и новой конфигурации власти. Один из немногих, кто может сохранить позиции, это Виктор Зубков, который является своеобразным "смотрящим" за этим активом. Зубков не профессионал в газовой промышленности, и по мнению членов "политбюро 2.0" его вины в проблемах Газпрома нет. Единственное, возможно сам Зубков не захочет оставаться председателем совета директоров Газпрома и перейдёт на другую работу, но проблем у него точно не будет. Также в политбюро обсуждают смену в руководстве ряда за госкорпораций и это решение должно быть принято в течение нескольких недель. Стоит отметить, что задержания и аресты генералов в министерстве обороны и Генеральном штабе поставлены на паузу, в том числе для изучения общественного резонанса, но могут вернуться в повестку в любой момент. "Разобраться" с генералами планируют до октября.
#labour #jobs

"Более половины (61 %) крупных американских компаний намереваются в течение следующего года развернуть системы искусственного интеллекта для автоматизации задач, которые ранее выполняли сотрудники, сообщает CNN со ссылкой результаты исследования, проведённого Дьюкским университетом, а также Федеральными резервными банками Атланты и Ричмонда."

https://3dnews.ru/1106850/ii-uge-nachal-vitesnyat-amerikantsev-v-rabochih-zadachah
Думаю сделать скрипт для бенчмарка железа (CPU(s) & GPU(s)), чтобы понимать, насколько быстро может обучиться бустинг и какой сервер лучше взять в облаке. Как вам идея?
Anonymous Poll
15%
Ерунда
55%
Возможно, кому-то будет полезно
30%
Мне будет полезно. Поучаствую в тестировании
0%
Помогу закодить!
#hardware #benchmarks #mlperf #opticloud

Постараюсь прояснить идею с либой ML бенчмарка. Зачастую непонятно, какой сервер лучше взять под конкретную ML-задачу. Если дело касается нейросетей, то вроде бы есть бенчмарки dlperf. Также при выходе новых CPU/GPU указывают производительность в Stockfish, WinZip, Pytorch/Tensorflow.

А если у вас табличные данные? Брать ли сервер на AMD Rome с 112 vcores, Xeon Gold с 80 vcores, или одна RTX 4090 их легко зарулит? А две RTX 3090? А насколько быстрее/медленнее будет одна H100? А может, вообще стоит посмотреть в сторону GPU от AMD?

У меня одного такие проблемы выбора, или отсутствие подобной информации и, как следствие, выбор наобум по принципу ХЗ всех смущает?

Может, есть какие-то сводные таблицы перформанса, которые вы смотрите и по которым принимаете решение? Или как-то пытаетесь экстраполировать результаты существующих бенчмарков?

На текущий момент у меня есть идея разработки простенькой питон либы с открытым исходным кодом, на базе, скажем, catboost, с методами

run_ml_benchmarks(tabular=True,training=True,inference=True,nreps=10)
get_ml_rankings(query='rtx 3090')
get_ml_leaderboard()

которая сможет автоопределять ваше железо, запускать несколько задач с фиксированными сидами и гиперпараметрами, прогонять nreps раз, и сохранять результат в общее облако. ну и, конечно, показывать лидерборд и результаты конкретного железа (медиану, дисперсию). При наличии такой либы все вопросы выше отвечаются pip install-ом + одним вызовом get_ml_leaderboard.
#hunting #cruelty #law

Недавно ютуб услужливо подсунул мне видео, где африканское племя hzade (или как-то так) охотится на бабуинов. Ну их как-то понять можно, жрать там нечего, они с утра выходят на охоту и ловят каждую белочку, суслика, обезъянку, которую могут вытащить из норы или снять с дерева. Они особо не задумываются, что обезьяньи руки, которые они обгладывают, очень похожи на человечьи, и даже имеют папиллярные узоры на пальцах. Ну это ладно, там выхода нет другого особо.

Но после этого просмотра посыпалось. Оказывается, есть ******, которые покупают дорогую винтовку с оптическим прицелом, и потом за 300 метров расстреливают животных, тех же бабуинов, просто ХЗ зачем. Ну и выкладывают видео с миллионами просмотров. Есть и более смелые, расстреливают львицу из современного спортивного лука/арбалета с близкого расстояния. Оказывается, даже льву достаточно одной современной стрелы. Иногда 3-4.

У меня есть предложение. Чтобы для подобных пидоров сделать жизнь интереснее, а ощущения острее, предлагаю их выпускать на ограниченную территорию друг против друга. Можно даже денежные призы учредить для выживших, я бы им даже донатил немного. А на законодательном уровне считаю необходимым убийство животных без их съедения запретить. Убил не в рамках самозащиты - сожри, сука, иначе сядешь.

Вспомнил высказывание недоиерея Андрея Ткачёва, что-то типа "Человек- венец творения. Всё живое на Земле с восторгом внемлет ему и дивится на него." На кого дивится, на этих ублюдков?

Ну и вот такое доброе виде в конце ) Всем добра и бабуинчиков.

https://www.youtube.com/shorts/B3I4QGrbHZU
#wisdom

“When my information changes, I alter my conclusions.
What do you do, sir?”

~ J. M. Keynes (?)
#energy

"Как сообщает издание Tweak Town, микрореактор Rolls-Royce сможет генерировать от 1 до 10 МВт энергии, а благодаря своей компактности станет мобильным источником питания. Система поместится всего в нескольких транспортных контейнерах, так что, по сути, можно говорить о передвижном современном ядерном генераторе. Компания сравнивает его с малым модульным реактором, который вырабатывает 0,5 ГВт мощности и работает со стационарной площадки размером примерно с два футбольных поля.

Rolls-Royce предлагает четыре сценария применения своей разработки: для обороны, для обеспечения энергетической безопасности в отдалённых гражданских районах, для промышленных зон и в космосе. Любой из этих сценариев может стать «переломным для нашей цивилизации», считает компания."

https://3dnews.ru/1106924/rollsroyce-predstavil-mikroreaktor-dlya-virabotki-elektroenergii-s-nulevim-urovnem-vibrosov