Aspiring Data Science
327 subscribers
390 photos
10 videos
6 files
1.46K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from По сути
Американский исследовательский институт RLI (институт Роберта Лансинга): Новая война возможна в Латинской Америке

Венесуэла может вскоре вторгнуться в маленькую южноамериканскую страну Гайану, чтобы аннексировать ее регион Эсекибо, который составляет более 60% территории страны. В случае успеха этого сценария вероятен крупный региональный конфликт, в который могут вовлечься не только Гайана и Венесуэла, но и Бразилия, другие соседние страны, а также США.

3 декабря Венесуэла планирует провести так называемый референдум о своих "правах" на Эсекибо. Гражданам Венесуэлы предложат пять вопросов, один из которых будет звучать так: "Согласны ли вы противостоять, всеми законными средствами, одностороннему захвату Гайаной моря, ожидающего разграничения, незаконно и в нарушение международного права".

Территориальный спор между Венесуэлой и Гайаной восходит к колониальным временам и усилился после обнаружения Гайаной запасов нефти и газа возле морской границы.

Венесуэльский режим начал агрессивную пропагандистскую кампанию в контролируемых им СМИ. Ожидается, что в референдуме будет подавляющее большинство голосов "за", так как даже оппоненты Мадуро либо воздержались от критики референдума, либо фактически его поддержали.

Министр обороны Венесуэлы Владимир Падрино Лопес сказал, что спор с Гайаной "пока не является вооруженной войной. Идите и голосуйте". Он также отметил, что Вооруженные силы Венесуэлы (FANB) будут "постоянно бдительны".

По сути. Подпишись на самые важные новости.
#spotify

Нафига там ТАК МНОГО сотрудников вообще работает, начнём с этого?!

"В обращении к сотрудникам основатель и глава Spotify Даниэль Эк (Daniel Ek) заявил, что правильное определение численности персонала имеет решающее значение для компании, чтобы справиться с «предстоящими вызовами». Необходимость сокращения штата сотрудников он связал с медленным экономическим ростом и увеличением капитальных затрат. «Я понимаю, что это повлияет на некоторых людей, которые внесли ценный вклад. Откровенно говоря, компанию покинет много умных, талантливых и трудолюбивых людей», — говорится в сообщении главы Spotify, которое было опубликовано в блоге компании.

В настоящее время в Spotify работают около 10 тыс. человек. Это означает, что новый этап увольнений затронет более 1,5 тыс. человек. Согласно имеющимся данным, сотрудники, которым придётся покинуть компанию, будут уведомлены об этом своевременно. Напомним, в июне этого года Spotify провела сокращение около 6 % персонала, а ещё несколько сотен сотрудников покинули компанию в январе"

https://3dnews.ru/1096920/spotify-sokratit-17-sotrudnikov-na-fone-rosta-kapitalnih-zatrat
Forwarded from Д-р Соловей
Благотворительная ярмарка в пользу бездомных животных! 9-17 декабря. Проводит фонд "Возьми счастье в дом".
Посетите и участвуйте!

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ СОЛОВЬЕМ ВАЛЕРИЕМ ДМИТРИЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА СОЛОВЬЯ ВАЛЕРИЯ ДМИТРИЕВИЧА. 18+

https://takehappiness.ru/ng-yarmarka/news/
#compression #pandas

Часто бывает, что приходится джойнить много файлов: всякие там csv, parquet, feather, pickle, с текстом и без, разные типы столбцов, и не всегда понятно, какой формат выбрать для промежуточного и финального хранения данных. Уже второй раз сталкиваюсь с КРАТНОЙ разницей по времени обработки (записи, чтения) и размеру итоговых файлов, а также по использованию CPU и RAM. А значит, пришло время написать утилитку быстрого тестирования. Идея в том, чтобы отдать ей небольшой кусок основного файла, посмотреть сравнительную таблицу каждой комбинации формата/сжатия, и принять решение, в каком же формате и с какими параметрами сжатия его хранить.

https://www.youtube.com/watch?v=u4rsA5ZiTls
#fun #poetry

Кстати, ребят. Минутка поэзии. + выяснилось, что это не просто шутка, видос глубже, чем я думал.
#pandas #conventions

Нахрена такое делать? Неужели нельзя параметр path одинаково назвать было?

pandas.read_pickle(filepath_or_buffer, compression='infer', storage_options=None)

DataFrame.to_pickle(
path, compression='infer', protocol=5, storage_options=None)
#pandas #compression

Итак, результаты бенчмарка на фрейме пандас с широким текстовым столбцом. Код в комментах.

benchmark_dataframe_compression(df=df, head=1000, benchmark_dir_path=r"R:\Data", nrepeats=10, verbose=True)


Pandas: 2.0.3, DF size: 7.15Mb, Dtypes: {dtype('O'): 17, dtype('float64'): 2, dtype('float32'): 2, dtype('<M8[ns]'): 1}


Лучшие результаты показал пикл+xz сжатие. Наименьший итоговый размер файла, очень быстрое чтение, правда, за счёт долгой записи.

Паркетный brotli ошарашил своим экстремально долгим архивированием. Но только в реализации fastparquet! В версии pyarrow brotli оказался лучшим паркетным вариантом для моей конкретной задачи.
#pyhon #conda

Хотел потестить сохранение в hdf. Пандас попросил установить через conda pytables. Уже часов 6 конда мне устанавливает. И такое не впервые. Я что-то делаю не так, или оно всегда такое?
#gcp #cloud #tpu #hardware

"Сегодня Google объявила о запуске новой большой языковой модели Gemini. Вместе с ней компания представила свой новый ИИ-ускоритель Cloud TPU v5e (Tensor processing unit — тензорный процессор). Кластер на базе новых TPU состоит из 8960 чипов v5p и оснащён самым быстрым интерконнектом Google — скорость передачи данных может достигать 4800 Гбит/с на чип.

Cloud TPU v5e оснащён 95 Гбайт памяти HBM3 с пропускной способностью 2765 Гбайт/с. Производительность в целочисленных операциях INT8 составляет 918 TOPS (триллионов операций в секунду), тогда как производительность в вычислениях на числах с плавающей запятой BF16 составляет 459 Тфлопс.

Google утверждает, что новые чипы значительно быстрее, чем образец предыдущего поколения TPU v4. Новый Cloud TPU v5p предложит двукратное увеличение производительности в операциях с плавающей запятой (FLOPS) и трёхкратное увеличение объёма памяти с высокой пропускной способностью.

Что интересно, по производительности на доллар v5p слегка проигрывает представленным недавно ускорителям TPU v5e. Однако последние можно собирать в кластеры лишь до 256 чипов, а один чип обеспечит лишь 197 Тфлопс в BF16 против 275 Тфлопс у TPU v4 и 459 Тфлопс у TPU v5p."

https://3dnews.ru/1097088/google-anonsirovala-svoy-samiy-bistriy-uskoritel-iskusstvennogo-intellekta-cloud-v5p
Forwarded from New Yorko Times (Yury Kashnitsky)
Фэйлы на собесах: 2023 edition
#career #interviews

Тут в описании канала говорится, про фэйлы. Так что надо поддерживать темп фэйлов.

Картинка – авторства Бори Зубарева (placement: проверьте его X-LLM для файнтюнинга LLM, вдруг зайдет), которую он мне скинул после поста про неудачные собесы в 2022.

Погнали:

- Uber, Senior Applied Scientist – прошел один собес, сказали, закрыли саму вакансию (и правда, звучало подозрительно, что это синьор без подчиненных);

- eBay, Principal Applied Scientist (Gen AI) – прошел HM, а вот миддл решил меня погонять по своей боевой задаче – всякие bi-encoders, cross-encoders в задаче предсказания ключевых слов для объявлений. Причем копал глубоко. Я в теме про семантический поиск, слежу за проектом коллег, но тут прям реально глубоко... если сам не ковырял, не ответишь. Ну да, и хотел production-опыт RLHF 😳 Удачи! Надеюсь, нашли такого.

- LLM researcher в устоявшийся стартап – команда крутая, много GM-ов, все прошел, услышал много комплиментов, а дальше отмазу, что “мне у них будет не интересно”, расстался с довольно странным ощущением, как будто не знают, что хотят (еще один сильный чел то же самое от них услышал)

- 2 хардкорных HFT-фонда - в одном домашка на дебаггинг PyTorch-кода не зашла, в другом почти идеально решил алгоритмическую задачу, но к концу 4-го часа начал тупить с ML-ной задачей. Денег там, конечно, море, но и work-life balance хромает, и C++… В-общем, тут я сам не дотягиваю.

- наконец, Amazon, да в Амстере, прошел снова всю хурмомятню из 7 собесов. В этот раз, в отличие от 2022 года, до матча с командой не дошло, услышал стандартный минимальный фидбек, что bar raiser-у что-то не понравилось в одном из ответов.

Ну, как Би-2 поет, “Я двигаюсь дальше”, благо текущие задачи очень интересные, да что-то из сторонних проектов тоже заходит. По собесам из “успехов” на данный момент только отклик другого бигтеха на мой холодный заброс резюме, готовимся к еще одной мясорубке из семи собесов.

Жду ехидные комментарии с отсылками к этому посту про менторство. Делаю шаг на опережение: у моих менти дела идут отлично, лучше, чем у меня 🙂 Один менти устроился так, что сам меня собеседовал 😂, второй, мой друг, скоро переезжает в Нидерланды, третий – на финальных этапах с тем же Амазоном, четвертый получил оффер в долине. Еще четверо в процессе. А сапожник пока без сапог, беру откровенностью (а новых менти все равно пока не ищу).

Хороших вам фэйлов, таких чтоб с градиентами. Ну и любая череда фэйлов когла-то заканчивается, чего всем и желаю. Если очень упорно подкидывать монетку, она таки упадет нужной стороной.
Please open Telegram to view this post
VIEW IN TELEGRAM
#china

"В Китае начала работать самая глубокая лаборатория в мире, сообщает информагентство «Синьхуа». Рабочее помещение объёмом 300 тыс. м3 создано на глубине 2400 м под горным массивом Цзиньпин. На такую глубину проникает чрезвычайно мало частиц из космоса, что позволит ставить там уникальные физические эксперименты и даже искать неуловимую тёмную материю."

Я, кажется, знаю, какая страна совершит научный прорыв, а какая скатится в 19 век.

https://3dnews.ru/1097169/v-kitae-nachala-rabotat-samaya-glubokaya-laboratoriya-v-mire-tam-budut-iskat-tyomnuyu-materiyu-i-ne-tolko
#openai #salaries

"В OpenAI базовая зарплата начинается с $300 000, а пакет акций на сумму в $2 млн выдаётся за четыре года работы, хотя некоторые сотрудники получают ещё больше. Несмотря на то, что Microsoft согласилась нанять всех сотрудников OpenAI на тех же условиях, это обещание было лишь устным и не имело юридической силы. Один из сотрудников OpenAI выразил сомнения в том, что Microsoft выплатила бы компенсацию за потерянные акции OpenAI."

https://3dnews.ru/1097173/perspektiva-poteri-finansovih-vigod-udergala-sotrudnikov-openai-ot-perehoda-v-microsoft
#timeseries #anomalydetection #nabscore #autoencoders

Странноватое сравнение, либо не так что-то я понял. Но я не верю, что детектор ЛИШЬ на текущих точках (пусть и тысячи сенсоров) может отработать на порядок лучше рекуррентного, который располагает ДОПОЛНИТЕЛЬНО окном данных. И непонятно, почему наличие окна должно как-то снижать оперативность детекции. Закрадывается подозрение, что ряд нарубили неперекрывающимися окнами вместо перекрывающихся, и это искусственно уменьшило скорость реакции и, соответственно, nab score.

https://www.youtube.com/watch?v=B6r20LBrvYw
#gpt #agi #lazyrobot #raiseofmachines

О-оу. Something wicked this way comes.

"В ответ на просьбу предоставить фрагмент кода, он мог просто дать небольшой фрагмент и предложить пользователю доделать остальное самостоятельно. Причём, по словам некоторых пользователей, это делалось самым дерзким образом, например, иногда бот просто заявлял, что они вполне могли бы выполнить всю работу самостоятельно — без обращения к ИИ.

В многочисленных постах на сайте Reddit и сообщениях на форумах разработчиков OpenAI, начавших появляться ещё в конце ноября, пользователи жаловались, что система становится менее полезной.

В OpenAI сообщили, что осведомлены о жалобах на ИИ-бот и отметили, что никаких изменений в модель не вносили. «Мы просмотрели все ваши отзывы о том, что GPT4 становится более ленивым! — написала компания в соцсети X. — Мы не обновляли модель с 11 ноября, и это определённо не намеренно. Поведение модели может быть непредсказуемым, и мы пытаемся это исправить»."

https://3dnews.ru/1097245/openai-rassleduet-galobi-na-to-chto-iibot-chatgpt-oblenilsya
#biology #neuralnetworks

"С помощью стволовых клеток учёные вырастили так называемый органоид мозга — объёмную колонию клеток, повторяющих структуру нейронов и их связей в мозге. Это не первый и наверняка не последний эксперимент с живыми клетками, позаимствованными у человека. Ранее органоид мозга, например, научили игре в «Понг», с чем он успешно справился. В таких исследованиях самым сложным бывает донести информацию до «мозга» и считать её.

Группа профессора Го Фэня из Университета штата Индиана в Блумингтоне (США) предложила достаточно простое решение — они вырастили органоид на высокоплотном массиве электродов. Электроды, а это, по сути, компьютерный интерфейс, вносили данные в клетки «мозга» и считывали результат его последующей активности. Тем самым на практике была реализована такая архитектура спайковой (импульсной) нейросети, как резервуарная. Что происходило в массиве нейронов, учёным было неизвестно, но условно живая модель показала способность к быстрому обучению и расчётам.

Свою нейросеть учёные назвали Brainoware. Система прошла двухдневное обучение на наборе из 240 аудиозаписей речи восьми японских мужчин, произносящих гласные звуки. После этого она смогла распознавать конкретный голос с точностью до 78 %. Также система смогла решать уравнения по отображениям Эно примерно с такой же точностью. На это ушло ещё четыре дня обучения. Более того, решение дифференциальных уравнений проходило с большей точностью, чем в случае искусственной нейронной сети без блока длинной цепи элементов краткосрочной памяти."

https://3dnews.ru/1097341/iz-tkaney-chelovecheskogo-mozga-uchyonie-sozdali-neyronniy-kompyuter-on-reshal-uravneniya-i-raspoznaval-na-sluh-yapontsev
#biology #vr

"Технологии виртуальной реальности уже много лет используются исследователями для изучения мозговой активности лабораторных мышей. Раньше для этого грызунов окружали плоскими дисплеями, но с ними не так просто выстроить реалистичное пространство. Теперь же мышей решили перенести в полноценную виртуальную среду, разработав для них VR-гарнитуру — она надевается на мордочку животного и охватывает значительную часть его тела. Шлем виртуальной реальности позволяет моделировать угрозы сверху и помогает непрерывно фиксировать показатели мозговой активности мыши.

Мыши быстрее освоились в новой среде виртуальной реальности, чем в предыдущих установках. Для моделирования угрозы с воздуха, например, нападения хищной птицы, учёные выводят на верхнюю часть дисплеев тёмные пятна. Исследователи уже установили, что реакция грызунов на угрозу является врождённой, а не приобретённой. Учёным удалось зафиксировать образцы мозговой активности в условиях угрозы и описать физические реакции мышей — ускорение или замирание. В перспективе планируется внедрение нового сценария — охоты на насекомых, где мыши будут уже не добычей, а хищниками."

https://3dnews.ru/1097339/uchyonie-razrabotali-vrgarnituru-dlya-mishey-chtobi-izuchat-ih-reaktsiyu-na-hishchnikov