Aspiring Data Science
365 subscribers
418 photos
11 videos
10 files
1.84K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Арнольд, конечно, был знаком в группе не только со мной, но мы как-то оказались за одной партой, в ряду у окна, по-моему, второй сзади или последней. Вскоре Арнольд стал для меня Димкой, что, впрочем, не уменьшило ореола вокруг него в моих глазах. Однако этот ореол не давил на меня, не мешал мне в общении с ним, хотя Димка и не скрывал своих математических достоинств. Открытость Арнольда, его весёлость, эмоциональная искренность привлекали к нему и делали отношения лёгкими в хорошем смысле слова. Иногда я узнавал от Димки неожиданные для меня вещи, не имеющие прямого отношения к математике. Так, зашла между нами речь об утренней зарядке и о том, что делать её надо, но трудно, так как лекции и занятия начинаются так рано, а ещё надо около часа добираться до университета. На это Димка заметил, что у него есть особенные трудности в этом отношении, так как его утренняя зарядка включает несколько (кажется, пять) обязательных компонент. Не помню порядка, в котором они были названы Арнольдом, но они включали следующее: прослушивание музыкального произведения, чтение стихотворения, чтение отрывка из философского произведения, собственно физическая зарядка и душ с растиранием. Я был сильно впечатлён этим сообщением. Мне такое и в голову не приходило и было не под силу. Вскоре, всё ещё под впечатлением от этого разговора, я подарил Арнольду небольшую книжку высказываний Марка Аврелия, дореволюционное издание, подаренное мне Марией Александровной Скрябиной. Я тогда недавно её прочёл, она произвела на меня большое впечатление, и мне захотелось разделить это впечатление с Димкой. Он поблагодарил, взял книгу, но о своих впечатлениях от Аврелия не рассказывал.


воспоминания А.В. Архангельского о В.И. Арнольде (из статьи "Вспоминая об Арнольде (Мои студенческие годы в МГУ, книга "Мы — математики с Ленинских гор")
1🔥1😁1
#facebook #bollocks

Захотелось мне найти свой старый пост на фэйсе. Казалось бы, естественное желание, по ключевым словам быстро найти свой пост. В ВК это сделано ну буквально одним полем поиска. Казалось бы, то же самое и в огромной международной соцсети с миллиардами пользователей?

Хер там.

How do I search within my Facebook posts?
Use activity log to find something specific

Tap Menu in the top right of Facebook, then tap your name. Tap Options below your profile picture, then tap Activity Log. From here, you can tap to review activities like: Your Posts to review things like photos, videos, text and status updates you've shared on Facebook.


Блять. И то там поиска нету, посты надо перебирать либо вручную, либо поиском браузера.

В своей мете сидят на мете, видно.
Forwarded from AvitoTech
Наука + бизнес = идеальный мэтч в ИИ ❤️

Наука помогает понять, как всё работает, и находит новые решения. А бизнес даёт ресурсы, чтобы эти решения стали реальностью.

Но это если кратко и в теории. Реальные кейсы такой синергии и возможности для молодых исследователей обсудим на паблик-толке 17 июля в нашем офисе на Лесной и онлайн.

Вместе с Иваном Оселедцем, генеральным директором Института ИИ AIRI и Андреем Рыбинцевым, старшим директором по ИИ Авито разберём:

☑️что такое RnD в компании, и как это работает;
☑️может ли бизнес без фундаментальных исследований и могут ли они приносить прибыль;
☑️какие новые задачи появятся у учёных в эпоху ИИ;
☑️как не ошибиться в выборе — научной карьере или развитии в бизнесе.

Встреча будет особенно полезна начинающим исследователям и тем, кто хочет развиваться в RnD. Зарегистрироваться можно тут*.

*
Количество мест на встречу ограничено, поэтому рекомендуем не откладывать. Также внимательно заполняйте форму: приглашение участникам будем рассылать исходя из темы паблик-толка.

#ds
Please open Telegram to view this post
VIEW IN TELEGRAM
How to avoid machine learning pitfalls by Michael A. Lones

Mistakes in machine learning practice are commonplace, and can result in a loss of confidence in the findings and products of machine learning.

This guide outlines common mistakes that occur when using machine learning, and what can be done to avoid them.

Whilst it should be accessible to anyone with a basic understanding of machine learning techniques, it focuses on issues that are of particular concern within academic research, such as the need to do rigorous comparisons and reach valid conclusions.

It covers five stages of the machine learning process:
- What to do before model building
- How to reliably build models
- How to robustly evaluate models
- How to compare models fairly
- How to report results

Link: arXiv

Navigational hashtags: #armarticles
General hashtags: #ml #machinelearning #mlsystemdesign

@data_science_weekly
#hardware #cpu

"Флагманом линейки стал Ryzen Threadripper PRO 9995WX с 96 ядрами, 192 потоками и 384 Мбайт кеша L3. Компания оценила его в $11 699. Модель Ryzen Threadripper PRO 9985WX (64 ядра, 128 потоков, частота от 3,2 до 5,4 ГГц, 256 Мбайт кеша L3) AMD оценила в $7999. С остальными моделями серии и их ценами можно ознакомиться в таблице ниже. Самая доступная 16-ядерная модель оценивается в $1649."

https://3dnews.ru/1126141/amd-raskrila-tseni-samih-dorogih-protsessorov-dlya-pk-threadripper-pro-9000wx-viydut-23-iyulya
#polars #deltalake #orjson #codegems

Попробовал deltalake в решении по сбору данных. отстой, лучше бы любую СУБД заюзал типа постгре или даже монго. Некоторые выводы из мини-проекта:

1) orjson is x20 faster than json

2) xxhash.xxh128 is x6 faster than hashlib.sha256

3) deltalake package is (at least so far) the toy solution. does not support concurrent writes, I had to use manual locking. with many small updates, requires frequent tables "re-optimizing". i just needed a "primary key" functionality from it - and it's slow, while spending LOTS of CPU. I should have better used any RDBMS, or mongo, instead.

В каком случае deltalake можно использовать: когда записываете данные редко, и с таблицей работает один поток. Либо хочется хостить данные в облачном хранилище типа gcp напрямую в паркете. Еще можно воспользоваться полуручным локом на время операций с дельта таблицей:

import os
import logging
from urllib.parse import urlparse
from filelock import FileLock, Timeout

logger = logging.getLogger(__name__)


def is_local_path(path: str) -> bool:
parsed = urlparse(path)
# If there's no scheme or it's explicitly "file"
if parsed.scheme in ("", "file"):
return not path.startswith(("s3://", "azure://"))

# Special case: Windows drive letter (e.g., "R:\...")
if os.name == "nt" and len(parsed.scheme) == 1 and parsed.scheme.isalpha():
return True

return False


def safe_delta_write(path: str, delta_op_func, *, lock_timeout: int = 120, lock_suffix=".lock"):
"""
Wraps any Delta Lake operation (write_deltalake, merge+execute) with local file locking.

Parameters:
path (str): Delta table path.
delta_op_func (callable): A function that performs the actual Delta operation.
lock_timeout (int): How many seconds to wait for the lock before skipping.
lock_suffix (str): Suffix for the lock filename.

Usage Examples
🔁 For .merge().when_not_matched_insert_all().execute():

def merge_ads_static():
return DeltaTable(ADS_STATIC_PATH).merge(
static_df,
predicate="t.id = s.id",
source_alias="s",
target_alias="t",
writer_properties=DELTALAKE_OPTIONS.get("writer_properties")
).when_not_matched_insert_all().execute()

safe_delta_write(ADS_STATIC_PATH, merge_ads_static)

📝 For write_deltalake() appends:

def write_market_ads():
return write_deltalake(
MARKET_ADS_PATH,
market_df,
mode="append",
partition_by=["date"],
**DELTALAKE_OPTIONS
)

safe_delta_write(MARKET_ADS_PATH, write_market_ads)
"""
if is_local_path(path):
lock_file = os.path.join("/tmp", f"{os.path.basename(path).replace('/', '_')}{lock_suffix}")
lock = FileLock(lock_file)

try:
with lock.acquire(timeout=lock_timeout):
logger.debug(f"Acquired lock for local Delta path: {path}")
return delta_op_func()
except Timeout:
logger.warning(f"Timeout while waiting for lock on {path}. Skipping operation.")
except Exception as e:
logger.exception(f"Delta operation failed on {path}: {e}")
raise (e)
else:
logger.warning(f"Delta operation on non-local path: {path}. Proceeding without lock.")
try:
return delta_op_func()
except Exception as e:
logger.exception(f"Delta operation failed on {path}: {e}")
#physics

Я всё думал, как же связаны гравитон и бозон Хиггса - ведь последний даёт (некоторым) частицам массу, а первый в теории является квантом гравитационного поля. Ну должна же быть связь?
Но вот современный ИИ мне всё разъяснил:

"Таким образом, связь между ними скорее косвенная: поле Хиггса создает массу, масса является источником гравитации, а гравитон (в квантовой теории) переносил бы гравитационное взаимодействие. Но прямой специальной связи между бозоном Хиггса и гравитоном нет - гравитон "видел" бы поле Хиггса как один из многих источников энергии-импульса."
#jobs

"В 2025 году количество увольнений в технологических компаниях превысило ошеломляющую отметку в 100 000 человек. Ведущие компании, такие как Intel, Microsoft, Meta и ряд других, объявили о масштабных сокращениях. Эта волна увольнений радикально меняет глобальный технологический ландшафт и вызывает шок на рынке труда.

На этом фоне заявления руководителей технологических компаний, призывающих «к устойчивости и адаптивности», выглядят, по меньшей мере, лицемерно. В то время как десятки тысяч сотрудников оказываются без работы, генеральный директор Microsoft Сатья Наделла (Satya Nadella) подчёркивает приверженность компании «ответственным инновациям», а глава Meta Марк Цукерберг (Mark Zuckerberg) объявляет 2025-й «годом эффективности и целенаправленности»."

https://3dnews.ru/1126511/ih-zamenil-ii-vedushchie-tehnologicheskie-kompanii-uvolili-bolee-100-000-spetsialistov-s-nachala-goda
🤡1
#ufo #aliens #futurology

Очень ценю в людях способность удивляться.

Вот Джо в конце интервью сказал, что удивляется встроенному в Андроид переводчику реального времени. И я его понимаю - а как можно не удивляться?

Как можно считать языковую ИИ модель "той же логистической регрессией", "улучшенным Т9"? Как можно не изумляться, что свёрточная нейросеть отличает по фотографии кошек и собак?

Каким поленом (ну либо супергением, что менее вероятно) надо быть? Наверное, таким, которому и новости про контакт с инопланетянам, если таковой наступит, покажутся обыденными и не вызывающими интереса.

https://youtu.be/R8TqBrrqL4U?si=nVRoLMeUOqA3bq3P
👎1😁1🙈1
#ai #gpt #llms

Рыжий Марков - молодцом, на сложные вопросы отвечает как по писаному. Грамотный!

Позабавил момент, когда Карякин сообщил интервьюверу, что современные шахматные программы - это "большие калькуляторы".

Это показывает, что, как правило, бессмысленно спрашивать о работе современных шахматных программ хорошего шахматиста - он просто этого не знает, хотя будет уверен в обратном. Примерно как экзаменовать Крамника по статистике и её применении в шахматах )

https://youtu.be/U8k8K-S-95I?si=9tt1HKCoNr7EjdDC
Как ваншотить лендинги из Figma с LLM

🚘 На работе захотели лендинг. Но я уже два года не занимался нормальной версткой, чтоб сразу с мобилкой, WebP, доступностью, lazy load и семантикой, а не диватозить.

Тогда на него ушло 2 дня работы и еще пару дней на правки. Но верстка все же получилась шакальной: без lazy load и других плюшек.

🚤 На своем пути к быстрой верстке, я тестил разные инструменты для конвертации дизайна из Figma в код, но все они либо давали что то нечитаемое, что трудно поддерживать, либо хотели миллиона ручных правок, что было равно по времени обычной SCSS верстке.

Теперь же у нас есть готовый инструмент для продакшена. Он легко конвертирует дизайн в код с учетом доступности, семантики и структуры проекта.

Все, что нужно — это правильно составить промпт с нашими пожеланиями и подключить Figma MCP к курсору.

🖥 Инструкция простая. Самое сложное — получить токен Figma и вставить его в конфиг нашего MCP. После чего он будет доступен в UI курсора с двумя командами: get_figma_data и download_figma_images.

Что здорово: можно заранее указать в промпте, как раскидать иконки и картинки по директориям. Например, SVG в папку icons, фоны — в background, а остальное в зависимости от блока макета.

Чтобы результат был точнее, важно следить за контекстом. Чем меньше блок дизайна мы конвертируем в код, тем меньше галлюцинаций мы получим на выходе.

👀 Вот что получилось, готовность 80%:
https:/длинный-хэш-из-IPFS/landing

Теперь осталось вырезать его из Vue и перетащить отдельным проектом на Nuxt 4, который вышел 5 дней назад.

Ведь нам нужен HTML с CSS и SEO, а не JS-а пачка, который, по слухам, трудно индексировать поисковикам.

📊 #статистика День 1327 | 3372 час в IT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1