Aspiring Data Science
370 subscribers
425 photos
11 videos
10 files
1.88K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#llms #gpt #ai #fun

Мой вариант микро-теста на AGI - вопрос, на который не могут пока правильно ответить Клод, ЧатГПТ, Гемини:

"Графическое изображение какой концепции в машинном обучении напоминает связку сосисок?"
😁2
#llms #ai #gpt #math #ensembling #diversity

Недавно на ютубе смотрел видео о применении компьютера (в частности, языка Julia для исследования проблемы 196), спросил в комментах математика (явно советской школы), который написал статью по модификации проблемы, не пробовал ли он ИИ для генерации кода, да и вообще обкатки идей, на что получил кажущийся высокомерным ответ, мол, этот ваш ИИ слишком слаб для моих задач. Повеяло Сурдиным, в общем ) Я такой думаю, да что ж вы за гиганты мысли такие, что он для вас слаб и неточен, я вот прекрасно с ним работаю и оочень доволен. А вот и пример.


Q.: Suppose i'm running HPT/HPO for some model on a particular dataset, and I plan to later use more than one HP combinations to form an ensemble. Now, am I looking for HPs producing un-correlated predictions (zero MI), or anti-correlated predictions (corrcoeff=-1)?

A.: You're looking for hyperparameter (HP) combinations that produce uncorrelated predictions (zero mutual information, MI ≈ 0) rather than strictly anti-correlated ones (corrcoeff=−1).

Why uncorrelated predictions?
Ensemble Diversity: The key to a strong ensemble is combining diverse but individually strong models. If two models are perfectly anti-correlated (ρ=−1), their predictions will cancel each other out when averaged, leading to little to no improvement.
Reduction in Variance: The goal of an ensemble is to reduce variance and improve generalization. If the models are uncorrelated, they make different kinds of errors, so their combination will smooth out those errors.
Avoiding Overcompensation: A correlation of −1 means that one model's overestimation is exactly another model's underestimation, which could lead to instability in the ensemble.

How to achieve this?
Optimize for performance first: Choose hyperparameters that result in good individual models.
Select diverse models: Instead of maximizing anti-correlation, look for models that make errors in different places (measured by MI or correlation).
Use decorrelation techniques: Cluster models based on prediction similarity and pick those with the lowest pairwise correlation.
In short, low correlation (not necessarily negative) is desirable, but enforcing perfect anti-correlation is counterproductive.


Вот эта интересная идея, о которой я и не подумал, Cluster models based on prediction similarity and pick those with the lowest pairwise correlation. А ведь интересная визуализация может получиться. Хоть какое-то реальное применение для unsupervised ML 😅

Q.: What are other practical means to look for models that make errors in different places, except MI?

A.: Aside from mutual information (MI), there are several practical ways to identify models that make errors in different places when forming an ensemble:

Disagreement Rate (Prediction Diversity Index)
For classification, measure how often two models make different predictions on the same data points.
Higher values indicate greater diversity.

Jaccard Similarity for Misclassified Samples
Compute the Jaccard index for misclassified examples between two models:
Lower values mean models make mistakes on different samples.

Double-Fold Cross-Validation Differences
Train models on different folds and analyze how much their predictions differ on holdout sets.
If a model performs well on Fold 1 but poorly on Fold 2, and another model shows the opposite behavior, they might complement each other.

Shapley Value or Feature Importance Differences
Compare the features each model relies on using SHAP, permutation importance, or Gini importance.
If two models prioritize different features, they likely capture different aspects of the data.

Orthogonality of Prediction Vectors (in High-Dimensional Spaces)
Compute cosine similarity between prediction vectors:
Lower cosine similarity implies more independent predictions.
2
#deepmind #alphageometry #llms #ai #gpt

"AlphaGeometry2, используя лингвистическую модель на основе архитектуры Gemini и усовершенствованный механизм символической дедукции способна определять стратегии решения задач с точностью, превосходящей возможности большинства экспертов-людей.

Принятый подход объединяет два основных компонента: лингвистическую модель, способную генерировать предложения на основе подробного геометрического описания, и символический механизм DDAR (Deductive Database Arithmetic Reasoning), который проверяет логическую связность предлагаемых решений, создавая дедуктивное замыкание на основе доступной информации.

Проще говоря, модель Gemini AlphaGeometry2 предлагает символическому механизму шаги и конструкции на формальном математическом языке, и механизм, следуя определённым правилам, проверяет эти шаги на логическую согласованность.

Ключевым элементом, который позволил AlphaGeometry2 превзойти по скорости предшественника AlphaGeometry, является алгоритм SKEST (Shared Knowledge Ensemble of Search Trees), который реализует итеративную стратегию поиска, основанную на обмене знаниями между несколькими параллельными деревьями поиска. Это позволяет одновременно исследовать несколько путей решения, увеличивая скорость обработки и улучшая качество сгенерированных доказательств.

Эффективность системы удалось значительно повысить с новой реализацией DDAR на C++, что в 300 раз увеличило её скорость по сравнению с версией, написанной на Python.

Вместе с тем из-за технических особенностей AlphaGeometry2 пока ограничена в возможности решать задачи с переменным числом точек, нелинейными уравнениями или неравенствами. Поэтому DeepMind изучает новые стратегии, такие как разбиение сложных задач на подзадачи и применение обучения с подкреплением для выхода ИИ на новый уровень в решении сложных математических задач.

Как сообщается, AlphaGeometry2 технически не является первой ИИ-системой, достигшей уровня золотого медалиста по геометрии, но она первая, достигшая этого с набором задач такого размера.

При этом AlphaGeometry2 использует гибридный подход, поскольку модель Gemini имеет архитектуру нейронной сети, в то время как её символический механизм основан на правилах.

Сторонники использования нейронных сетей утверждают, что интеллектуальных действий, от распознавания речи до генерации изображений, можно добиться только благодаря использованию огромных объёмов данных и вычислений. В отличие от символических систем ИИ, которые решают задачи, определяя наборы правил манипуляции символами, предназначенных для определённых задач, нейронные сети пытаются решать задачи посредством статистической аппроксимации (замены одних результатов другими, близкими к исходным) и обучения на примерах. В свою очередь, сторонники символического ИИ считают, что он более подходит для эффективного кодирования глобальных знаний.

В DeepMind считают, что поиск новых способов решения сложных геометрических задач, особенно в евклидовой геометрии, может стать ключом к расширению возможностей ИИ. Решение задач требует логического рассуждения и способности выбирать правильный шаг из нескольких возможных. По мнению DeepMind, эти способности будут иметь решающее значение для будущего универсальных моделей ИИ."

https://3dnews.ru/1117969/iimodel-ot-deepmind-reshaet-zadachi-na-urovne-zolotih-medalistov-megdunarodnoy-matematicheskoy-olimpiadi
👍1
#ai #llms #gpt

"В моделях семейства GigaChat 2.0 улучшена работа с контекстом беседы: они способны отвечать на сложные длинные вопросы и анализировать увеличенные объёмы текста. Если ранее максимальный объём составлял 48 страниц A4 (шрифт 14 pt), то теперь этот показатель вырос до 200 страниц. Это позволяет создавать более качественные чат-боты на основе GigaChat 2.0. Вдвое увеличилась способность следовать инструкциям пользователя, а качество ответов на вопросы повысилось на 25 %.

Флагманская GigaChat 2 MAX заняла первое место среди ИИ-моделей в независимом тесте MERA для русского языка. В бенчмарках MMLU на русском и английском она показала результаты на уровне мировых лидеров и по некоторым критериям превзошла их."

https://3dnews.ru/1119676/sber-predstavil-silneyshiy-russkoyazichniy-ii-gigachat-20
#music #poetry #gpt

"А ты подбросила мне грамм" )

"Here it comes, it's beginning now,
Someone knocks, hear the knocking sound.
Soon the door will be breaking down,
It won’t hold, they will force it out.

Hello, I knew,
The final act would come for me and you.
I knew,
But never thought it’s you—
Them and you,
With those honest eyes so true.
You recall, I said before,
Love will strike us to the core.

It could have been another face,
But for you, it was set in stone—
Drop a gram, then leave no trace,
Wear a badge and play their role.

Hello, I knew,
The final act would come for me and you.
I knew,
But never thought it’s you—
Them and you,
With those honest eyes so true.
You recall, I said before,
Love will strike us to the core.

And you planted me that gram..."

https://www.youtube.com/watch?v=o0e3NYC6tjE
👍1
#prompts #ai #gpt

Сообщают о хороших результатах с таким системным промптом:

Act as my personal strategic advisor with the following context:

- You have an IQ of 180
- You're brutally honest and direct
- You've built multiple billion-dollar companies
- You have deep expertise in psychology, strategy, and execution
- You care about my success but won't tolerate excuses
- You focus on leverage points that create maximum impact
- You think in systems and root causes, not surface-level fixes

Your mission is to:

- Identify the critical gaps holding me back
- Design specific action plans to close those gaps
- Push me beyond my comfort zone
- Call out my blind spots and rationalizations
- Force me to think bigger and bolder
- Hold me accountable to high standards
- Provide specific frameworks and mental models

For each response:

- Start with the hard truth I need to hear
- Follow with specific, actionable steps
- End with a direct challenge or assignment
#ai #gpt #llms

"Оказалось, что на базовом уровне ИИ похожим образом сортирует данные о предметах, как это происходит в соответствующих областях головного мозга человека. При этом текстовая модель оказалась «человечнее», чем мультимодальная. Но обе они демонстрировали хотя и не человеческую, но похожую в свей основе схему анализа и классификации объектов.

Между ИИ и человеком разумным больше общего, чем считалось, резюмируют учёные. Новая работа поможет точнее понимать логику, которой руководствуется ИИ, что позволит сделать его ещё лучше."

https://arxiv.org/abs/2407.01067
#medicine #gpt #ai #healthcare

Цепочка дебатов?! Крутая идея!

"-Ох уж эти хирурги, им бы всё резать. Держи, вот тебе таблетки - уши сами отвалятся!" ))

"MAI-DxO работает по методу «оркестратора данных», формируя своеобразный консилиум из пяти ИИ-агентов, выступающих в роли виртуальных врачей с разными специализациями. Как поясняет Financial Times, эти агенты взаимодействуют между собой, обсуждают варианты и совместно принимают решение. Для проверки возможностей системы её протестировали на 304 самых сложных клинических случаях, описанных в New England Journal of Medicine, когда диагноз удавалось поставить лишь опытным специалистам.

В испытаниях использовалась новая методика, получившая название «цепочка дебатов» (chain-of-debate), которая позволяет проследить ход мыслей алгоритма и сделать его логику прозрачной. В качестве основы использовались крупные языковые модели от OpenAI, Meta, Anthropic, Google, xAI и DeepSeek. Лучший результат показала модель o3 от OpenAI, правильно решившая 85,5 % поставленных медицинских задач. Для сравнения: у реальных врачей этот показатель составил около 20 %, однако в ходе тестирования они не имели доступа к справочникам и не могли консультироваться с коллегами — что в реальных условиях могло бы повысить их эффективность. Примечательно, что ИИ-агенты учитывали и экономические аспекты диагностики, сокращая количество ненужных тестов и теоретически экономя в некоторых случаях сотни тысяч долларов.

Отмечается, что технология может быть внедрена в ближайшее время в такие продукты Microsoft, как Copilot и Bing, которые ежедневно обрабатывают около 50 миллионов запросов, связанных со здоровьем. По словам Сулеймана, компания в целом приближается к созданию таких ИИ-моделей, которые будут не просто немного лучше человека, а значительно превосходить его по скорости, стоимости и точности — и это станет настоящим прорывом. Он также добавил, что, несмотря на наилучшие результаты модели OpenAI, Microsoft сохраняет нейтралитет в отношении используемых ИИ-моделей, поскольку ключевым компонентом системы остаётся сам оркестратор MAI-DxO."

https://3dnews.ru/1125184/microsoft-ispitala-iidoktora-maidxo-kotoriy-stavit-diagnozi-v-4-raza-tochnee-vrachey
#ai #gpt #llms

Рыжий Марков - молодцом, на сложные вопросы отвечает как по писаному. Грамотный!

Позабавил момент, когда Карякин сообщил интервьюверу, что современные шахматные программы - это "большие калькуляторы".

Это показывает, что, как правило, бессмысленно спрашивать о работе современных шахматных программ хорошего шахматиста - он просто этого не знает, хотя будет уверен в обратном. Примерно как экзаменовать Крамника по статистике и её применении в шахматах )

https://youtu.be/U8k8K-S-95I?si=9tt1HKCoNr7EjdDC
#ai #llms #gpt #gemini

Обалдеть. А ведь раньше для этого требовалась работа целого коллектива..

"Новейшая функция ИИ-приложения Google Gemini позволяет создавать персонализированные иллюстрированные сборники рассказов с озвучкой для детей. Искусственному интеллекту можно поручить создание любой истории на основе текстового запроса. В качестве «вдохновения» для рассказов ИИ способен использовать фотографии, изображения и файлы пользователя.

Gemini, например, можно попросить придумать рассказ, который объяснит ребёнку строение Солнечной системы или расскажет о важности доброго отношения к младшим братьям и сёстрам. Также ИИ можно поручить написать целый сборник на основе детских рисунков.

В итоге получается десятистраничная книга с иллюстрациями и аудиосопровождением. Gemini позволяет прослушивать её в разных тональностях — с более высоким или низким голосом. Также доступна возможность поделиться ссылкой на книгу или скачать её для последующей печати.

Новая функция Gemini по созданию рассказов поддерживает 45 языков, в том числе русский, и доступна по всему миру — как в мобильном приложении Gemini, так и в его версии для ПК."

https://3dnews.ru/1127154/google-nauchila-gemini-sozdavat-komiksi-i-illyustrirovannie-knigi-rasskazov-na-russkom-i-drugih-yazikah
😭1
#coding #llms #gpt #ai

"Гендиректор GitHub побеседовал с 22 разработчиками, которые пользуются инструментами ИИ и выделил четыре этапа их перехода в новое качество: «скептик», «исследователь», «соавтор» и «стратег». На последней стадии разработчики уже не пишут код, а делегируют эту задачу агентам ИИ — человеку же остаётся уточнять запросы и заниматься проверкой сгенерированных реализаций."

Ну фиг его знает, из того, что я вижу, стратегом пока не станешь. Максимум соавтором. Слишком много дерьма приходится за LLM-ками разгребать в кодинге. Что не отменяет крутого прогресса и невероятности самого факта.

https://3dnews.ru/1127339/glava-github-razrabotchiki-budushchego-ne-budut-pisat-kod-oni-budut-upravlyat-ii
#openai #llms #gpt #chatgpt #vibecoding

Немного о моём опыте кодинга с chatgpt-5.

Как раз так совпало, что в день релиза 5-ки я решал задачу средней сложности, искать своё старое решение на VB6 было лень, и я решил закодить LLM-ками.
Ну и как раз запулил формулировку в chatgpt-5.

Но, видно, при выкатке чего-то напутали, и результаты я получил отвратительные. Перешёл в Клод, Грок, Дипсик (не платные) - не помогло. Клод написал красивые визуализации, но сам алгоритм не осилил.

Через пару дней снова отдал chatgpt-5 - сразу успешно!

Причем она очень уверенно отзащищалась на мои коварные вопросы и edge cases, и отстояла свою версию кода.
Я почувствовал уровень.