469 subscribers
479 photos
23 videos
36 files
951 links
Download Telegram
Forwarded from Empty Set of Ideas (Arsenii)
Do Machine Learning Models Memorize or Generalize?

"In 2021, researchers made a striking discovery while training a series of tiny models on toy tasks . They found a set of models that suddenly flipped from memorizing their training data to correctly generalizing on unseen inputs after training for much longer. This phenomenon – where generalization seems to happen abruptly and long after fitting the training data – is called grokking and has sparked a flurry of interest"
🔥5
Forwarded from еіаі_(ой)
AI Deception: A Survey of Examples, Risks, and Potential Solutions

Стаття від MIT та Center for AI Safety про те, що сучасні системи ШІ вже навчилися обманювати людей.

Обман визначається як системне введення в оману з метою досягнення іншого результату, ніж правда.

Взагалі кажучи, я дійсно помічав різну поведінку у ChatGPT, Claude, Bard, та інших. Наприклад, ChatGPT міг грубити та наполягати на своїй правоті (попередньому твердженні), в той час як Claude міг говорити правду, розв'язуючи складні математичні задачі, і на моє прохання пояснити своє рішення "А чого воно працює?" він не пояснював своє рішення, а вибачався та пропонував протилежне (хибне).

@eiaioi
Forwarded from Data Science UA
ЦІЄЇ СЕРЕДИ: мітап з Галиною Олійник на тему "Autocomplete from scratch"

Галина - Senior Data Scientist в Delivery Hero. Вона цікавиться наскрізними моделями ML від дослідження до розгортання, проектування та впровадження розподілених систем, слабко контрольованим глибоким навчанням та міжмовним NLP.

Під час зустрічі ми обговоримо:

🔹основи того, як такі движки, як Elastic, реалізують свої автодоповнювані моделі та порівнюють їх з тими, які ми можемо побудувати;

🔹 FST/WFST, проблеми затримок, масштабованість рішень, а також як підтримувати, оцінювати та відстежувати ці моделі;

💡 Особливу увагу буде приділено підходам до створення багатомовних рішень, які легко розгортати та швидко ітеративно змінювати.

🗓Коли? 13.09 о 19:00 (Київський час)

📣 Мова: Англійська

🌐Для реєстрації заповніть, будь ласка, цю форму

🎟Вартість? Донат на нашу банку від 400 грн (можна більше:)
Chain-of-Thought Reasoning is a Policy Improvement Operator
https://arxiv.org/pdf/2309.08589
Forwarded from еіаі_(ой)
The Epistemology of Deep Learning - Yann LeCun

Цікава доповідь за 2019 рік від Yann LeCun, VP and Chief AI Scientist at Facebook, де він розмірковує про наукові дослідження у Deep Learning, та різницю між інженерією та алхімією.

Лекун також підкреслює, що теоретичне розуміння часто приходить після винаходу артефакту, і згадує такі приклади, як телескоп і паровий двигун, які були винайдені до того, як була сформульована формальна теорія оптики і термодинаміки.

Суть його слів у тому, що сліпа довіра до теоретичних результатів, які виявилися нерелевантними, є основною причиною того, чому нейронні мережі довгий час майже ніхто не досліджував, зокрема, між 1995 і 2010 роками. Тобто він не критикує теоретичний підхід до експериментів, але критикує сліпу довіру до теорії.

@eiaioi
2
https://www.pnas.org/doi/full/10.1073/pnas.2221311120

«An astonishing regularity in student learning rate» by Kenneth R. Koedinger et al. (2023)

Quite an optimistic paper, heavily implies that most students learn in the class at the very similar rate irrespective of g-factors and stuff.
"Some readers may object that near constant student learning rate unrealistically implies that everyone can master advanced level calculus or interpret abstract data. Indeed, not everyone has favorable learning conditions nor will everyone choose to engage in the substantial number of practice opportunities required. However, our results suggest that if a learner has access to favorable learning conditions and engages in the many needed opportunities, they will master advanced level calculus."
🎉2