Андрей Демчинский
1.34K subscribers
409 photos
140 videos
18 files
672 links
Про инновации в глазах для науки, практики и кибербудущего.
Download Telegram
Десять дней назад склепал видос с катарактой с помощью набора языковых моделей и он завирусился среди офтальмологов по всему миру. В сумме, с учетом перезаливов, он набрал больше двух миллионов просмотров.

Но это история не про то, какой я классный, а про то, что каждый, реально каждый доктор может делать такое же, если немного напряжет свои булки и изучит основы работы с большими языковыми моделями.

Да на это надо потратить время, да на это нет волшебной таблетки, но оно того стоит.

Последний раз соглашаюсь на такой ценник за свой интенсив, клянусь, дальше будет сильно дороже, поэтому подумайте.

https://ai.srmedic.ru/intensive/?utm_campaign=blog_da
17🔥10❤‍🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
А речь идет вот об этом видео про созревание катаракты
🔥501
Почему зрение почти не меняется, когда вы закрываете один глаз

Это для любителей нейроофтальмологии и еще одно дополнение в учебники. Про человеческое латеральный коленчатый ядро (LGN) мы обычно рассуждаем по данным животных и косвенной нейровизуализации, потому что оно маленькое и спрятано глубоко. А между тем именно через LGN идёт почти весь поток от сетчатки к зоне V1, и если мы мечтаем о протезах, хотелось бы знать, что там реально делают отдельные нейроны.

Авторы исследования получили редкий шанс попробовать узнать - двум пациентам с эпилепсией имплантировали DBS-электроды в LGN. Во время операции микрозондами записали спайковую активность на разных глубинах ядра, при этом пациенты были бодрые и им показывали стимулы прямо в операционной.

Что нашли ценного

“Живой” LGN человека похож на приматов. Это на самом деле круто. Рецептивные поля с ON/OFF-структурой, настройка на частоты, и главное — есть красно-зелёная оппонентность в парво-слоях.
LGN в основном монокулярен, но “подглядывает” вторым глазом.
Встречаются эффекты бинокулярного подавления и подчёркивается, что конкуренция между глазами начинается очень рано.
Самое вкусное: добровольное закрытие одного глаза меняет “фон” LGN мощнее, чем ожидалось. У части клеток базовая активность падает при закрытии “своего” глаза, у части - растёт. Особенно резко это проявилось у нейронов с узким спайком (подозрение на интернейроны). И отсюда гипотеза: локальные тормозные элементы делают межглазной gain control, чтобы при закрытии одного глаза не было “соревнования сигналов”, а второй глаз спокойно доминировал.

И да, авторы сами отмечают, что восприятие меняется мало, хотя нейронные “ручки громкости” крутятся сильно, поэтому это выглядит как важный механизм стабилизации.

Итого

Эта работа показывает, что человеческий LGN - не просто часть провода, а активный регулятор межглазного усиления, особенно заметный при добровольном закрытии одного глаза. Для офтальмолога это приятно тем, что “ранний зрительный путь” снова становится практическим через протезы и нейростимуляцию.

#Мозг #Наука #Фундаменталка #ELVISV #Стартап #Демчинский
Please open Telegram to view this post
VIEW IN TELEGRAM
10
Охохо
1🔥286👍31
Канал закрыт на неопределенное время. До свидания
😢24👀17🤔8🫡6💔4😭41
Я почувствовал, что канал стал требовать от меня стабильности, когда у меня был период, где стабильности не было. Я выбрал восстановление вместо игры в нормальность.

Лента умеет делать одну странную штуку: превращать смысл в шум. Даже хорошая мысль там распадается на “ну да, интересно” - и умирает, не успев изменить ни одного решения, ни одного взгляда, ни одной привычки думать. Я поймал себя на том, что могу продолжать бесконечно. Писать “нормальные” посты. Быть удобным. И это как раз то, чего я больше не хочу.

Поэтому - перезапуск.

Здесь больше не будет текстов “для галочки”, не будет сладких обещаний и умных мнений в вакууме. Будет другое: сцены, в которых идеи проходят контакт с реальностью. Мы будем смотреть не на то, что красиво звучит, а на то, что выдерживает проверку. Мы будем разбирать иллюзии не ради удовольствия от разоблачения, а ради свободы. Потому что иллюзии всегда выставляют счёт, просто не сразу.

Я не собираюсь спорить с людьми. Я собираюсь спорить с комфортными сказками. С тем самым глянцем, который делает всё простым, гладким и якобы безопасным. Он обещает, что можно обойти цену сложности. Что можно получить результат без дисциплины. Что можно “понять” без того, чтобы думать. Я слишком много раз видел, чем это заканчивается.

Этот канал будет про ясность, которая иногда неприятна - и поэтому честна. Про сложные мысли, которые можно сделать красивыми, не превращая их в рекламную листовку. Про неожиданные связи, которые меняют оптику. Про то, как из хаоса собрать форму. Про то, как мысль превращается в событие: ты читаешь и внутри что-то смещается. Чуть-чуть, но навсегда.

И да, мои победы, если они будут, останутся между строк. Мне не интересно выглядеть правым. Мне интересно, чтобы реальность стала понятнее.

Если ты здесь - значит, тебе тоже.

Дальше будет просто: будем включать свет.
1264🔥27👍18❤‍🔥7💯7👌5💊3🆒21
Представьте операционную: хирург держит инструмент, но "дрожащая рука" больше не его проблема. Игла в 100 микрон (толщина волоса) должна попасть в заблокированную вену сетчатки и это уже пытаются автоматизировать не ассистентом, а сценарием "робот делает сам". В новости рассказывается о системе Johns Hopkins для автономной ретинальной венозной канюляции (RVC): обучение на изображениях микроскопа + интраоперационное OCT, а дальше робот ведёт иглу к вене, распознаёт контакт и делает прокол.

Фактология у работы аккуратная: тестировали ex vivo свиные глаза; 20 глаз без движения (90% успешной канюляции), ещё 6 глаз с синусоидальным "дыханием" (это просто механическое ритмичное смещение, тут 83%). И важно: "полностью автономный хирург" - это пока маркетинговая маска. В абстракте прямо сказано, что часть шагов оставили пользователю, а робот выполнял критические фрагменты под надзором человека.

Теперь ставка. При окклюзии вен сетчатки сегодня лечат в основном последствия: макулярный отёк, неоваскуляризацию - отсюда регулярные интравитреальные анти-VEGF инъекции и иногда стероиды (тута и тута лайтово, например). RVC же пытается лезть "в корень", то есть доставить препарат прямо в закупоренный сосуд, но процедура экспериментальная и технически капризная.

И вот здесь обычно начинается магия глянца: "83–90% успеха" звучит как почти готовая клиника, но это пока мир без живого кровотока, кровотечения, непредсказуемой ткани и юридической цены ошибки. Надо смотреть, выдержит ли это контакт с реальностью.

Маяк простой: следите не за словом "автономный", а за тем, кто берёт на себя ответственность - протоколы безопасности, живые животные, затем люди, и прозрачная статистика осложнений. Цена ошибки здесь важнее красоты обещания.

#робот #ИИ
🔥3914👍112🙏2👨‍💻2❤‍🔥1
Представьте термометр, который иногда показывает «холоднее» ровно в момент, когда внутри начинает сильнее греться. Примерно так мы иногда читаем фМРТ.

BOLD-контраст (blood-oxygenation-level-dependent) с самого начала был про кислород в крови, а не про «нейроны напрямую» - это видно уже в классической работе Ogawa. Дальше мы строим мостик через нейрососудистое сопряжение и делаем привычный жест: «плюс BOLD = больше активности, минус BOLD = меньше».

И вот свежий удар по комфорту: Epp et al., Nature Neuroscience, авторы в одной сессии у здоровых участников сравнили обычный BOLD с количественной фМРТ, оценивая CBF, OEF и CMRO₂ (метаболизм кислорода). Итог неприятно конкретный: ~22% серого вещества показали «discordant»-ответы (несогласованные), а среди вокселей (это как пиксель, только трехмерный) со значимым изменением BOLD доля «перевёрнутого» метаболизма - около 40%. То есть встречается и положительный BOLD при снижении CMRO₂, и отрицательный BOLD при росте CMRO₂ - и это не редкая экзотика на краю амплитуд.

Теперь аккуратность: пресс-релизный тезис «40% сигналов не соответствуют реальной активности» звучит красиво, но в статье сравнивают BOLD с метаболизмом кислорода как более близким маркером, а не с «истиной нейронов». И сама количественная фМРТ - это отдельный класс методов с практическими и модельными ограничениями (хорошее введение)

Проверим, выдерживает ли это контакт с реальностью: BOLD - не детектор лжи нейронов, а переводчик сосудов. И когда переводчик путает знаки, цена ошибки здесь важнее красоты обещания.

#МРТ #мозг
14🔥7👏4🤔3
Vivani Medical и их дочерняя Cortigen, вынесли на North American Neuromodulation Society данные 6-летнего Early Feasibility Study по системе Orion Visual Cortical Prosthesis System: 6 человек имплантировали в январе 2018–январе 2019, наблюдение завершили в марте 2025.

И вот что в этих «результатах» реально важно:

🔻 Эффект «включено/выключено»: после обучения все участники показывали улучшение, когда система была включена в двух типах задач: найти маленький квадрат на экране и заметить движение через поле зрения. Это не «чтение», но это честная проверка: устройство добавляет сигнал там, где без него тьма.
🔻 Долговечность каналов: все устройства оставались функциональными, а потеря функции - менее чем у 4% электродов. Для нейроимпланта, живущего годы, это, возможно, самая дорогая строка в пресс-релизе.
🔻 Безопасность и цена: один серьёзный инцидент - приступ на раннем этапе, но после изменения паттернов стимуляции повторов не возникало (нам, конечно, интересно какие были параметры изначально, хотя и так догадываемся). Плюс у четырех участников устройства были эксплантированы (троим после 3 лет, одному в конце исследования). Это важное напоминание: имплант не татуировка, а долгий контракт с нейрохирургией.

Отдельно: финальная оценка FLORA (тест такой) у всех positive или mild positive. Это про функциональность и субъективную пользу, но сама FLORA - не «острота зрения» и не заменяет жёстких конечных точек. И ещё тонкость, FLORA вообще создавали как наблюдательный и частично нарративный инструмент для ультра‑низкого зрения вокруг Argus II, это не суррогат остроты зрения. В интервью участники Orion отдельно описывают цену обучения, ожиданий и страхов - если коротко, тот «польза» не равна «работоспособности железа».

Если прокрутить вперёд на 3 года, ключевой вопрос будет не «можно ли вызвать фосфены», а «можно ли превратить их в стабильный навык вне лаборатории, то есть с понятной ценой, рисками и масштабируемостью». Это то, на что команда ELVIS V тратит много исследовательского времени, чтобы не получился дорогой керпич.

Доклад Early Feasibility Study of the Orion Visual Cortical Prosthesis System for the Blind

#Orion #протез #ELVISV #Демчинский
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥9👍7🆒1
Представьте: три года - ноль света. И вдруг в палате вы снова видите тень руки. Не «фосфен» от стимуляции, а что-то похожее на живое зрение.

В Brain Communications описан именно такой кейс: 65-летний мужчина с двусторонней NAION (ишемическая оптическая нейропатия), до участия - «no light perception». В рамках зарегистрированного испытания ему имплантировали 100-канальный Utah Electrode Array в затылочную кору. На второй день, во время подбора порогов стимуляции, он сообщил о свете и движении. Дальше - измерения при выключенном массиве: пиковое улучшение остроты зрения до х23 от исходного и частичное сохранение эффекта даже после удаления импланта.

И вот здесь обычно начинается магия глянца: «значит, слепоту лечат электродами?». Проверим, выдерживает ли это контакт с реальностью. Во‑первых, это один пациент из четырёх в программе, и протокол был про вызов искусственных ощущений, а не терапию. Во‑вторых, сами авторы напоминают: корковые зрительные протезы пока не стали клинической рутиной (контекст поля хорошо собран здесь).

Да, спонтанные улучшения после NAION описаны, но чаще в первые недели/месяцы: мета‑анализ по двустороннему NAION, и обзор в Eye - плохие союзники «чуда через годы». Авторы добавляют ещё один фактор: ежедневные тренировки зрения ≥30 минут (и это попадает в логику пластичности/реабилитации, но доказательная база по стимуляциям разнородна).

Маяк простой: это не «рецепт вернуть зрение имплантом», а сигнал, что у части пациентов остаточная «проводка» иногда оживает, если мозгу дать правильный шум и правильную работу. Цена ошибки здесь важнее красоты обещания: прежде чем верить в чудо, требуйте воспроизводимости и критериев, кому именно это может помочь.

Похожую тему мы встречали, когда работали с Антониной, которой поставили Argus II, у нее тоже наблюдалось улучшение зрения небольшое.

#протез #ELVISV #Демчинский #бионика
23🔥13🥰5👏41👍1
Представьте поликлинику, где самый дефицитный ресурс - четыре минуты врача. Не оборудование и не лекарства, а именно эти четыре минуты, которые сгорают на сборе анамнеза, пересказе и бумаге.

Проверим, выдерживает ли это контакт с реальностью. Важно: у LLM в медицине уже есть измеримые «плюсы», но поле всё ещё перекошено в сторону симуляций. В систематическом обзоре 519 работ лишь 5% использовали реальные данные ухода за пациентами, а справедливость/смещения и токсичность оценивали редко, то есть позитивные результаты часто демонстрируют «в вакууме», а не в клинике. И даже по AI в целом обзор RCT фиксирует: 81% испытаний заявляют позитивный первичный исход, в виде сигнала, что методы реально могут работать, но на фоне одиночных центров и риска publication bias это требует холодной проверки.

Теперь, где LLM действительно даёт эффект в потоке. Ресепшн - по данным Nature Medicine, чатбот на 35,418 реальных диалогов и модель «медсестра+LLM» в RCT (n=2,164) улучшили опыт пациента: удовлетворённость выросла (3.91 vпротив 3.39), повторные вопросы упали (3.2% против 14.4%), негативные эмоции тоже (2.4% против 7.8). И это не какая-то там магия интеллекта, а аккуратная разгрузка первого контакта и она измерима.

В другом RCT (n=2,069; 111 специалистов) чатбот PreA сделал то, чего обычно не хватает системе: подготовил визит. Консультации стали короче на 28.7% (3.14 против 4.41 мин), выросли оценки координации ухода и лёгкости коммуникации. Это как хороший администратор, который заранее собрал документы и разложил их по папкам, после чего врач начинает с сути, а не с разгона. И вот здесь обычно начинается магия глянца: та же базовая модель, просто дообученная на локальных диалогах, хуже следовала гайдлайнам и даже копировала недружелюбный тон. То есть мы можем ускорить поток и одновременно усилить «культуру коридора», если не зададим стандарты и контроль качества.

Наконец, «бумага». Pragmatic stepped-wedge RCT на 66 клиницистах показал: ambient AI-scribe снизил выгорание (−0.44 по шкале 1–5) и сократил время на заметки (−0.36 часа/день). Это редкий пример пользы, которую чувствует не только пациент, но и врач. Но эффект на «работу вне работы» оказался хрупким к выбросам, а значит внедрение надо мерить не презентациями, а стабильностью по отделениям и сменам.

Если прокрутить вперёд, то вопрос будет не «заменит ли LLM врача», а «как мы зафиксируем выигрыш во времени и качестве так, чтобы не масштабировать плохие привычки». Иллюзия приятна. Но она всегда выставляет счёт.

#LLM #ИИ #Демчинский

RCT - это randomized controlled trial, по-русски обычно переводится как рандомизированное контролируемое исследование.
🔥17😍42🍾21🤔1
Forwarded from ASPECTUM
Сегодня выступали на программе повышения квалификации для управленцев сети клиник «БУДЬ ЗДОРОВ», организованной НАУЗ.

Андрей Демчинский выступил с темой «Промпт-инжиниринг для врачей», освятив основные аспекты работы с большими языковыми моделями, без которых их работа не может быть эффективной и, главное, полезной для тех, кто принимает ответственные решения.

Алёна Белогурова рассказала о неограниченных возможностях обучения и самообучения врача и управленца в настоящее время с использованием ресурсов LLM, а также конкретные примеры поиска и анализы научной информации для врача.

Дарья Тишина рассказала, как клиникам внедрять ИИ-инструменты и получать от них максимальную пользу. В рамках выступления участники разобрали, как находить процессы для автоматизации, определять узкие места, принимать решение — разрабатывать технологии самостоятельно или использовать готовые, а также как правильно организовать внедрение и избежать типичных ошибок.

Андрей Бурсов рассказал о безопасности при использовании языковых моделей. На что обратить внимание управленцам и врачам, как использовать LLM так, чтобы это было корректно, этично и не привело к врачебным ошибкам.

Во вторник объявим о датах нашего нового хакатона "Медицина будущего 2.0. Неделя больших языковых моделей".

@aspectum_tech
11🔥10🎉6
This media is not supported in your browser
VIEW IN TELEGRAM
С днем науки, друзья, она интересна и творит чудеса
👏2421👍11🎉4🔥2
Представьте: вы ведёте взглядом машину и мир в глазах начинает ехать. Обычно это объясняют так: мозг обязан вычесть эту рябь, иначе всё поплывёт, но команда из Рочестера показывает неприятную для учебников мысль, типа эта рябь может быть не мусором, а подскааазкой.

В статье Flexible computation четатам… авторы формализуют две геометрии наблюдения:
🔻когда глаз в основном вращается - классика вычитания)
🔻когда к вращению добавляется перемещение - появляется паралакс.

Их тезис такой: по структуре оптического потока мозг может угадать какая геометрия сейчас, и поэтому по-разному комбинирует сигналы ретинального движения и скорости взгляда, то есть не только минусует.

Плюс работы в том, что авторы ловят систематические ошибки (сегодня учебники по офтальмологии надо прям переделывать). В VR-задачах люди давали предсказуемые смещения в оценке направления движения и глубины. При этом эти смещения совпали с моделью «инференса геометрии по оптическому потоку», без обучения и обратной связи (надеюсь я сам правильно понял).

Есть нюансики, вот это вот «раньше считали шумом» - звучит как вау революция. Но «вычитание» и эфферентная копия давно описывают реальные иллюзии во время плавного слежения, а короллярный разряд как механизм стабильности это не декорация, а рабочая часть системы. Тогда как глубина из параллакса и отношения ретинального движения к следящему сигналу тоже какбэ классика.

Авторы аккуратно кивают в сторону VR, мол если картинка в шлеме не учитывает движение глаз, то мозг может получать «не тот» нейрональный поток. Но но так называемая кибер болезнь (когда в виаре штырит), это чаще про конфликт сенсорных каналов в целом, а не одна кнопка в настройках.

Мораль заключается в том, что ставка в другом - мозг, похоже, не просто чистит сигнал, а оценивает причны движения в поле зрения. Типа чем сложнее будут наши дисплеи и симуляции, тем дороже станет ошибка в этой причинности.

#VR #физиология #демчинский
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🙏5🍾41👀1
Forwarded from ASPECTUM
Ассоциация врачей и разработчиков технологий "Aspectum" приглашает вас принять участие во втором Хакатоне, посвященном использованию больших языковых моделей (LLM) в медицине «Медицина будущего 2.0. Неделя больших языковых моделей».

Даты: 13-19 апреля.
Формат: Онлайн.

Хакатон объединяет врачей, разработчиков и промпт-инженеров для создания прототипов решений на основе LLM, которые могут быть внедрены в клиническую практику:
— автоматизация документооборота,
— поддержка принятия решений,
— интерпретация исследований,
— снижение рутинной нагрузки на врачей.

Что будет:
— Работа в междисциплинарных командах (2–5 человек).
— Онлайн-лекции и мастер-классы от экспертов.
— Менторская поддержка.
— Финальный питчинг проектов 19 апреля.

Для участия:
— Подайте заявку до 6 апреля на сайте Хакатона.
— Можно прийти с командой или найти её в чате участников (доступен для участников, заявки которых прошли модерацию).
— Обязательное условие - наличие врача в команде.

Победители получат призы и возможность развивать свои решения совместно с партнёрскими медицинскими и технологическими организациями.

@aspectum_tech
97👏5
Прикиньте стойку в эндокринологии. Вы сделали два снимка глазного дна и через минуту распечатка, типа «ретинопатии не выявлено». Пациент в этот момент слышит «глаза обследованы». Клиника в отчёте пишет: «скрининг пройден» и вот в этот момент обычно начинается магия глянца в виде подмены понятий.

Прикол реальности. FDA в De Novo-досье на IDx-DR (первый зарегистрированный фундус с ИИ) прямо предупреждает: система предназначена только для выявления диабетической ретинопатии, не предназначена для поиска сопутствующих заболеваний и на неё нельзя полагаться как на способ обнаружить «любую» болезнь глаз. Отдельно сказано, что она не выполняет скрининг глаукомы, а при ответе «результат не получен» пациента нужно повторно обследовать или направлять к офтальмологу. В документе также отмечено: «результат не получен» может быть связан с катарактой или другими аномалиями. Почувствуйте, как будто где-то тебя тут наеб... У EyeArt то же самое.

Теперь инженерная реальность. В крупнейшей проверке на данных системы здравоохранения ветеранов США семь систем показали заметно разную чувствительность (примерно 51–86%), а вывод авторов простой: перед внедрением нужны проверки на собственных реальных данных. Даже смена девайса сдвигает показатели, так исследование показывает различия по качеству снимков и точности между разными немидриатическими камерами.

Короче, вот три вопроса, которые надо себе задать перед покупкой «универсального ИИ-обследования глаз за один визит»:

🔻что именно диагностирует алгоритм и что принципиально не ищет;
🔻есть ли внешняя проверка на вашей популяции и камерах. Вот об этом я часто говорю, что надо собирать у себя в клинике данные тупо хотя бы чтобы на своих данных проверить работу алгоритма, чтобы понять пиздит он или нет;
🔻как устроен маршрут пациента при «положительном» результате и при «болячки не найдено».

Если вам обещают «модель обновляется и становится умнее», то спросите про мониторинг качества на практике и прозрачность изменений - это прямо заложено в принципах надлежащей практики машинного обучения для медицинских изделий у америкосов, например, а там опыт больше.

Маяк: автономный ИИ-скрининг, это отличный фильтр, но плохой универсальный окулист, не давайте маркетингу расширять назначение прибора, а расширяйте маршрутизацию пациента и дисциплину контроля качества. А еще начните уже собирать свои данные.

#Диабет #ИИ #Демчинский
Please open Telegram to view this post
VIEW IN TELEGRAM
15👏8👍4
Тестирую кое-какие новые навыки на примере своей диссертации, что думаете?

http://aspectum.tech/testing
10🔥10👍8🤪1
Сейчас будет жесткий футуризм. Кто-то антивозрастные штуки придумывает, а тут про то, как проснуться через 300 лет.

Представьте, что мозг надо сохранить как хрупкий фарфор, но только в масштабе миллиардов связей. Лёд тут в обычном варианте все испортит, поэтому витрификация это как попытка заморозить стеклом - без кристаллов.

В препринте показали как целый мозг кролика после перфузии раствором M22 можно охладить и разогреть так, чтобы на микроскопии не было признаков повреждений льдом, но цена видна сразу: сильная осмотическая усадка, которая искажает нейроанатомию. Авторы прямо считают порядок этой цены: точка плавления M22 около минус 55°C, что соответствует примерно 29.6 osmolal (че это вообще), то есть порядка ста раз концентрированнее плазмы или ликвора, а барьер кровь-мозг быстрее выпускает воду, чем впускает криопротекторы.

Кусок про человека. Биоптаты коры после перфузии M22, охлаждения и разогрева не показывают льда даже в тесте, где нуклеацию льда специально провоцируют, а частичное разведение M22 возвращает пирамидным нейронам более нормальную форму. При этом в методах описано, что перфузия в одном случае завершалась примерно через 6 часов 16 минут после юридической смерти, а потом корковые биопсии сразу уходили в жидкий азот. Вот так.

Глянец тут появляется, когда структурную сохранность продают как сохранность личности. Но дорожная карта Biostasis отдельно подчёркивает разрыв между красивой морфологией и доказанной обратимостью функций у человека
🔥158❤‍🔥6🤨2
Вы знаете я люблю технологии и движуху стартаперскую, поэтому делюсь информацией о старте нового потока сеченовского акселератора.

Это хорошее место, поверьте, поэтому если у кого есть идеи что-то разрабатывать и внедрять, то прыгайте 🤓

https://t.me/SechenovAcceleration/867
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥124🤓2🦄1
Короче разъеб, я чувствую если эту статью кто-то подхватит, то...

Рассказываю. Самое опасное в медицине, это ошибка с убедительным тоном. Языковая модель умеет звучать уверенно даже тогда, когда она ошибается - это та правда, которую просто надо иметь в виду. Поэтому исследования про вред надо читать как протокол вскрытия, а не как приговор.

В Nature Medicine вышло рандомизированное исследование, в котором 1298 взрослых британских докторов решали 10 клинических сценариев и выбирали, что делать дальше. Три группы общались с GPT 4o, Llama 3 или Command R+. В варианте с Command R+ был подключён поиск к интернету, а контроль мог пользоваться любыми источниками, чаще всего сайтом NHS и обычным поиском. В одиночку модели почти всегда называли уместное состояние в 94,9% случаев и в 56,3% давали правильное решение по маршрутизации. Но люди с теми же моделями называли уместные причины меньше 34,5%, а правильную маршрутизацию - меньше 44,2%, то есть не лучше контроля.

Наивное чтение такое: значит модели бесполезны.


На деле же это удар по связке "пользователь + форма общения + модель". Люди задают закрытые вопросы, приносят неполную картину, а система иногда путает контекст и выдаёт непоследовательные советы. Авторы признают, что данные собраны в августе и октябре 2024 года, а новые и более специальные версии могут быть сильнее, но это ещё не гарантирует, что исчезнет провал именно во взаимодействии человека с системой.

При этом есть и обратные результаты. В этом исследовании, например, на практикующих врачах с GPT 4 улучшал клиническое рассуждение по ведению клинического случая по сравнению с "только с источниками".

Маяк: перестаньте спорить какая модель умнее. Спросите умеет ли врач вообще пользоваться языковой моделью. Он строит запрос как клинический протокол, с контекстом, ограничениями, красными флагами, целью ответа и форматом проверки, или он тупо гуглит и ждёт волшебной справки? Пока мы не измеряем навык постановки запроса, не задаём рамки риска и не требуем проверку на реальных пользователях с ответственностью за неверную маршрутизацию, любая умная система останется скальпелем без анатомии: инструмент острый, а резать будет куда придётся.

#llm #ИИ #Демчинский
120👍8💯7🤝1