(sci)Berloga Всех Наук и Технологий
7.86K subscribers
336 photos
10 videos
2 files
371 links
Мультидисциплинарный канал о науке и технологиях.
Data Science, Bioinformatics, Biology, Mathematics, Physics, IT, Computer Science.

@sberlogabio био и дата сайнс
@sberlogasci математика, физика и ДС

https://www.youtube.com/c/SciBerloga
Download Telegram
Наши коллеги по Сберлоге запустили новый проект - удобные вещи для айтишников. Где еще вы найдет толстовки "Модель худи C#" и "Модель худи Python" - только у наших коллег - подписывайтесь на их канал: https://t.me/rybe_store и заходите на их веб-сайт .

Их цель - получить не просто "мерч с принтами", а что-то реально лучше. Они вслепую сравнивали образцы тканей, чтобы выбрать ту самую (плотную, как шкура дракона), они 4 раза просили перешить тестовый образец и раз за разом перепридумывали детали.

Люверсы для пропуска — бейдж больше не будет болтаться на шнурке.
Отсек для наушников — чтобы не искать их по всей сумке.
Салфетка для экрана/очков — встроена в карман, потому что ну а чем ещё их протирать?

Сейчас это альфа — первая маленькая серия, всего 21 штука. Каждая толстовка со своим уникальным номером.

Если вам интересно
Заходите на сайт: https://rybe.store/?utm_medium=tg&utm_content=sciberloga
Подписывайтесь на канал: https://t.me/rybe_store
😁12👍64🔥4🤩1
В 2005 году Джон Иоаннидис опубликовал статью "Why Most Published Research Findings Are False", в которой представил аргументированное обоснование того, почему большая часть научных результатов не является истинной. Эта работа вызвала значительный резонанс в научном сообществе, так как поставила под сомнение надежность большого числа исследований.

Факторы риска

Автор утверждает, что вероятность ложных результатов в научных публикациях можно доказать математически. Он рассматривает ключевые факторы, которые влияют на истинность исследовательских данных. Одним из важнейших параметров является статистическая мощность исследования: чем меньше выборка, тем выше вероятность того, что результаты окажутся случайными. В свою очередь, маленький размер эффекта также снижает вероятность того, что исследование отразит реальную зависимость.

Еще одним важным фактором является соотношение истинных и ложных гипотез в конкретной научной области. Если в данной области большинство исследуемых гипотез ложны, вероятность получения ложноположительного результата возрастает. Кроме того, гибкость в дизайне исследования, выборе методики анализа и интерпретации данных также способствует получению предвзятых результатов. Изменение методик на ходу или манипуляции с анализом данных могут приводить к тому, что отрицательные результаты превращаются в положительные. Это особенно актуально в условиях конкуренции, когда публикации с "интересными" результатами получают больше внимания.

Финансовые и другие предвзятости также оказывают значительное влияние на научные исследования. Автор подчеркивает, что чем больше финансовых или иных заинтересованных сторон в научной области, тем выше вероятность того, что результаты исследований будут искажены. Этот эффект усиливается в областях с высокой конкуренцией, где ученые стремятся публиковать наиболее "сенсационные" результаты, даже если их достоверность сомнительна.

Иоаннидис вводит понятие bias, определяя его как совокупность факторов, приводящих к появлению научных результатов там, где их быть не должно. Это может включать не только методологические ошибки, но и сознательную или подсознательную предвзятость исследователей. В таких условиях положительное прогностическое значение (PPV), то есть вероятность того, что опубликованный результат действительно отражает истину, оказывается низким. Автор подчеркивает, что во многих научных областях PPV настолько мало, что заявленные эффекты могут просто отражать уровень предвзятости, а не реальную связь между переменными.

Конкретные примеры
Примеры ложных или сомнительных исследований можно найти во многих научных областях. Например, в исследованиях молекулярных предикторов размер выборки часто оказывается слишком малым, что делает их результаты ненадежными. В кардиологии, напротив, проводятся крупные рандомизированные контролируемые исследования, включающие тысячи пациентов, что увеличивает вероятность истинности их выводов. Исследования связи генетических факторов с мультигенными заболеваниями, такими как диабет или шизофрения, часто показывают относительный риск 1,1–1,5, что значительно ниже, чем в исследованиях, посвященных влиянию курения на рак (относительный риск 3–20). Это говорит о том, что небольшие эффекты сложнее подтвердить, а вероятность случайных находок выше.

Еще одним важным аспектом является количество проверенных связей. В подтверждающих исследованиях, таких как метаанализы или крупные клинические испытания фазы III, вероятность истинности результатов выше. В экспериментах, направленных на генерацию гипотез, напротив, часто проверяется множество возможных взаимосвязей, что увеличивает вероятность ложноположительных результатов. Например, если ученые тестируют сотни различных гипотез без строгого отбора, большинство их находок будут случайными.
🔥14👍31
Гибкость в дизайне исследований также играет ключевую роль. Например, если в клиническом испытании можно менять критерии включения и исключения пациентов или анализировать данные разными способами, то вероятность получения "положительного" результата возрастает, даже если эффект отсутствует. Это особенно заметно в области исследований новых лекарственных препаратов, где компании могут выбирать методики анализа, которые показывают их продукт в наилучшем свете.

Финансовые интересы оказывают мощное влияние на результаты научных исследований. Например, фармацевтические компании заинтересованы в том, чтобы их препараты демонстрировали положительные результаты, что может приводить к предвзятости в выборе данных или методов анализа. Аналогичная ситуация наблюдается и в пищевой промышленности: исследования, финансируемые производителями сахара, часто приходят к выводу, что жиры вреднее сахара, тогда как независимые исследования показывают обратное.

В "горячих" научных областях с большим числом исследовательских групп конкуренция за публикации также ведет к снижению надежности результатов. Например, в области геномных исследований шизофрении десятки групп работают над выявлением генов, связанных с заболеванием. Даже если отдельное исследование демонстрирует статистически значимую ассоциацию, вероятность ее истинности остается низкой. Если десять групп независимо проведут такие же эксперименты, вероятность того, что хотя бы одна из них найдет "значимый" результат, высока просто из-за случайности.

Что делать?
Для решения этой проблемы Иоаннидис предлагает несколько подходов. Важно увеличивать мощность исследований за счет проведения крупных выборок или мета-анализов с низким уровнем предвзятости. Регистрация исследований до их проведения позволит снизить вероятность избирательной публикации только "интересных" результатов. Также необходимо более осмысленно подходить к оценке гипотез перед началом исследования и повышать стандарты научных работ.

Основной вывод статьи заключается в том, что современная научная практика требует пересмотра. Одного лишь достижения статистической значимости недостаточно для подтверждения гипотезы. Необходимо учитывать вероятность истинности результатов и критически относиться к опубликованным данным. Иоаннидис призывает научное сообщество к более строгим стандартам исследований и отказу от слепой погони за сенсациями, чтобы наука могла выполнять свою основную функцию — поиск объективной истины.
🔥14👍71😁1
Добрые и мудрые, нежные и прекрасные, весёлые и надёжные — дорогие наши девушки!

Поздравляю вас с Международным женским днём! 💐
Вы — настоящее украшение этого мира!

Пусть крепкое здоровье, искренние улыбки и весеннее настроение сопровождают вас каждый день! 🌸🌼💖
🔥123🎉3🤩3
Forwarded from Alexander C
🚀 @SBERLOGABIO webinar on bionformatics and data science:
👨‍🔬 L. Peshkin (Harvard Medical School) "Principal Compounds: A scalable Pharmaco-biology + Machine Learning approach to Reverse Engineering of Molecular Circuits underlying Macro-Phenotypes"
⌚️ 19 Марта Среда, 19.00 по Москве (17.00 CET)

Add to Google Calendar

Доклад будет посвящен некоторой задаче на стыке фармакологии, машинного обучения, теории информации и кодирования , решение которой будет иметь практические применения для тестирования и понимания эффекта компаундов.

Следующие публикации рекомендуются к прочтению:
https://pubmed.ncbi.nlm.nih.gov/24707051/
https://www.biorxiv.org/content/10.1101/2020.09.26.312348v1


Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
🔥137👍1
Ты когда-нибудь замечал, как директор смотрит на твой график и говорит: «А можно попроще?»

Мы знаем, как это бывает! Поэтому собрали для тебя топ материалов по BI-аналитике, которые помогут не только визуализировать данные, но и объяснить их даже котику. Ну или директору 🤭

📕Сохраняй карточки с подборкой лучших книг: от подготовки данных до дашбордов, крутой визуализации, сторителлинга, секретах управления компанией и бизнес-аналитиками. Кстати, на «Оконные функции в T-SQL» дарим скидку 15 и 25% (оставили в комментариях!)

📎Ну и парочка SQL тренажеров⁠(must-have навык для любого аналитика!):

• Интерактивный тренажер на создание SQL-запросов от Stepik
• Короткий тренажер с интересными сценариями от Stepik
• Всесторонний курс, который навсегда изменит твое отношение к SQL от SQL Academy
• Упражнения от sql-ex для тех, кто хочет стать мастером запросов
• Здачи по Python, SQL, программированию и Data Science от IT Resume
• Master Coding for Data Science от StrataScratch (напоминает leetCode, есть бесплатная версия)
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥4👍3
Forwarded from Cancer 3D
Cancer 3D — это открытая научная инициатива по изучению и моделированию процессов опухолевой инвазии, миграции и метастазирования. Проект основан админами и редакторами Медача, совместно работавшими над недавней статьей в Cancers. По сути – это масштабное продолжение той статьи и её переосмысление.

Наша миссия заключается в разработке цифровых двойников опухолей и анализе детальных микротомографических и гистологических изображений. На основе этих данных в рамках данного проекта будет выполнено моделирование процессов инвазии, метастазирования и коллективной миграции опухолевых клеток.

Проект не является коммерческим и использует открытые данные, предоставляемые его участниками.

Все участники проекта, внесшие достаточный вклад в разработку, анализ или написание статей, становятся равноправными соавторами научных публикаций и патентов.

White paper проекта

Подать заявку
👍158😁1
💎NANOMINER: MULTIMODAL INFORMATION EXTRACTION FOR NANOMATERIALS

Была я тут на ICLR неделю назад, мне лично было очень весело. Естественно мне запомнились доклады, статьи и тд, но соберу я это в пост явно не сейчас. Первое, что хочу запостить сюда по этой теме – это тот факт, что вообще-то я туда приезжала не только пить, изучать интересные статьи и смотреть город, а еще стоять со своим постером!

Мы с коллегами❤️ из ИТМО подались хайпу LLM агентов и прочего, но при этом решили важную проблему

Наш доменный эксперт Сабина:

С точки зрения химика, главная проблема — не в недостатке ИИ, а в том, что большинство инструментов не понимают, как устроены научные статьи. Чтобы спланировать синтез и проверить свойства вещества, приходится вручную вычитывать десятки источников, искать куски данных, раскиданные по графикам, таблицам и тексту. LLM тут часто бессильны: они не умеют отличать разные серии экспериментов или связать численные параметры с описанием синтеза.


Что мы имеем по итогу статьи:
💛Собрали мультиагентную систему с ReAct-координатором, который управляет текстовым (LLM на NER задачу, aka доп эксперт) и визуальным (YOLO+4O) агентами
💛Автоматизировали сбор датасетов по нанозимам, ранее вручную собираемых экспертами
💛Достигли точности 0.98 по числовым параметрам и высокого качества по текстовым

Как работает:
💛PDF → текст и изображения через pdfplumber и pytesseract.
💛Текст разбивается на чанки по 2048 токенов (потому что мы бедные, забейте) для NER-агента; а визуальный агент на GPT-4o обрабатывает графики и таблицы целиком для восстановления структурной логики статьи
💛У каждого агента чёткая зона ответственности и формат ответа

Интересные факты
Я занималась текстовым агентом, поэтому вот мои наблюдения: мы сравнили Mistral и Llama и по моим наблюдениям вторая чаще пытается избежать FP, что докидывает в качестве

Это всего лишь short paper и нам не удалось целостно раскрыть детали работы в нем на столько, на сколько мы желаем. Поэтому ждем апрув в npj Computational Materials😎, чтобы поделиться полной версией. Также планируем доработки на следующие конфы, в которых расширим покрытие тем статей и адаптацию агентов к новым параметрам и доменам🤫

📖Папир тут
🖥Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥137🤩7👍3