Хабр / ML & AI
474 subscribers
5.43K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Как обмануть нейронную сеть

Привет, Хабр! 8 ноября отгремел очный финал МТС True Tech Champ 2024. В программе было много интересного — например, гонки роботов и конференция с докладами на главной сцене. Постепенно мы с вами ими делимся.

Сегодня публикуем пост на основе доклада «Как обмануть нейронную сеть» Алексея Зайцева — старшего преподавателя Сколтеха и руководителя лаборатории Центра прикладного искусственного интеллекта. Со своей командой он разрабатывает и исследует модели искусственного интеллекта, решает прикладные задачи и отвечает на фундаментальные вопросы. Что такое ИИ, как обучить нейросеть и как ее обмануть — об этом и не только прочитаете дальше. Полную видеоверсию можно посмотреть тут. Поехали!

Читать далее

#модели #нейросети #обучение #bigdata #информационная_безопасность | @habr_ai
Переобучение моделей: гайд и советы для начинающих

С развитием нейросетей появляются новые вызовы. Один из них — переобучение моделей. Совместно с Александром Рыжковым, ментором Skillfactory, руководителем команды LightAutoML и 4х Kaggle Grandmaster, разбираемся, что такое переобучение, хорошо ли это и как его избежать.

Читать далее

#machinelearning #bigdata | @habr_ai
Развертывание Marco o1 на локальном PC. Языковая модель рассуждений

Недавно я запускал и тестировал Marco o1. Это одна из первых опенсорсных языковых моделей с многоступенчатой логикой, эта модель использует Chain-of-Thoughts и некоторые другие алгоритмы, которые помогают с решением задач на математику, логику и кодинг. Marco-o1 названа по аналогии с OpenAI o1, благодаря которой Chain-of-Thoughts промптинг и файнтюнинг получил особую популярность в GenAI индустрии.

В последнее время разные компании, в основном из Китая, стремятся повторить возможности o1. Самые впечатляющие результаты - у DeepSeek-R1-Lite-Preview, но веса этой модели не были опубликованы на момент проведения моих тестов. Однако разработчики DeepSeek R1 Lite обещали открыть доступ в свое время, и это будет очень интересно для нас.

А пока я решил поиграть с весами Marco-o1, модели хотя и легковесной, но реализующей те продвинутые алгоритмы, которые стоят за удивительными возможностями оригинальной o1. Как видно из карточки модели на HuggingFace, она создана путем файнтюнинга Qwen 2 7B на Chain-of-Thoughts датасете. Это комбинация датасетов Open-O1 и двух дополнительных наборов данных, которые разработчики из Alibaba Cloud сгенерировали, используя разные стратегии промптинга - Chain of Thoughts и обычные инструкции. Опубликована, к сожалению, только часть данных, но по ним ясно видно, какой формат использовали для файнтюнинга Chain-of-Thoughts:

Читать далее

#языковые_модели #marco #datascience #ai #machinelearning #deeplearning #neuralnetworks #nlp #bigdata #artificial_intelligence | @habr_ai
👍1
Apache Kyuubi + Spark: как приручить большие данные

Привет, Хабр! Меня зовут Станислав Габдулгазиев, и я архитектор департамента поддержки продаж Arenadata. В этом материале поделюсь впечатлениями от использования Kyuubi — инструмента, который значительно упрощает работу пользователей с SQL, а также затрону вопросы его сравнения с другими решениями для обработки больших данных.

Kyuubi — это сервис, предоставляющий механизмы для распределённого выполнения SQL-запросов поверх различных вычислительных движков, таких как Apache Spark, Hive, Flink и Impala. Он часть дистрибутива Arenadata Hadoop (ADH), который включает эти движки для обработки и анализа данных.

Читать далее

#spark #bigdata #data_engineering #data_scientist #hadoop #apache #trino #impala #hive #s3 | @habr_ai
Свой стартап на LLM и агентах — это просто! (нет). Или почему технология не всегда так важна

В эпоху повального увлечения AI кажется, что достаточно взять OpenAI API, найти проблему, написать сложненький промпт (или их цепочку) и готово — ваш следующий единорог уже на подходе. Однако реальность, как всегда, оказывается намного сложнее и это мираж технологической простоты. В этой статье — рассуждения о том, почему базовая технология или стек целиком — это лишь верхушка айсберга в создании успешного продукта, и почему даже имея доступ к самым передовым технологиям, создать по-настоящему ценный продукт остается сложной задачей.

Читать далее

#llm #агенты #агенты_ии #bigdata #стартап #архитектура #chatgpt #ai #чатбот #чатботы | @habr_ai
На что способен Bard или случайные совпадения

Предыстория. Если, ради уменьшения объема этой статьи и её чисто прикладного характера, не вдаваться в собственные разработки теории общего искусственного интеллекта и решения проблемы выравнивания (Возможно что об этом, с большими подробностями и в общих чертах, что, зачем, почем и как, будет в следующей статье. А забегая вперед скажу, что современные теоретические представления об общем/сильном ИИ, не основанные на интегративности и синергии будут иметь куда меньше общего, как с самой общностью, так и с силой и с самим интеллектом, в отличии от тех что исповедают такие подходы. Но и теории декларирующие обозначенные выше подходы могут так же не иметь потенциал), но в рамках которых и проходил описанный здесь эксперимент при непосредственном участии Барда, то началось всё с банального, а именно с тестирования возможностей современных ЛЛМ. Углубиться

#bigdata #аналитика #нейросети #интеллект #промпт_инжиниринг #agi #bard #gemini_ai | @habr_ai
Как собрать ETL-процессы в Apache Airflow и перестать страдать

Оркестрация процессов в Apache Airflow — мощный инструмент для управления данными. Но как внедрить его так, чтобы процессы стали прозрачными, гибкими и удобными для команд? Как организовать ETL-пайплайны, чтобы они легко масштабировались и адаптировались под нужды аналитиков, ML-инженеров и других специалистов?

Меня зовут Любовь Марисева, я инженер дата-платформы в Циан. Мы разрабатываем десятки ETL-процессов, обеспечиваем данными разные команды и постоянно ищем способы сделать работу с Airflow эффективнее. В этой статье я расскажу, как мы решили ключевые проблемы, сделали расчёты более управляемыми и упростили взаимодействие между командами.

Если вы только начинаете работать с Airflow или хотите улучшить свои подходы, присоединяйтесь! Эта статья поможет взглянуть на оркестрацию процессов под новым углом. Читать далее

#bigdata #big_data #airflow #apache_airflow #etl #etl_процессы #etl_пайплайн #оркестрация #машинное_обучение | @habr_ai
ИИ в ЭДО: история одного кейса для хакатона от МТС

Привет, Хабр! Меня зовут Константин Архипов, я scrum-мастер продукта «Среда ЭДО» в МТС. Осенью 2024 года Университет Иннополис пригласил нас поделиться кейсом для хакатона INNOGLOBALHACK. Со стороны кажется, что это достаточно простая задача: даем студентам датасет от компании, описываем требования и смотрим их решения. Но на практике нужно сформулировать гипотезу, учесть кучу факторов и проверить, что задачу вообще можно решить. В этом посте я расскажу, как мы готовили свой кейс и что получилось у студентов по нашему датасету.

Читать далее

#хакатоны #мифи #большие_данные #bigdata #командная_работа #мтс_линк #искуственный_интеллект #машинное_обучение | @habr_ai
GigaChat 2.0 в API

Салют, Хабр! Время летит незаметно. Будто совсем недавно мы знакомили вас с GigaChat MAX, но мы не стоим на месте и сегодня готовы представить вам обещанный апгрейд. За полгода мы значительно улучшили обучающие данные, поработали над инфраструктурой обучения моделей, а также уделили особое внимание всему процессу Alignment-а, в том числе RLHF. 

Представляем вам GigaChat 2 — полностью обновлённую линейку моделей в версиях Lite, Pro и Max. Все модели серьёзно улучшены: мы обновили pretrain’ы, улучшили большинство метрик по сравнению с предыдущими версиями, добавили поддержку контекста в 128 тысяч токенов, улучшили вызовы функций, и в целом повысили понимание инструкций. 

GigaChat 2 — не просто сухие числа и технические улучшения. Теперь это надёжный помощник в повседневных задачах. Например, он легко оформит отчёт для работы, напишет чистый и эффективный код, поздравит с днём рождения или даст мудрый совет. Мы уверены: с ним вы сможете делать больше, быстрее и лучше как на работе, так и в жизни. Попробуйте GigaChat 2 уже сейчас в Playground — пользовательском интерфейсе для продвинутой работы с промптами!

GigaChat 2

#машинное_обучение #искусственный_интеллект #bigdata #llm #gigachat | @habr_ai
GigaChat 2.0 в API

Салют, Хабр! Время летит незаметно. Будто совсем недавно мы знакомили вас с GigaChat MAX, но мы не стоим на месте и сегодня готовы представить вам обещанный апгрейд. За полгода мы значительно улучшили обучающие данные, поработали над инфраструктурой обучения моделей, а также уделили особое внимание всему процессу Alignment-а, в том числе RLHF. 

Представляем вам GigaChat 2 — полностью обновлённую линейку моделей в версиях Lite, Pro и Max. Все модели серьёзно улучшены: мы обновили pretrain’ы, улучшили большинство метрик по сравнению с предыдущими версиями, добавили поддержку контекста в 128 тысяч токенов, улучшили вызовы функций, и в целом повысили понимание инструкций. 

GigaChat 2 — не просто сухие числа и технические улучшения. Теперь это надёжный помощник в повседневных задачах. Например, он легко оформит отчёт для работы, напишет чистый и эффективный код, поздравит с днём рождения или даст мудрый совет. Мы уверены: с ним вы сможете делать больше, быстрее и лучше как на работе, так и в жизни. Попробуйте GigaChat 2 уже сейчас в Playground — пользовательском интерфейсе для продвинутой работы с промптами!

GigaChat 2

#машинное_обучение #искусственный_интеллект #bigdata #llm #gigachat | @habr_ai
BI-Ассистент для создания аналитических дашбордов и автоматизированного анализа данных

BI-Ассистент для создания аналитических дашбордов и автоматизированного анализа данных

Привет, Habr! На связи Александр Сулейкин, Founder DUC Technologies и наша LLM-команда – Роман Бабенко и Александра Деведерова, а также Бутнев Даниил — аналитик, бывший сотрудник компании, являющейся центром компетенций по качеству и метрологии. Мы подготовили статью по возможному применению и созданию BI-ассистентов на базе LLM моделей для создания аналитических дашбордов. Данная сфера пока еще находится в зачаточном состоянии, развитие LLM для BI-решений только набирает популярность. В данной статье мы описали возможный кейс совмещения BI и LLM на примере реального Use Case в сфере метрологии.

1. Введение

Создание аналитических дашбордов и проведение комплексного анализа данных являются важными аспектами работы организаций. Однако этот процесс часто требует глубоких технических знаний, что делает его труднодоступным для пользователей без специальной подготовки. Особенно актуальной становится проблема, когда речь идет о небольших компаниях или отделах, где ресурсы ограничены, а необходимость в оперативном анализе данных высока. Это создает барьер между бизнесом и информацией, которую можно было бы использовать для принятия взвешенных решений.

Цель данной статьи - представить разработку BI-Ассистента, виртуального помощника, предназначенного для автоматизации процесса создания аналитических дашбордов и выполнения аналитических запросов. Этот инструмент направлен на упрощение взаимодействия с данными и снижение порога входа для пользователей, не обладающих технической подготовкой.

Читать далее

#искусственный_интеллект #gpt #bi #bigdata | @habr_ai
Не окей, гугл: как сделать поисковик для работы с служебными презентациями

Привет, Хабр! Это снова команда «МосТрансПроекта». Мы постоянно работаем с информацией и знаниями, которые храним в служебных презентациях. Чтобы ими было удобней пользоваться и извлекать данные, мы решили создать удобный сервис хранения документов с поиском. Задача оказалась непростой, и в этой статье мы расскажем, как её решили. Текст будет интересен всем, кто занимается структурированием данных, поисковыми машинами и ИИ.

Читать далее

#искусственный_интеллект #ai #презентации #транспорт #хранение_данных #хранение_информации #llm #datascience #bigdata #векторный_поиск | @habr_ai
Анализ данных: от EDA до Tinder-битвы графиков

Всем привет! Меня зовут Максим Шаланкин, и я веду несколько образовательных блоков в нашей школе аналитиков данных в МТС. Сегодня я хочу рассказать, как мы организовали необычное занятие по анализу данных: в нем студенты соревновались за звание лучшего в игре, напоминающей Tinder, но для графиков предварительного анализа (EDA). Эта активность не только помогла освоить ключевые навыки визуализации, но и сделала процесс обучения увлекательным и запоминающимся, демонстрируя практическую значимость качественного анализа данных.

В этом материале я расскажу, как мы вообще обучаем EDA, какие нюансы есть в процессе и как мы делаем его интересным с помощью игры. История и графики победителей под катом. Читать далее

#учебный_процесс #учебный_процесс_в_it #bigdata #machine_learning #визуализация_данных #обучение_аналитике #анализ_данных #data_storytelling #образовательные_практики #мтс_true_tech_talents | @habr_ai
Искусственный интеллект в медицине: Революция в здравоохранении

Медицина быстро адаптируется к достижениям в области искусственного интеллекта (ИИ). Благодаря ИИ появляются новые возможности для диагностики, хирургии, разработки препаратов, а также для персонализированного подхода к лечению. В этой статье мы рассмотрим ведущие проекты в медицине с использованием ИИ, их достижения и прогнозы на ближайшие годы. Читать далее

#ии_ассистент #медицина #хирургия #искусственный_интеллект #bigdata | @habr_ai
Путь в AI: от студента до инженера, исследователя или разработчика

Привет, Хабр! Меня зовут Анна Щеникова. Я работаю AI-инженером в Центре RnD МТС Web Services и параллельно лидирую магистерскую программу «Исследования и предпринимательство в искусственном интеллекте» ВШЭ. В МТС занимаюсь всем, что связано с моделями: вместе с коллегами тестирую гипотезы про агентов и мультимодельные подходы.

Переход от студенческой жизни к профессиональной деятельности — важный и сложный этап. Это первые серьезные шаги в карьере, первое понимание, как применить полученные знания в реальном бизнесе.

Я прошла этот путь несколько раз: сначала сама, а потом помогая магистрантам в ВШЭ. Так я увидела, какие ключевые точки нужно проработать, чтобы комфортно и весело перейти от теории к реальным бизнес-задачам. В этом посте расскажу о своем опыте перехода к полноценной работе и поделюсь видением того, что будет актуальным в сфере AI в ближайшем будущем. Надеюсь, это поможет кому-нибудь правильно спланировать карьеру. Читать далее

#карьера_ит_специалиста #карьера_в_it_индустрии #ai_инженер #карьерный_рост #rnd #data_science #machine_learning #ai_разработчик #bigdata #студенты_в_it | @habr_ai
Китайская ИИ-революция и развитие BI: чему нам стоит поучиться

Привет, Хабр! На связи Business Intelligence GlowByte. 

Три года назад мы в GlowByte провели первую конференцию, на которой рассказали о китайском инструменте продвинутой аналитики FineBI. Тогда же мы впервые познакомили вас и с нашим партнером FanRuan, с которым решили сегодня немного рассказать о том, как в Китае обстоит дело с искусственным интеллектом и как ИИ связан с бизнес-аналитикой. 

Китай сегодня — не просто лидер в области искусственного интеллекта (ИИ), он формирует устойчивую цифровую экосистему, глубоко интегрированную в экономику. Особенно активно технологии развиваются в B2B-сегменте и BI-индустрии. В то время как в России продолжает формироваться культура продвинутой бизнес-аналитики, Китай делает ставку на масштабное внедрение решений нового поколения — ABI (Augmented Business Intelligence). Этот опыт стоит изучить, а, возможно, и перенять, особенно в условиях курса на импортозамещение и цифровой суверенитет. Читать далее

#bigdata #llm #ai #finebi #bi #abi #прогнозы | @habr_ai
RAG‑агент для автоматизации инцидент‑менеджмента

Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно. Читать далее

#nlp #ai #bigdata #automation #инцидент_менеджмент #machine_learning #rag | @habr_ai
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.

Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами? Читать далее

#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность | @habr_ai
От Excel до ИИ: зачем бизнесу переходить на Smart Analytics

Вы когда-нибудь открывали папку «Архив_2017», чтобы среди файлов вроде «отчет_финал_второй_финал.xls» найти нечто, от чего зависит судьба проекта? А бывало в вашей компании такое, когда директора спорили на совещаниях: «Интуиция подсказывает — этот клиент уйдёт» — «А у нас цифры говорят, что останется»? Читать далее

#аналитика_данных #bigdata #база_знаний #умный_поиск #teamly | @habr_ai