Code Mining
916 subscribers
82 photos
4 videos
8 files
162 links
ML4Code во всей красе, анализ кода и артефактов: лицензии, уязвимости, процессы. Комментарии к актуальным и не очень новостям, аналитика, эпизодический авторский контент, мемасики.

При поддержке: ods.ai, @codescoring
По вопросам — @alsmirn
Download Telegram
2 декабря 2022 на ISPRASOPEN прошла секция «Технологии анализа, моделирования и трансформации программ». Мы подготовили разметку трансляции и делимся с сообществом.

Сохраняйте и делитесь с коллегами.

15:13 UDLC: гетерогенный компилятор, основанный на MLIR
Илья Афанасьев, Илья Палачев - Исследовательский Центр Samsung

47:01 Kernel_slicer: высокоуровневый подход к разработке поверх API
Владимир Фролов, Вадим Санжаров, Владимир Галактионов
ИПМ им. М.В. Келдыша РАН, МГУ им. М.В. Ломоносова

1:12:35 Библиотека для разработки компиляторов
Сергей Миронов, Инна Батраева, Павел Дунаев, Саратовский государственный университет

1:54:45 Девиртуализация для статического анализа с низкоуровневым промежуточным представлением
Артемий Галустов, Алексей Бородин, Андрей Белеванцев, ИСП РАН

2:22:50 Irbis: статический анализ помеченных данных для поиска уязвимостей в программах на C/C++
Никита Шимчик, Валерий Игнатьев, Андрей Белеванцев, ИСП РАН

2:48:18 Межпроцедурный статический анализ языка Go с поддержкой замыканий
Алексей Бородин, Варвара Дворцова, Александр Волков, ИСП РАН

4:19:52 Natch: Определение поверхности атаки с помощью отслеживания помеченных данных и интроспекции виртуальных машин
Владислав Степанов, Павел Довгалюк, Мария Климушенкова, Наталья Фурсова, Иван Васильев, Аркадий Иванов, Алексей Иванов, Максим Бакулин, Данила Егоров, ИСП РАН

4:40:35 Sydr-Fuzz: непрерывный гибридный фаззинг и динамический анализ для безопасного цикла разработки ПО
Алексей Вишняков, Даниил Куц, Влада Логунова, Дарья Парыгина, Илай Кобрин, Георгий Савидов, Андрей Федотов, ИСП РАН

5:04:41 Повышение эффективности фаззинга за счет извлеченных констант
Людовикос Нерсисян, Севак Саргсян, Дживан Хакобян, Карен Саргсян, Российско-Армянский университет

5:46:36 Генерация профилей оптимизации для приложений Андроид с использованием машинного обучения
Андрей Височан, Исследовательский Центр Samsung

6:13:40 Обнаружение аномальных нагрузок на устройство во время исследовательского тестирования мобильных приложений
Данила Михальцов, Константин Сорокин, ИСП РАН

6:35:38 Способ оценки похожести программ методами машинного обучения
Петр Борисов, Юрий Косолапов, ФГАНУ НИИ «Спецвузавтоматика», Южный федеральный университет

7:25:18 Метод восстановления протокольных автоматов по бинарному коду
Иван Шарков, ИСП РАН

7:49:07 Исследования по автоматической генерации фаззинг-оберток для функций программных библиотек
Чан Ти Тхиен, Дмитрий Пономарев, Андрей Кузнецов, ИСП РАН, «ФОБОС-НТ»

@codemining
А ещё, 2 декабря 2022 на ISPRASOPEN прошел крайне интересный воркшоп «Системы доверенного искусственного интеллекта». Мы также подготовили разметку трансляции и делимся с сообществом.

Сохраняйте и делитесь с коллегами.

17:35 Исследовательский центр доверенного искусственного интеллекта: направления работы и первые результаты
Денис Турдаков, ИСП РАН

57:40 Концепция платформы для обеспечения доверия к интеллектуальным системам
Константин Архипенко, ИСП РАН

1:18:30 Технологии композитного AutoML: доверие через интерпретируемость
Александр Бухановский, ИТМО

1:36:40 Представление многомерного перцептрона с кусочно-линейной функцией активации в виде объясняющего двоичного дерева: подход к построению области доверия ИНС
Андрей Коваленко, Андрей Перминов, ИСП РАН

2:08:23 Разработка доверенных версий фреймворков машинного обучения
Андрей Федотов, ИСП РАН

2:23:47 Онтологии в задачах доверенного искусственного интеллекта
Наталья Лукашевич, ИСП РАН

2:44:40 Анализ уязвимости современных методов оценки качества видео к атакам
Сергей Лаврушкин, Дмитрий Ватолин, ИСП РАН

3:05:50 Создание датасетов новых нейросетевых артефактов для улучшения устойчивости измерения качества
Дмитрий Ватолин, ИСП РАН

4:16:05 Демпфированный метод Ньютона, достигающий глобальной скорости сходимости порядка O(1/k^2) и локальной квадратичной сходимости
Дмитрий Пасечнюк, Александр Гасников, ИСП РАН

4:31:18 Сглаженные эмбеддинги для сертификации моделей, обученных на малом количестве тренировочных примеров
Михаил Паутов, Иван Оселедец, Сколтех

4:48:45 Методы обеспечения доверия к системам обнаружения вторжений на базе ИИ
Александр Гетьман, ИСП РАН

5:06:25 Объяснимый ИИ для оценки когнитивного возраста
Михаил Кривоносов, Михаил Иванченко, ИСП РАН

6:05:43 Генерация развернутых ответов на вопросы по тексту и графу знаний
Дмитрий Евсеев, Михаил Бурцев, МФТИ

6:33:07 Применение методов объяснимого искусственного интеллекта к моделям диагностики психологических свойств личности по профилю в социальной сети ВКонтакте
Анастасия Панфилова, ИП РАН

6:56:35 Обобщённая задача коммивояжера с ограничениями предшествования: полиэдральный теория, MILP-модели и branch-and-cut алгоритмы
Михаил Хачай, ИСП РАН

7:29:25 Ускорение коммуникаций локальных градиентных методов с помощью ускоренного прямо-двойственного алгоритма с неточным прокс оператором
Абдурахмон Садиев, Александр Гасников, ИСП РАН

7:52:57 Методы объяснимого искусственного интеллекта для анализа эпигенетических, когнитивных и иммунологических данных
Игорь Юсипов, Алёна Калякулина, ННГУ

8:13:50 DetIE: Извлечение информации на нескольких языках, основанное на детектировании объектов
Валентин Малых, Сергей Кузнецов, ИСП РАН

@codemining
Встреча сообщества безопасной разработки

Мы начинаем Новый год встречей SDL-сообщества в очно-заочном формате в Санкт-Петербурге.

Для тех кто не в теме: SDL-сообщество фокусируется на процессах безопасной разработки и объединяет разработчиков и практиков инструментов статического, композиционного и динамического анализа приложений.

🗓 Когда: 20 января 2023
📍 Где: митап-бар Failover Bar
🗺 Адрес: СПб, 7-я линия Васильевского Острова, д. 42

Тайминги:
16:00 Виски-час (да-да, вы не ослышались, это он).
17:00 Открытие
17:10 Доклады от энтузиастов сообщества
19:30 Радости и горести - микродоклады на свободную тему
20:00 Общение сообщества (оффлайн)

🎁 +сюрпризы от организаторов и участников!

Доклады посвящены инструментам и технологиям, а также радостям и горестям практических подходов внедрения процессов безопасной разработки (DevSecOps) в жизнь организации (не забудем и про сертификацию).

Выступят ведущие эксперты компаний: ИСП РАН, CodeScoring, Фобос-НТ, Postgres Professional, Базальт СПО, Ядро и Беллсофт.

Для тех кто не доберется, будет проходить трансляция на youtube-канале организаторов, подписывайтесь, чтобы не пропустить.

Участие бесплатное, пароль на входе — SDL.

Неформальность гарантируем!
This media is not supported in your browser
VIEW IN TELEGRAM
Sketch — ассистент для работы с данными в pandas. Анализ и кодогенерация.

Позволяет чуть быстрее понимать контекст обрабатываемых данных, чем это можно было бы сделать другими стандартными средствами.

Под капотом OpenAI и авторы гордятся тем, что для начала работы не нужны никакие плагины для IDE.

🛑 Но мы то понимаем, что все ваши данные уходят в Microsoft.

Как proof-of-concept — хорошо, а для реальной жизни подождем "компактных" плагинов для IDE.
Code Mining pinned «Встреча сообщества безопасной разработки Мы начинаем Новый год встречей SDL-сообщества в очно-заочном формате в Санкт-Петербурге. Для тех кто не в теме: SDL-сообщество фокусируется на процессах безопасной разработки и объединяет разработчиков и практиков…»
Live stream started
Live stream finished (3 hours)
🎦 Видео встречи сообщества безопасной разработки (@sdl_community)

20 января 2023 в Петербурге в гостеприимном митап-баре @failoverbar прошло первое собрание SDL-сообщества этого года, на котором в живом и ненавязчивом формате были представлены доклады по проблематике безопасной разработки.

Выложили запись, делимся таймкодами:
1:00 - Открытие секции докладов
14:46 - Системный подход к разработке безопасного ПО, Дмитрий Пономарев, Фобос-НТ/ИСП РАН
29:38 - Технологический центр исследования безопасности ядра Linux и критических компонентов, Алексей Хорошилов, ИСП РАН
49:48 - Natch. Инструмент для определения поверхности атаки, Мария Климушенкова, ИСП РАН
59:37 - О безопасной разработке в PostgresPRO, Иван Панченко, Postgres Professional
65:50 - О фаззинге в PostgresPRO, Николай Шаплов, Postgres Professional
1:04:54 - О безопасной разработке в Лаборатории Касперского, Карина Нападовская, Лаборатория Касперского
1:20:28 - Три этюда об управлении зависимостями в SDL, Алексей Смирнов, CodeScoring
1:48:59 - Axiom JDK: SDL практики, Александр Дроздов, Bellsoft
1:58:22 - О безопасной разработке в Alt Linux, Николай Костригин, Базальт СПО, ИВК
2:08:39 SDL это не только сертификация и безопасность, Александр Дубинин, YADRO

#видоснавечер
@codemining
Задачка №0

Случилось внезапное. Наша команда CodeScoring поучаствовала в замечательной конференции EkbPy, где гостям предложили задачку на реализацию простого алгоритма сравнения версий библиотек. Раздавали мерч всяческий.

Так вот, почти 50 человек принесли свои решения (а это треть посетителей конфы, на всякий случай). И чего мы только не посмотрели за день! Мало того, обсуждение задачи продолжилось и на афтепати щ_Щ.

Подумалось, а может попробовать продолжить эту тему? Ну и не питоном единым, как говорится. Любой язык подойдет.

Если хочется размять мозг, то задачку прикладываем, можно ссылочки на гисты в комментарии покидать. Правил нет, строго just for fun (c). Особенные решения выберем в отдельный пост с позволения авторов и наградим памятными пинами.

А да, у нас ещё чатик совсем недавно завелся, можно там и продолжить этот самый фан.

@codemining
ТБФорум'23

Наша команда примет участие на грядущем ТБФоруме в рамках дня Безопасной разработки.

Можно заглянуть к нам на стенд, пообщаться лично и послушать новые доклады. Программа уже доступна.

🗓 16 февраля 2023
📍 Крокус Конгресс Холл, Москва

Участие бесплатное, но регистрация обязательна (для прохода): https://www.tbforum.ru/2023/as-visitors

Что внутри: Экспертиза и мастер-классы Базальт СПО, Беллсофт, Синклит, Инфракод, Swordfish Security, КСБ-СОФТ, R-Vision, Postgres Professional, YADRO, Ростелеком-Солар, Profiscope, НТЦ "Фобос-НТ", комментарии ФСТЭК России и ИСП РАН.

Для кого: технических директоров, руководителей групп безопасной разработки, разработчиков и безопасников, тестировщиков, пентестеров, а также всех энтузиастов безопасной и качественной разработки, заинтересованных участников системы сертификации.

Не забудьте пройти регистрацию:
https://www.tbforum.ru/2023/as-visitors

@codemining
Just-in-Time Code Duplicates Extraction

Коллеги из JetBrains Research выкатили AntiCopyPaster плагин к IDEA и конечно же выпустили об этом статью.

С одной стороны, грубая копипаста это бич, с которым зачастую борются через встраивание всяческого инструментария в git hooks и в CI, тем не менее есть задачи определения дубликатов just in time, во имя рефакторинга.

Под капотом плагина сверточная нейронная сеточка (CNN), тренировочная база 18 942 фрагментов кода из 13 проектов Apache. Рекомендации рефакторинга (по объединению дубликатов в один метод) с F-мерой 0.82, что очень даже.

Плагин пока в статусе PoC, но уже можно поиграться и оценить полезность.

Данные, оцениваемые подходы (8 штук) и метрики доступны в отдельном репозитории.
Forwarded from Ivan Begtin (Ivan Begtin)
Буквально минут через 20 начнётся GPT-4 Developer Livestream [1] с демо работы GPT-4 для разработчиков.
А совсем свежая информация о только что вышедшем продукте GPT-4 есть на сайте OpenAI [2].

Ожиданий у рынка очень много, лично я также внимательно слежу и думаю для таких задач можно такой продукт применить.

Ссылки։
[1] https://www.youtube.com/watch?v=outcGtbnMuQ
[2] https://openai.com/product/gpt-4

#openai #gpt4 #languagemodels #ai
Кранчим графы зависимостей

В процессе разрешения зависимостей OpenSource библиотек all-over-the-world, вспомнилась полезная работа с MSR'19. Результаты и подходы могут быть полезны тем кто занимается анализом зависимостей или же извлечением инсайдов из графовых структур данных.

Коллеги обработали более 200 тысяч библиотек и построили граф на 9.7 млн связей, который и опубликовали. Есть csv, есть дамп для Neo4j.

Граф полезен для понимания транзитивных связей компонентов, которые за собой приносят то чего не просили много всего удивительного при включении в ваши проекты.

📎 Статья: https://arxiv.org/abs/1901.05392

👀 Датасет: https://zenodo.org/record/1489120#.ZBwDMNJBxHt
TechTrain — фестиваль про AI для разработки и жизни

Расскажем про анализы исходников и всего такого на грядущем TechTrain, который пройдет в онлайне 1 апреля.

Мероприятие бесплатное. Планируется много интересных докладов.

В докладе рассмотрим тему анализа данных для решения задач программной инженерии в контексте безопасной разработки. Поговорим про актуальные тренды, подходы и алгоритмы. На примерах рассмотрим задачи, которые стоят перед создателями инструментов безопасной разработки.

Доклад будет полезен тем, кто хочет понять, как же это всё работает, получить полезные отсылки к источникам и погрузиться в контекст создания анализаторов исходного кода.

Бесплатная регистрация по ссылке.
Присоединяйтесь!
CFP Code Mining на Data Fest 2023 🎉🎉🎉

Во второй половине мая стартует Data Fest 2023.

Мы тоже не остаемся в стороне и делаем секцию с докладами и нетворкингом про анализ исходных кодов и сопутствующих артефактов (пакеты, тикеты, комментарии и т.п.).

Темы могут быть самые разные:
- анализ качества
- анализ git-repo
- анализ кода на безопасность
- анализ pull-requests, comments, etc
- поиск кода
- генерация кода

Тайминги тоже могут быть самые разные: 20-40-60 минут, тут посмотрим по материалу.

Участие онлайн, но будет доступна опция и оффлайн выступления (следите за новостями).

🗓 Дату проведения определяем на майских праздниках, ориентировочно мероприятие пройдет в рамках 23-28 мая.

Объявляем CFP открытым!

👉 Подача до середины мая.

P.S. Со всеми свяжемся, тезисы можно будет уточнить, а тему поменять ;).
Code Mining pinned a photo
StarCoder — открытая языковая модель для кода

Обучена с уважением к открытым лицензиям, внутри 80+ языков программирования. Основой послужил набор данных The Stack, Github и данные со StackExchange платформы. Внутри 15.5 млрд. параметров. Тренировалась на 512 x Tesla A100 в течение 24 суток.
Статья со всеми описаниями.

⭐️ Ещё есть NER-модель для извлечения всяческих чувствительных данных.

⭐️ С автокомплитом можно поиграться здесь.

⭐️ Попросить сгенерить код, объяснить или попробовать решить задачу можно в чатике.

⭐️ Инструкция по файн-тюнингу тут и большая статья на архиве.

⭐️ Есть ещё плагин для VS Code (не забудьте отключить когда пойдете писать прод код ;)

Мы пощупали, работает довольно прилично. Несмотря на лицензионное соглашение, что нельзя для эксплойтов и т. п., она весьма себе их генерит.
Github code search теперь открыт для всех желающих

Год назад Github запустил сервис Code Search на отдельном домене cs. куда доступ был строго по заявкам (давали многим).

С 8 мая сервис открыт для всех желающих в рамках стандартного окна поиска: https://github.com/search?type=code&auto_enroll=true

Можно искать конкретные файлы по шаблону и кодовые конструкции по регекспам. Ищет не по всему (в больших файлах в первых 500Kb, в форках только если больше звезд чем у оригинала и т.п.), но находит очень многое.

Полезно для нахождения:
⭐️ лучших практик (или какие найдутся)
⭐️ примеров конфигураций
⭐️ секретиков
⭐️ уязвимых конструкций

Видосик для большей наглядности вариантов использования.

Полезная статья, объясняющая как это всё устроено под капотом.