Code Mining
941 subscribers
90 photos
4 videos
8 files
173 links
ML4Code во всей красе, анализ кода и артефактов: лицензии, уязвимости, процессы. Комментарии к актуальным и не очень новостям, аналитика, эпизодический авторский контент, мемасики.

При поддержке: ods.ai, @codescoring
По вопросам — @alsmirn
Download Telegram
Live stream finished (3 hours)
🎦 Видео встречи сообщества безопасной разработки (@sdl_community)

20 января 2023 в Петербурге в гостеприимном митап-баре @failoverbar прошло первое собрание SDL-сообщества этого года, на котором в живом и ненавязчивом формате были представлены доклады по проблематике безопасной разработки.

Выложили запись, делимся таймкодами:
1:00 - Открытие секции докладов
14:46 - Системный подход к разработке безопасного ПО, Дмитрий Пономарев, Фобос-НТ/ИСП РАН
29:38 - Технологический центр исследования безопасности ядра Linux и критических компонентов, Алексей Хорошилов, ИСП РАН
49:48 - Natch. Инструмент для определения поверхности атаки, Мария Климушенкова, ИСП РАН
59:37 - О безопасной разработке в PostgresPRO, Иван Панченко, Postgres Professional
65:50 - О фаззинге в PostgresPRO, Николай Шаплов, Postgres Professional
1:04:54 - О безопасной разработке в Лаборатории Касперского, Карина Нападовская, Лаборатория Касперского
1:20:28 - Три этюда об управлении зависимостями в SDL, Алексей Смирнов, CodeScoring
1:48:59 - Axiom JDK: SDL практики, Александр Дроздов, Bellsoft
1:58:22 - О безопасной разработке в Alt Linux, Николай Костригин, Базальт СПО, ИВК
2:08:39 SDL это не только сертификация и безопасность, Александр Дубинин, YADRO

#видоснавечер
@codemining
🔥8👍6😁1
Задачка №0

Случилось внезапное. Наша команда CodeScoring поучаствовала в замечательной конференции EkbPy, где гостям предложили задачку на реализацию простого алгоритма сравнения версий библиотек. Раздавали мерч всяческий.

Так вот, почти 50 человек принесли свои решения (а это треть посетителей конфы, на всякий случай). И чего мы только не посмотрели за день! Мало того, обсуждение задачи продолжилось и на афтепати щ_Щ.

Подумалось, а может попробовать продолжить эту тему? Ну и не питоном единым, как говорится. Любой язык подойдет.

Если хочется размять мозг, то задачку прикладываем, можно ссылочки на гисты в комментарии покидать. Правил нет, строго just for fun (c). Особенные решения выберем в отдельный пост с позволения авторов и наградим памятными пинами.

А да, у нас ещё чатик совсем недавно завелся, можно там и продолжить этот самый фан.

@codemining
🔥5
ТБФорум'23

Наша команда примет участие на грядущем ТБФоруме в рамках дня Безопасной разработки.

Можно заглянуть к нам на стенд, пообщаться лично и послушать новые доклады. Программа уже доступна.

🗓 16 февраля 2023
📍 Крокус Конгресс Холл, Москва

Участие бесплатное, но регистрация обязательна (для прохода): https://www.tbforum.ru/2023/as-visitors

Что внутри: Экспертиза и мастер-классы Базальт СПО, Беллсофт, Синклит, Инфракод, Swordfish Security, КСБ-СОФТ, R-Vision, Postgres Professional, YADRO, Ростелеком-Солар, Profiscope, НТЦ "Фобос-НТ", комментарии ФСТЭК России и ИСП РАН.

Для кого: технических директоров, руководителей групп безопасной разработки, разработчиков и безопасников, тестировщиков, пентестеров, а также всех энтузиастов безопасной и качественной разработки, заинтересованных участников системы сертификации.

Не забудьте пройти регистрацию:
https://www.tbforum.ru/2023/as-visitors

@codemining
🔥3
Just-in-Time Code Duplicates Extraction

Коллеги из JetBrains Research выкатили AntiCopyPaster плагин к IDEA и конечно же выпустили об этом статью.

С одной стороны, грубая копипаста это бич, с которым зачастую борются через встраивание всяческого инструментария в git hooks и в CI, тем не менее есть задачи определения дубликатов just in time, во имя рефакторинга.

Под капотом плагина сверточная нейронная сеточка (CNN), тренировочная база 18 942 фрагментов кода из 13 проектов Apache. Рекомендации рефакторинга (по объединению дубликатов в один метод) с F-мерой 0.82, что очень даже.

Плагин пока в статусе PoC, но уже можно поиграться и оценить полезность.

Данные, оцениваемые подходы (8 штук) и метрики доступны в отдельном репозитории.
🔥52👍2
Forwarded from Ivan Begtin (Ivan Begtin)
Буквально минут через 20 начнётся GPT-4 Developer Livestream [1] с демо работы GPT-4 для разработчиков.
А совсем свежая информация о только что вышедшем продукте GPT-4 есть на сайте OpenAI [2].

Ожиданий у рынка очень много, лично я также внимательно слежу и думаю для таких задач можно такой продукт применить.

Ссылки։
[1] https://www.youtube.com/watch?v=outcGtbnMuQ
[2] https://openai.com/product/gpt-4

#openai #gpt4 #languagemodels #ai
🔥3😱2
Кранчим графы зависимостей

В процессе разрешения зависимостей OpenSource библиотек all-over-the-world, вспомнилась полезная работа с MSR'19. Результаты и подходы могут быть полезны тем кто занимается анализом зависимостей или же извлечением инсайдов из графовых структур данных.

Коллеги обработали более 200 тысяч библиотек и построили граф на 9.7 млн связей, который и опубликовали. Есть csv, есть дамп для Neo4j.

Граф полезен для понимания транзитивных связей компонентов, которые за собой приносят то чего не просили много всего удивительного при включении в ваши проекты.

📎 Статья: https://arxiv.org/abs/1901.05392

👀 Датасет: https://zenodo.org/record/1489120#.ZBwDMNJBxHt
🔥61👍1🤩1
TechTrain — фестиваль про AI для разработки и жизни

Расскажем про анализы исходников и всего такого на грядущем TechTrain, который пройдет в онлайне 1 апреля.

Мероприятие бесплатное. Планируется много интересных докладов.

В докладе рассмотрим тему анализа данных для решения задач программной инженерии в контексте безопасной разработки. Поговорим про актуальные тренды, подходы и алгоритмы. На примерах рассмотрим задачи, которые стоят перед создателями инструментов безопасной разработки.

Доклад будет полезен тем, кто хочет понять, как же это всё работает, получить полезные отсылки к источникам и погрузиться в контекст создания анализаторов исходного кода.

Бесплатная регистрация по ссылке.
Присоединяйтесь!
🔥5👍21
CFP Code Mining на Data Fest 2023 🎉🎉🎉

Во второй половине мая стартует Data Fest 2023.

Мы тоже не остаемся в стороне и делаем секцию с докладами и нетворкингом про анализ исходных кодов и сопутствующих артефактов (пакеты, тикеты, комментарии и т.п.).

Темы могут быть самые разные:
- анализ качества
- анализ git-repo
- анализ кода на безопасность
- анализ pull-requests, comments, etc
- поиск кода
- генерация кода

Тайминги тоже могут быть самые разные: 20-40-60 минут, тут посмотрим по материалу.

Участие онлайн, но будет доступна опция и оффлайн выступления (следите за новостями).

🗓 Дату проведения определяем на майских праздниках, ориентировочно мероприятие пройдет в рамках 23-28 мая.

Объявляем CFP открытым!

👉 Подача до середины мая.

P.S. Со всеми свяжемся, тезисы можно будет уточнить, а тему поменять ;).
🔥62🥰1😁1🎉1
Code Mining pinned a photo
StarCoder — открытая языковая модель для кода

Обучена с уважением к открытым лицензиям, внутри 80+ языков программирования. Основой послужил набор данных The Stack, Github и данные со StackExchange платформы. Внутри 15.5 млрд. параметров. Тренировалась на 512 x Tesla A100 в течение 24 суток.
Статья со всеми описаниями.

⭐️ Ещё есть NER-модель для извлечения всяческих чувствительных данных.

⭐️ С автокомплитом можно поиграться здесь.

⭐️ Попросить сгенерить код, объяснить или попробовать решить задачу можно в чатике.

⭐️ Инструкция по файн-тюнингу тут и большая статья на архиве.

⭐️ Есть ещё плагин для VS Code (не забудьте отключить когда пойдете писать прод код ;)

Мы пощупали, работает довольно прилично. Несмотря на лицензионное соглашение, что нельзя для эксплойтов и т. п., она весьма себе их генерит.
🔥52🤩2🥰1😁1
Github code search теперь открыт для всех желающих

Год назад Github запустил сервис Code Search на отдельном домене cs. куда доступ был строго по заявкам (давали многим).

С 8 мая сервис открыт для всех желающих в рамках стандартного окна поиска: https://github.com/search?type=code&auto_enroll=true

Можно искать конкретные файлы по шаблону и кодовые конструкции по регекспам. Ищет не по всему (в больших файлах в первых 500Kb, в форках только если больше звезд чем у оригинала и т.п.), но находит очень многое.

Полезно для нахождения:
⭐️ лучших практик (или какие найдутся)
⭐️ примеров конфигураций
⭐️ секретиков
⭐️ уязвимых конструкций

Видосик для большей наглядности вариантов использования.

Полезная статья, объясняющая как это всё устроено под капотом.
🔥7👍2🤩1
PaLM 2 — LLM от Google + Bard

Тут вчера многие авторы переживали, что Google как-то кисленько пиарит свои анонсы и вот это вот всё.

Но вчера было и интересненькое, был представлен чат-бот по имени Bard, который работает с новой LLM-моделью PaLM 2, 540 млрд. параметров с поддержкой 20+ языков программирования. В трейнсет не забыли включить Prolog и Fortran.

Демо-презентация Барда довольно занимательная, рекомендуем к просмотру здесь (буквально 10 минут).

🖖 Особенностью является то, что рекомендуемые исходники сопровождаются аннотацией источника (привет Copilot).

О том, что под капотом написано в PaLM 2 Technical Report.

Что ещё. Помимо обычной редакции PaLM 2, гугл рассказывает про модификации
Med-PaLM 2 и Sec-PaLM 2. О последнем попробуем рассказать отдельно, когда появится побольше материалов.

Пообщаться с Бардом можно тут, а его api уже успели и пореверсить здесь.
👍3🔥31👏1
Forwarded from Kali Novskaya (Tatiana Shavrina)
This media is not supported in your browser
VIEW IN TELEGRAM
Когда поймал NaN
👏7😁5😱3
Визуализация кластеризации проектов на Github

По наводке от Ивана Бегтина делимся ссылкой на увлекательную интерактивную карту проектов на Github.

Анализу подверглось 400k+ репозиториев, обработано 350 млн. "звезд". Кластеризация по мере Жаккара.

Особенно умиляют названия кластеров, прямо ми-ми-ми.
Интересующий проект можно найти в формочке поиска.

Покрутить | Исходники
🔥71🥰1💩1
Соревнование на определение языка сниппета кода

Чуть не пропустили! Telegram анонсировал соревнование на разработку быстрой библиотеки определения языка для сниппетов кода.

Основные условия:

- язык: любой

- режим работы: локальный

- скорость ответа ограничена 10 мс на фрагменты кода до 4096 символов

- минимум сторонних зависимостей

- максимальный файл подачи в архиве: 2 Гб

- тестовая машинка: 8 ядер, 16 Gb RAM


💬 Кто не участвует, но хочет помочь потенциальным участникам - кидайте идеи в комментарии ;).

🕔 Подача до конца 15 октября по дубайскому времени.

🔗 Страница соревнования.
👍4🔥3😁2🤩1
Data Halloween 2023

🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями!

Когда? 28 октября, суббота, с 11:00 до 19:00+
Где: ODS Youtube + нетворкинг в spatial.chat 👀

В субботу будут Доклады, Конкурс Scary Code и старая добрая классика "Собеседования в никуда", в золотом составе организаторов 🤴👸🫅.

А ещё, сообщество CodeMining (это мы) проводит уже четвертый по счету конкурс на говноScary Code, в котором может поучаствовать любой желающий и получить памятный мерч от ODS.

В этом году, к фирменному ODS-мерчу будет приплюсованы модные футболки от CodeScoring.

🎃 Регистрация на Dats Halloween по ссылке: https://ods.ai/events/halloween2023

😨😨😨
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!

Зы, ещё будет и оффлайн в Питере, 27 числа, следите за расписанием.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥72😱1