Code Mining
942 subscribers
90 photos
4 videos
8 files
173 links
ML4Code во всей красе, анализ кода и артефактов: лицензии, уязвимости, процессы. Комментарии к актуальным и не очень новостям, аналитика, эпизодический авторский контент, мемасики.

При поддержке: ods.ai, @codescoring
По вопросам — @alsmirn
Download Telegram
Copilot & адекватность датасетов обучения

И снова про Copilot, про легальность использования open source без разбора для тренировки моделей и к чему это всё может привести.

16 октября, Тим Дэвис, профессор компьютерных наук из Техасского университета Эй-энд-эм, обратил внимание на то, что Copilot полностью воспроизвел его же исходный код который выполняет функцию транспонирования разреженной матрицы (скрин), при том, что сам код находится в библиотеке под лицензией LGPL. Заключение автора на скрине - "Not OK."

С точки зрения авторства, то здесь это всё можно обозвать цитированием и результатом той самой свободы изучения открытых кодов программ, которая дается самой слабокопилефтной лицензией.

Но негодование автора понять можно и с ним согласились многие авторы на Hacker News, но не все. Разработчики выражают скептицизм, и говорят, что "интеллектуальная собственность при бурном технологическом развитии не должна стоять на певом месте". Кхм. Комментаторы не забыли Stable Diffusion и другие новинки последних лет. Ну что, будем посмотреть.

А тем временем, уже появились активисты, которые призывают к расследованию особенностей процесса обучения Copilot на открытых исходниках, вот полюбуемся: https://githubcopilotinvestigation.com/. Авторы, в том числе, ссылаются на кейс Тима Дэвиса и призывают узнать всю правду и недопустить разрушения open source сообщества как сообщества. И в этом действительно что-то есть.

Free Software Foundation пока молчит.

@codemining
😱4🔥2
Data Halloween 2022

Когда?
29 октября, суббота, с 11:00 до 19:00+
Где: ODS Youtube + нетворкинг в spatial.chat 👀

🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями!

В субботу будут Доклады, Изба читальня, Карьерная панелька и старая добрая классика "Собеседования в никуда", но немного в новом формате.

А ещё, сообщество CodeMining (это мы) проводит уже третий по счету конкурс на говноScary Code, в котором может поучаствовать любой желающий и получить памятный мерч от ODS.

Регистрация по ссылке:
https://ods.ai/events/halloween2022

🎃 Податься на ScaryCode

🎛 Отправить вопросики на карьерную панель.

🈯️ Показать своё резюме и получить фидбек.
🔥21😱1
Impact of Continuous Integration on Code Reviews

В рубрике #читаемстатьи, материалы с MSR'17. Исследователи из Университета Саскачевана проанализировали полмиллиона сборок тысячи открытых проектов и попробовали поотвечать на такие вот возможно внезапные вопросы (снабжаем короткими ответами).

RQ1: Влияет ли статус билдов на степень участия в ревью кода в открытых проектах?

🤨 Успешный билд скорее повлечет за собой ревью кода.


RQ2: Помогают ли частые сборки улучшить общее качество ревью кода?

👍 В проектах с частыми билдами лучше ревью кода (больше комментов).


RQ3: Можем ли мы автоматически предсказать, вызовет ли автоматизированная сборка новые ревью кода или нет?

🤔 Вроде можно — точность 64%.


TL;DR: собираться нужно чаще ;), а
подробности исследования в статье.

@codemining
👍5🔥4
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших открытых наборов данных The Stack [1] 3.1 терабайта 300 миллионов файлов исходного кода на 30 языках программирования с разрешающими лицензиями (permissive licenses) на его повторное использование. Опубликован на Hugging Face, кроме программных языков, охватывает около 20 естественных языков (английский, китайский, испанский, русский и др.)

Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․

Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.

А также большой тред в твиттере с рассказом об этом наборе данных [3]

Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097

#opendata #opensource #datasets
🔥5
Открытая конференция ИСП РАН им. В.П. Иванникова

1 и 2 декабря 2022 в Москве пройдет ежегодная открытая конференция Института системного программирования РАН. Бесплатно. Оффлайн.

Регистрация до 24 ноября 2022:
https://www.isprasopen.ru.

Это ежегодное мероприятие на котором представляются результаты работ по разным направлениям:
1. Технологии анализа, моделирования и трансформации программ
2. Управление данными и информационные системы
3. Решение задач механики сплошных сред с использованием СПО
4. САПР микроэлектронной аппаратуры
5. Лингвистические системы анализа

Первая секция посвящена методам оптимизации в компиляторе, генерации кода, статическому и динамическому анализу программ и др. В частности, рассматриваются следующие темы:
- Обратная инженерия бинарного (исполняемого) кода.
- Выполнение программ в контролируемом окружении.
- Поиск ошибок и уязвимостей в исполняемом коде.
- Анализ сетевого трафика.
- Оптимизации в компиляторе и генерация кода.
- Статический и динамический анализ программ.
- Методы и инструменты анализа и тестирования программ.
- Запутывание программ (обфускация).

Приходите! Должно быть очень интересно. Мы тоже будем.
🔥52👍1
Пленарка ИСП ИЧ 2022.pdf
4.6 MB
ИСП РАН - а что же там такого делают?

После вчерашнего анонса открытой конференции ИСП РАН (ISPRAS Open) в личку получили вопросы, а что же это за институт такой и что они там делают?

Помимо того, что у сотрудников Института множество интересных публикаций по анализу кода и всего такого, так ещё они делают собственные технологические продукты, в частности SAST-анализатор (Static Application Security Testing), Svace, который c 2015 является основным стат. анализатором в компании Samsung и во многих других.

О направлениях исследований и планах их развития лучше всего расскажет обзорная презентация технологий ИСПа, которая была представлена в сентябре на Иванниковских чтениях. Прикладываем к посту, её озвучку можно услышать здесь.

Так что если вы ещё не зарегистрировались на ISPRAS Open, то самое время это сделать до 24 ноября.

@codemining
👍4🔥4👏1
На ISPRASOpen обнаружено прекрасное. Музей вычислительной техники в Великом Новгороде.

https://sohraniteli.ru/museums/muzej-istorii-vychislitelnoj-tehniki/

Очевидцы говорят, что все можно пощупать и пощелкать релешками.

А так, внутри вас ждет:
+ Вычислительная техника: компьютеры, калькуляторы, игровые приставки. Всего около 100 компьютеров, 20 приставок и нескольких десятков калькуляторов.
+ Самодельный компьютер на электромагнитных реле по технологиям 1940х.
+ Переносной компьютер весом 9 килограмм.
+ Клоны первой игровой приставки Pong.
+ Плата от суперкомпьютера БЭСМ-6.
+ Первая домашняя игровая приставка с картриджами.

Продолжаем наблюдения.
🔥9👍3
Forwarded from ODS Events
Привет!

Уже в эту субботу, 17 декабря, мы будем подводить итоги года на нашем ежегодном событии - Data Ёлке.

#stream: Мы проведем YouTube стрим, наш Data Дед Мороз и его гости - расскажут что же полезного и интересного произошло в отрасли DS и ML. Регистрируйся по ссылке!

🎁 #gifts: У тебя есть отличный шанс получить подарок от ODS: помоги определить лучших, участвуй в голосовании за треки, секции, видео, статьи, соревнования и менторов. Среди голосовавших мы обязательно разыграем наш мерч!

🤩#gigameetup: Параллельно YouTube стриму в ODS спейсе spatial.chat пройдет супер-насыщенный митап от хаба Reliable ML по AB testing & Causal Inference. Приходи, программа на весь день!

😍#networking: Помимо митапа, в spatial.chat в комнате On-site test пройдут всеми любимые собесы в никуда.

🎄#offline: для тех, кто готов встретиться живьем в offline, в среду 21 декабря пройдет нетворкинговая Дата Ëлка в Новосибирске от ODS Siberia

Присоединяйся 😊
4🔥4🎉1
А вот тут Татьяна Шаврина читает текст лицензии нашумевшей chatGPT, всвязи с чем вспоминается новость из начала года про анализ лицензий популярных сивишных датасетов. Короче, внимательнее, друзья.
😱2
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #лицензии
Захотела изучить лицензию chatGPT, по сути Terms of Service OpenAI.

Конечно, открытой лицензии никто и не ожидал, но формулировки покруче даже, чем в неоткрытом RAIL:
🔹 выводы chatGPT нельзя использовать для обучения своих моделей
🔹 нельзя пытаться реверс-инжинирить, получить исходный код модели, какие-либо сведения о её работе
🔹 нельзя веб-скрапить вывод модели, собирать скриптами, селениумом и тд.

В общем, господа присяжные заседатели.... 🙀

Хорошая новость:
нам даются очень широкие права на использование контента:
OpenAI hereby assigns to you all its right, title and interest in and to Output
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1🤔1
Code Mining
Стрим ДатаЁлки уже полным ходом 🦜 🦜 🎄! А через минут 15 расскажем про общие итоги года в части анализа исходников и вот этого всего, подключаетесь: https://youtu.be/yo78_2cDmPw
CodeMining.report.22.pdf
2 MB
Коротенькие итоги года @ods.ai

👀 В прошедшую субботу (17.12), подвели итоги года в ODS-сообществе на Data Ёlka. Прикладываем презентацию и ссылку, где она озвучена голосом.

🔥 Ооочень важным дополнением к презентации будет и доклад Валентина Малых про итоги года в NLP, где особенным и подробным образом рассказывается про особенности больших языковых моделей.

С наступающим! 🎄🎄🎄

Upd. Видеоссылки на 21 год, на 22 подьедут попозжа.
🎉4👍1
Code Mining
CodeMining.report.22.pdf
Тьфу, друзья! Суперкосяк, видосы-то 21 года! ждём обновлений!
Но преза актуальная 😂😂😂.
😁2
2 декабря 2022 на ISPRASOPEN прошла секция «Технологии анализа, моделирования и трансформации программ». Мы подготовили разметку трансляции и делимся с сообществом.

Сохраняйте и делитесь с коллегами.

15:13 UDLC: гетерогенный компилятор, основанный на MLIR
Илья Афанасьев, Илья Палачев - Исследовательский Центр Samsung

47:01 Kernel_slicer: высокоуровневый подход к разработке поверх API
Владимир Фролов, Вадим Санжаров, Владимир Галактионов
ИПМ им. М.В. Келдыша РАН, МГУ им. М.В. Ломоносова

1:12:35 Библиотека для разработки компиляторов
Сергей Миронов, Инна Батраева, Павел Дунаев, Саратовский государственный университет

1:54:45 Девиртуализация для статического анализа с низкоуровневым промежуточным представлением
Артемий Галустов, Алексей Бородин, Андрей Белеванцев, ИСП РАН

2:22:50 Irbis: статический анализ помеченных данных для поиска уязвимостей в программах на C/C++
Никита Шимчик, Валерий Игнатьев, Андрей Белеванцев, ИСП РАН

2:48:18 Межпроцедурный статический анализ языка Go с поддержкой замыканий
Алексей Бородин, Варвара Дворцова, Александр Волков, ИСП РАН

4:19:52 Natch: Определение поверхности атаки с помощью отслеживания помеченных данных и интроспекции виртуальных машин
Владислав Степанов, Павел Довгалюк, Мария Климушенкова, Наталья Фурсова, Иван Васильев, Аркадий Иванов, Алексей Иванов, Максим Бакулин, Данила Егоров, ИСП РАН

4:40:35 Sydr-Fuzz: непрерывный гибридный фаззинг и динамический анализ для безопасного цикла разработки ПО
Алексей Вишняков, Даниил Куц, Влада Логунова, Дарья Парыгина, Илай Кобрин, Георгий Савидов, Андрей Федотов, ИСП РАН

5:04:41 Повышение эффективности фаззинга за счет извлеченных констант
Людовикос Нерсисян, Севак Саргсян, Дживан Хакобян, Карен Саргсян, Российско-Армянский университет

5:46:36 Генерация профилей оптимизации для приложений Андроид с использованием машинного обучения
Андрей Височан, Исследовательский Центр Samsung

6:13:40 Обнаружение аномальных нагрузок на устройство во время исследовательского тестирования мобильных приложений
Данила Михальцов, Константин Сорокин, ИСП РАН

6:35:38 Способ оценки похожести программ методами машинного обучения
Петр Борисов, Юрий Косолапов, ФГАНУ НИИ «Спецвузавтоматика», Южный федеральный университет

7:25:18 Метод восстановления протокольных автоматов по бинарному коду
Иван Шарков, ИСП РАН

7:49:07 Исследования по автоматической генерации фаззинг-оберток для функций программных библиотек
Чан Ти Тхиен, Дмитрий Пономарев, Андрей Кузнецов, ИСП РАН, «ФОБОС-НТ»

@codemining
🔥8👍32
А ещё, 2 декабря 2022 на ISPRASOPEN прошел крайне интересный воркшоп «Системы доверенного искусственного интеллекта». Мы также подготовили разметку трансляции и делимся с сообществом.

Сохраняйте и делитесь с коллегами.

17:35 Исследовательский центр доверенного искусственного интеллекта: направления работы и первые результаты
Денис Турдаков, ИСП РАН

57:40 Концепция платформы для обеспечения доверия к интеллектуальным системам
Константин Архипенко, ИСП РАН

1:18:30 Технологии композитного AutoML: доверие через интерпретируемость
Александр Бухановский, ИТМО

1:36:40 Представление многомерного перцептрона с кусочно-линейной функцией активации в виде объясняющего двоичного дерева: подход к построению области доверия ИНС
Андрей Коваленко, Андрей Перминов, ИСП РАН

2:08:23 Разработка доверенных версий фреймворков машинного обучения
Андрей Федотов, ИСП РАН

2:23:47 Онтологии в задачах доверенного искусственного интеллекта
Наталья Лукашевич, ИСП РАН

2:44:40 Анализ уязвимости современных методов оценки качества видео к атакам
Сергей Лаврушкин, Дмитрий Ватолин, ИСП РАН

3:05:50 Создание датасетов новых нейросетевых артефактов для улучшения устойчивости измерения качества
Дмитрий Ватолин, ИСП РАН

4:16:05 Демпфированный метод Ньютона, достигающий глобальной скорости сходимости порядка O(1/k^2) и локальной квадратичной сходимости
Дмитрий Пасечнюк, Александр Гасников, ИСП РАН

4:31:18 Сглаженные эмбеддинги для сертификации моделей, обученных на малом количестве тренировочных примеров
Михаил Паутов, Иван Оселедец, Сколтех

4:48:45 Методы обеспечения доверия к системам обнаружения вторжений на базе ИИ
Александр Гетьман, ИСП РАН

5:06:25 Объяснимый ИИ для оценки когнитивного возраста
Михаил Кривоносов, Михаил Иванченко, ИСП РАН

6:05:43 Генерация развернутых ответов на вопросы по тексту и графу знаний
Дмитрий Евсеев, Михаил Бурцев, МФТИ

6:33:07 Применение методов объяснимого искусственного интеллекта к моделям диагностики психологических свойств личности по профилю в социальной сети ВКонтакте
Анастасия Панфилова, ИП РАН

6:56:35 Обобщённая задача коммивояжера с ограничениями предшествования: полиэдральный теория, MILP-модели и branch-and-cut алгоритмы
Михаил Хачай, ИСП РАН

7:29:25 Ускорение коммуникаций локальных градиентных методов с помощью ускоренного прямо-двойственного алгоритма с неточным прокс оператором
Абдурахмон Садиев, Александр Гасников, ИСП РАН

7:52:57 Методы объяснимого искусственного интеллекта для анализа эпигенетических, когнитивных и иммунологических данных
Игорь Юсипов, Алёна Калякулина, ННГУ

8:13:50 DetIE: Извлечение информации на нескольких языках, основанное на детектировании объектов
Валентин Малых, Сергей Кузнецов, ИСП РАН

@codemining
🔥4👍2
Встреча сообщества безопасной разработки

Мы начинаем Новый год встречей SDL-сообщества в очно-заочном формате в Санкт-Петербурге.

Для тех кто не в теме: SDL-сообщество фокусируется на процессах безопасной разработки и объединяет разработчиков и практиков инструментов статического, композиционного и динамического анализа приложений.

🗓 Когда: 20 января 2023
📍 Где: митап-бар Failover Bar
🗺 Адрес: СПб, 7-я линия Васильевского Острова, д. 42

Тайминги:
16:00 Виски-час (да-да, вы не ослышались, это он).
17:00 Открытие
17:10 Доклады от энтузиастов сообщества
19:30 Радости и горести - микродоклады на свободную тему
20:00 Общение сообщества (оффлайн)

🎁 +сюрпризы от организаторов и участников!

Доклады посвящены инструментам и технологиям, а также радостям и горестям практических подходов внедрения процессов безопасной разработки (DevSecOps) в жизнь организации (не забудем и про сертификацию).

Выступят ведущие эксперты компаний: ИСП РАН, CodeScoring, Фобос-НТ, Postgres Professional, Базальт СПО, Ядро и Беллсофт.

Для тех кто не доберется, будет проходить трансляция на youtube-канале организаторов, подписывайтесь, чтобы не пропустить.

Участие бесплатное, пароль на входе — SDL.

Неформальность гарантируем!
👍6🔥4🥰3
This media is not supported in your browser
VIEW IN TELEGRAM
Sketch — ассистент для работы с данными в pandas. Анализ и кодогенерация.

Позволяет чуть быстрее понимать контекст обрабатываемых данных, чем это можно было бы сделать другими стандартными средствами.

Под капотом OpenAI и авторы гордятся тем, что для начала работы не нужны никакие плагины для IDE.

🛑 Но мы то понимаем, что все ваши данные уходят в Microsoft.

Как proof-of-concept — хорошо, а для реальной жизни подождем "компактных" плагинов для IDE.
🔥4👍2😁1
Code Mining pinned «Встреча сообщества безопасной разработки Мы начинаем Новый год встречей SDL-сообщества в очно-заочном формате в Санкт-Петербурге. Для тех кто не в теме: SDL-сообщество фокусируется на процессах безопасной разработки и объединяет разработчиков и практиков…»
Live stream started