Code Mining
916 subscribers
82 photos
4 videos
8 files
162 links
ML4Code во всей красе, анализ кода и артефактов: лицензии, уязвимости, процессы. Комментарии к актуальным и не очень новостям, аналитика, эпизодический авторский контент, мемасики.

При поддержке: ods.ai, @codescoring
По вопросам — @alsmirn
Download Telegram
Github code search теперь открыт для всех желающих

Год назад Github запустил сервис Code Search на отдельном домене cs. куда доступ был строго по заявкам (давали многим).

С 8 мая сервис открыт для всех желающих в рамках стандартного окна поиска: https://github.com/search?type=code&auto_enroll=true

Можно искать конкретные файлы по шаблону и кодовые конструкции по регекспам. Ищет не по всему (в больших файлах в первых 500Kb, в форках только если больше звезд чем у оригинала и т.п.), но находит очень многое.

Полезно для нахождения:
⭐️ лучших практик (или какие найдутся)
⭐️ примеров конфигураций
⭐️ секретиков
⭐️ уязвимых конструкций

Видосик для большей наглядности вариантов использования.

Полезная статья, объясняющая как это всё устроено под капотом.
PaLM 2 — LLM от Google + Bard

Тут вчера многие авторы переживали, что Google как-то кисленько пиарит свои анонсы и вот это вот всё.

Но вчера было и интересненькое, был представлен чат-бот по имени Bard, который работает с новой LLM-моделью PaLM 2, 540 млрд. параметров с поддержкой 20+ языков программирования. В трейнсет не забыли включить Prolog и Fortran.

Демо-презентация Барда довольно занимательная, рекомендуем к просмотру здесь (буквально 10 минут).

🖖 Особенностью является то, что рекомендуемые исходники сопровождаются аннотацией источника (привет Copilot).

О том, что под капотом написано в PaLM 2 Technical Report.

Что ещё. Помимо обычной редакции PaLM 2, гугл рассказывает про модификации
Med-PaLM 2 и Sec-PaLM 2. О последнем попробуем рассказать отдельно, когда появится побольше материалов.

Пообщаться с Бардом можно тут, а его api уже успели и пореверсить здесь.
Forwarded from Kali Novskaya (Tatiana Shavrina)
This media is not supported in your browser
VIEW IN TELEGRAM
Когда поймал NaN
Визуализация кластеризации проектов на Github

По наводке от Ивана Бегтина делимся ссылкой на увлекательную интерактивную карту проектов на Github.

Анализу подверглось 400k+ репозиториев, обработано 350 млн. "звезд". Кластеризация по мере Жаккара.

Особенно умиляют названия кластеров, прямо ми-ми-ми.
Интересующий проект можно найти в формочке поиска.

Покрутить | Исходники
Соревнование на определение языка сниппета кода

Чуть не пропустили! Telegram анонсировал соревнование на разработку быстрой библиотеки определения языка для сниппетов кода.

Основные условия:

- язык: любой

- режим работы: локальный

- скорость ответа ограничена 10 мс на фрагменты кода до 4096 символов

- минимум сторонних зависимостей

- максимальный файл подачи в архиве: 2 Гб

- тестовая машинка: 8 ядер, 16 Gb RAM


💬 Кто не участвует, но хочет помочь потенциальным участникам - кидайте идеи в комментарии ;).

🕔 Подача до конца 15 октября по дубайскому времени.

🔗 Страница соревнования.
Data Halloween 2023

🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями!

Когда? 28 октября, суббота, с 11:00 до 19:00+
Где: ODS Youtube + нетворкинг в spatial.chat 👀

В субботу будут Доклады, Конкурс Scary Code и старая добрая классика "Собеседования в никуда", в золотом составе организаторов 🤴👸🫅.

А ещё, сообщество CodeMining (это мы) проводит уже четвертый по счету конкурс на говноScary Code, в котором может поучаствовать любой желающий и получить памятный мерч от ODS.

В этом году, к фирменному ODS-мерчу будет приплюсованы модные футболки от CodeScoring.

🎃 Регистрация на Dats Halloween по ссылке: https://ods.ai/events/halloween2023

😨😨😨
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!
Правила и подача на ScaryCode!

Зы, ещё будет и оффлайн в Питере, 27 числа, следите за расписанием.
Please open Telegram to view this post
VIEW IN TELEGRAM
Code Mining
Data Halloween 2023 🖖 Урра. Любимое сообщество ODS не перестает радовать новыми событиями! Когда? 28 октября, суббота, с 11:00 до 19:00+ Где: ODS Youtube + нетворкинг в spatial.chat 👀 В субботу будут Доклады, Конкурс Scary Code и старая добрая классика…
👋 напоминаем про ScaryCode Competition.

🎃 сегодня до 20:00 можно отправить самый страшный код и попасть в зал славы в номинациях: Кровь из носа, Кровь из глаз, Пылающая ненависть или Пылающий стул!

Для подачи нужно:
- залогиниться в ods.ai
- подключиться к контесту
- submit solution
- ???
- profit!!1

До встречи!
Code Mining pinned «👋 напоминаем про ScaryCode Competition. 🎃 сегодня до 20:00 можно отправить самый страшный код и попасть в зал славы в номинациях: Кровь из носа, Кровь из глаз, Пылающая ненависть или Пылающий стул! Для подачи нужно: - залогиниться в ods.ai - подключиться…»
Открытая конференция ИСП РАН 2023

В начале декабря в Москве пройдет конференция ISPRASOpen посвященная 75-летию отечественных информационных технологий при поддержке РАН, ФПИ, а также IEEE и IEEE Computer Society.

Институт системного программирования известен своими технологиями и мощной экспертизой не только программной инженерии, но и исследованиях в области искусственного интеллекта и медицины.

В этом году будут представлены доклады о технологиях анализа, моделирования и трансформации программ, управления данными и информационными системами, решении задач механики сплошных сред с использованием СПО, САПР микроэлектронной аппаратуры и лингвистические системы анализа.

Состоится выставка технологий ИСП РАН и компаний-партнёров. Если вы хотели познакомиться поближе с решениями и их авторами, то обязательно нужно быть.


🗓 4 и 5 декабря 2023
📍 Главное здание Российской академии наук

Участие бесплатное, необходима регистрация.
Сайт конференции: https://www.isprasopen.ru/
Тут Владимир с коллегами из JetBrains запустили большую исследовательскую коллаборацию с TU Delft в Нидерландах по применению AI в разработке.

Открыто пять PhD позиций в TU Delft по пяти интересным индустрии темам:
1. Генерация тестов и валидация генерированного кода;
2. Адаптация и оптимизация больших языковых моделей под проектные и другие контексты;
3. Human-Computer Interaction в AI-enabled средах разработки;
4. Использование информации об исполнении кода для улучшения процессов разработки;
5. Использование умных помощников с AI в обучении программированию.

Позиции открыты в Software Engineering Research Group в TU Delft и предполагают совместную работу с исследователями из JetBrains Research (Applied Program Analysis Lab, ICTL, ML4SE) и тесное взаимодействие с коллегами из продуктовых команд.

Позиции открыты до 30 ноября.

Если вы знаете кого-то, кому могут быть интересны эти позиции — передайте им!

С вопросами пишите на ai4se@jetbrains.com или в личку @vovak.
Нас тут спрашивали, будет ли обновленный сборник технологий ИСП РАН, отвечаем:
Forwarded from ИСП РАН
Уважаемые коллеги!

❗️На сайте ИСП РАН выложен "Сборник технологий" 2023 года:

https://www.ispras.ru/downloads/ISP_RAS_Catalogue_of_technologies_ru.pdf
ODS Data Elka

В субботу прошла прекрасная Data Elka, где мы пытались подвести какие-то спешные итоги в легковесном формате, рассказали про конференции, общую статистику в Open Source, про подготовку Open Source Report,не забыли про безопасность, качество ;), крупные релизы Яндекса и их гранты для OSS-разработчиков и вот это вот всё.

Также по части ML on Code всякого интересного порассказывал Валентин Малых в подведении итогов 23 года в NLP, рекомендуем к ознакомлению!

Кому таймкоды не нравятся, можно посмотреть весь стрим здесь:
https://www.youtube.com/watch?v=iFJBSbPXRBM

Ну а мы всем желаем хорошего нового года, чистого и не менее полезного кода! Уррра)
Да, совсем забыли продублировать ближайший CFP.

В марте пройдет конференция по безопасной разработке SafeCode 2024, которую делают JUG.RU, мы там в ПК и смотрим заявки всякие.

Если вы разрабатываете какие-либо инструментарии или проводите исследования, связанные с безопасностью кода и разработки вцелом, то велкам!

Последний день подачи заявки — 18 января.

Конференция пройдет 13 и 14 марта онлайн.

Темы самые разные:
- Инструментарий анализа кода
- Secure SDL + DevSecOps
- Аналитика
- Практика
- Люди и их карьеры

Подавайтесь, заявки будут пристально рассмотрены :)
Иванниковские чтения 2024

CFP на Иванниковские чтения открыто, конференция, состоится 17-18 мая 2024 года в Великом Новгороде.

Секция по анализу и трансформации программ посвящена методам оптимизации в компиляторе, кодогенерации, статическому и динамическому анализу программ и др., а также различным методам, архитектурам и компонентам современных операционных систем для эффективных вычислений и систем контроля. В частности, рассматриваются следующие темы:
- Обратная инженерия бинарного (исполняемого) кода.
- Выполнение программ в контролируемом окружении.
- Поиск ошибок и уязвимостей в исполняемом коде.
- Анализ сетевого трафика.
- Оптимизации в компиляторе.
- Статический и динамический анализ программ.
- Методы и инструменты анализа и тестирования программ.
- Безопасность и конфиденциальность в ОС.
- Жизненный цикл разработки: стандарты и сертификация.
- ОС реального времени, интернет вещей.
- Сетевые стеки и технологии.
- Архитектура операционных систем (в том числе, ядра ОС).

Также будет секция "Управление данными и информационные системы", открытые темы можно посмотреть на сайте. Параллельно будет проводиться конференция по анализу данных в медицине.

Участие бесплатное, регистрация обязательная:
https://www.ivannikov-ws.org/#Registration

Чтобы представить результаты своей научной работы в рамках секций, необходимо прислать на рассмотрение статью или тезисы. Требования к материалам и другие подробности — в разделе «Публикации».

Материалы подаются через систему Easychair:
https://easychair.org/conferences/?conf=ivmem2024

Важные даты:
- Срок подачи материалов: до 12 апреля 2024 г. (23:59, GMT+3)
- Уведомление о включении в программу: до 26 апреля 2024 г. (23:59, GMT+3)
- Готовые к публикации статьи: до 1 июня 2024 г.
- Регистрация участников: до 13 мая 2024 г.

По всем вопросам можно обращаться по e-mail scsec@ispras.ru.
dukebarman_Generative AI for Security Engineers.pdf
2.7 MB
Спасибо всем кто пришел и смотрел. Рассказал о применении «модного» генеративного ИИ для задач инженера ИБ и фаззинге в частности.
Демосцена

Как-то слишком часто вокруг меня вспоминалась демосцена в последний месяц.

Начиная с прекрасной, но прекратившей свое существование финской Assembly, заканчивая питерским Chaos Constructions, который ещё жив. Ух, какая там когда-то (2000/1) была атмосфера, ночевка в спальниках на конференции, кодинг 24x2/3, нереальные демки и конкурсы по метанию винчестеров и т.п.

Это всё было суперлампово и клёво (слеза).

О технических подробностях того, как это всё делалось, ликбез по алгоритмам, принципам и архитектуре обнаружен в видео с докладом от Александра Кухаренко "Демосцена: в погоне за wow-фактором":
https://www.youtube.com/watch?v=gl_Ikc_tOe4

А для кого это слово новое, можно полистать вики :).

#видоснавыходные
Шу или Шен

Один мой добрый коллега любит докопаться до официантов в обычных кафе на тему зеленого чая, Шу у них или Шен пуэр. Интересно наблюдать за тем, как работает вычислительная машина в их головах, когда они пытаются вспомнить, какие пакетики чая они видели на кухне :).

Наверное также выглядело и мое лицо когда я познакомился с "очередным" языком функционального программирования SHEN. У языка ещё более десятка разных портов и можно оценить силу паттерн-матчинга, лямбд и т.п., если у вас их не было. Весело же!

Знакомство на 15 минут.

Сайт | Гитхаб
Code Mining
Иванниковские чтения 2024 CFP на Иванниковские чтения открыто, конференция, состоится 17-18 мая 2024 года в Великом Новгороде. Секция по анализу и трансформации программ посвящена методам оптимизации в компиляторе, кодогенерации, статическому и динамическому…
Иванниковские чтения 2024

Уже 17-18 мая в Великом Новгороде пройдет очередная конференция Иванниковские чтения, где будут представлены направления:
- Анализ, моделирование и трансформации программ
- Анализ данных в медицине
- Управление данными и информационные системы
+ круглые столы по эмуляции и разработке безопасного ПО

Программа опубликована на сайте.

В секции «Технологии анализа, моделирования и трансформации программ» докладов много разных, подсветим некоторые из названий докладов:
- Большие языковые модели в статическом анализе исходного кода
- Пользовательские детекторы в статическом анализе на основе символьного выполнения
- Статический анализ для языка Scala
- Статический анализ ассоциативных массивов в Go
- Классификация предупреждений статического анализа методами машинного обучения
- Обнаружение вредоносной активности в проектах с открытым исходным кодом с помощью методов машинного обучения
- О методах извлечения алгоритмов из бинарного кода
- Статическое распределение памяти для операционных систем реального времени
- Автоматизация выполнения регрессионных тестов на гонки по данным

А ещё целых 5 докладов о фаззинге и многое другое.

Приходите, приезжайте, будет интересно.

Участие бесплатное.
Регистрация обязательна (открыта до 13 мая).

Сайт конференции: https://www.ivannikov-ws.org/