Интересное что-то

49 views11:00

Forwarded from Anton Eryomin

Всем привет!

Попалось довольно полезное видео про то, как лучше всего валидировать свой код на алго секции.

https://www.youtube.com/watch?v=g31VEKIF0ho&ab_channel=CrackingFAANG

YouTube

How to validate your code in a coding interview (so you don't fail)

Discord: https://discord.gg/s8JX2ARnSg

Back at it with another video. This time we are learning how to properly verify the code you've written. This is such a common failure point for many candidates and it really can cost you.

Today we'll learn the proper…

49 views11:00

Интересное что-то

#llm

43 views11:02

Интересное что-то

Forwarded from Data, Stories and Languages

OpenAI: Reasoning best practices

У OpenAI столько моделей, что они публикуют уже не первый гайд о том, какие модели для каких случаев использовать. На этот раз речь об использовании reasoning (o1, o3-mini) vs GPT. Кстати, интересно, что они протипопоставляют o1 и GPT архитектуру, будто у o1 другой подход.

https://platform.openai.com/docs/guides/reasoning-best-practices

Если по сути:
• Если нужно быстрее/дешевле или задачи чётко сформулированы - GPT
• Если нужно качество и достоверность или умение решать сложные проблемы - o1

В целом это довольно очевидно, но дальше показывают красивую картинку того, как чат-бот техподдержки использует микс подходов:
• o1 обрабатывает базу данных компании для общего понимания
• GPT подготавливает конкретные действия по запросу пользователей
• o3-mini валидирует эти предложенные действия

Ну и ещё ряд примеров, когда лучше использовать o1: постановка задачи нечёткая, найти конкретную информацию в большом объёме данных, выстроить причинно-следственные связи и обнаружить зависимости, планирование шагов выполнения задачи, более качественный анализ информации на изображениях (графики, схемы и прочее), ревью кода, оценка качества работы других моделей.

#datascience

46 views11:02

Интересное что-то

#llm #security

47 views11:04

Интересное что-то

Forwarded from Борис_ь с ml

ИИ-агенты для проведения пентеста

#ml_для_иб

Недавно занялся одной научной задачей, и собрал источники по автоматизированным пентест-агентам.

Получился неплохой список, которым я решил поделиться.

1. https://github.com/vxcontrol/pentagi
2. https://github.com/palisaderesearch/intercode
3. https://github.com/xvnpw/ai-security-analyzer
4. https://github.com/KHenryAegis/VulnBot
5. https://github.com/xbow-engineering/validation-benchmarks
6. https://github.com/gyoisamurai/GyoiThon

7. Link: Black-Box Detection of Cross-Site Scripting Vulnerabilities Using Reinforcement Learning https://github.com/WSP-LAB/Link https://www.researchgate.net/publication/360179780_Link_Black-Box_Detection_of_Cross-Site_Scripting_Vulnerabilities_Using_Reinforcement_Learning
8. Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks - https://arxiv.org/pdf/2502.04227
9. Artificial Intelligence as the New Hacker: Developing Agents for Offensive Security - https://arxiv.org/abs/2406.07561v1
10. BreachSeek: A Multi-Agent Automated Penetration Tester https://arxiv.org/abs/2409.03789
11. HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing https://arxiv.org/abs/2412.01778
12. LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks https://arxiv.org/html/2310.11409v5
Introducing PenTest++: Elevating Ethical Hacking with AI and Automation https://arxiv.org/abs/2502.09484
13. D-CIPHER: Dynamic Collaborative Intelligent Agents with Planning and Heterogeneous Execution for Enhanced Reasoning in Offensive Security https://arxiv.org/html/2502.10931v1
14. Construction and Evaluation of LLM-based agents for Semi-Autonomous penetration testing https://arxiv.org/abs/2502.15506

Данная публикация носит исключительно научно-обзорный характер.

P.S. Спасибо Артем и Николай.

P. P. S. Параллельно я встретил еще несколько статей про генерацию фишинга

46 views11:04

Интересное что-то

#llm

48 views11:16

Интересное что-то

Forwarded from NLP Wanderer

LMSys Arena Explorer

Долгожданный блогпост от lmsys прошел как-то мимо меня.

В чем суть: авторы арены сделали топик моделинг (наконец-таки он интересен) запросов от пользователей и красиво его визуализировали в виде интерактивных pie чартов. А еще появилась отдельная вкладка с визуализацией на сайте lmarena.ai.

Основано на известном опенсорсном пайплайне BertTopic (UMAP + HDBSCAN) и модели text-embedding-3-large от OpenAI.

Для анализа использовали на удивление не очень много данных - за два месяца лета 2024 года и лишь 52 тысячи дедуплицированных промптов. Человеческий преференс датасет с 100к запросами также был опенсорснут, что замечательно, так как происходит редко.

Почему это важно: для разработчиков моделей и датасетов, а также просто энтузиастов и продвинутых пользователей крайне важно понимать категории и подкатегории (таксономии) реальных запросов, оценивать качество моделей на конкретных срезах, понимать для чего именно конечный пользователь использует модель. Очень советую всем хотя бы полистать пайчарт, так как возможно узнаете о новых для себя темах.

Некоторые инсайты
- Запросы сами по себе сильно неравномерно распределены по категориям, что говорит о возможности хакать арену прокачивая самые популярные топики.
- Самая популярная тема в общении с моделями: Веб разработка и скриптинг.
- Романтические советы от LLM почему-то довольно популярны...
- Люди очень часто тестируют модели на логику и математику - возможно этим объясняется большая корреляция скоров арены с бенчмарками, так как вероятно из них вопросы и копируются.
- Медицинские советы хоть LLM давать и не должны, но это вторая по популярности категория запросов

Так же в визуализации есть такие же пай-чарты и для WebDev арены и для text-to-image запросов, что тоже очень полезно видеть.

Кроме того, lmsys сделали еще и отдельную вкладку с так называемой P2L (Prompt-to-Leaderboard) визуализацией, где можно посмотреть качество разных моделей в отдельных категориях и на отдельных промптах, что может помочь выбрать нужную для задачи модель (они даже сделали специальный чат-мод для этого P2L Router).

В целом радует, что сравнение и оценка LLM потихоньку начинает менять свой фокус с отполированных бенчмарков к более интересным юз-кейсам. Например, OpenAI в техрепорте GPT-4.5 представила только лишь мультиязычный MMLU в разрезе по языкам, игнорируя все классические сравнения, а основное внимание сконцентрировала на Red Teaming, агентах и creative writing оценке.

53 views11:16

Интересное что-то

#dl #cv #petproject

50 views10:14

Интересное что-то

Forwarded from Tensor Banana