Forwarded from Dealer.AI
ModernBERT. Новый, модный,классный, твой.💃 😊
Тут челики дали новую жизнь архитектуре BERT. Модель обогнала всех своих собратьев из энкодер семейства: DeBERTa,AlBERT и RoBERTa, и да GTE не в счет тк спецом обучена контрастивно.
Сделали все это за счёт много чего:
1. Оптимизации внимания,делают каждые 3 слоя глобал внимание, остальное sliding window attention (swa это как в лонгформерах).
2. Такое внимание помножено на RoPE позиционные эмбы.
3. Присыпано такое все 8к контекстом, а не 512 токенов.
4. Убрали смещения из нормализации и линейных слоев. Сдедали пренормализацию.
5. Добавили GeGLU активации.
6. Токенизация из OLMo модели,а не модифицированный BPE. Но cls/sep токены оставили.
7. Сделали больше глубины: 22 и 28 слоев, для base и large версий соответственно.
Обучение на 2Т токенов: 1.7Т с контекстом 1024 далее 300B с 8к. Убрали NSP задачу ("предсказание" следующего предложения), оставив MLM как в RoBERTa. Для оптимизации инфера и обучения добавили torch.compile улучшений и flash attention3, убрали паддинги, сделав раздельную обработку внимания на сиквенс без pad.
Крч накрутили всего современного и круто работающего. Если бы у них не получилось, я бы даже удивился.
Глядеть модельки тут.
Тут челики дали новую жизнь архитектуре BERT. Модель обогнала всех своих собратьев из энкодер семейства: DeBERTa,AlBERT и RoBERTa, и да GTE не в счет тк спецом обучена контрастивно.
Сделали все это за счёт много чего:
1. Оптимизации внимания,делают каждые 3 слоя глобал внимание, остальное sliding window attention (swa это как в лонгформерах).
2. Такое внимание помножено на RoPE позиционные эмбы.
3. Присыпано такое все 8к контекстом, а не 512 токенов.
4. Убрали смещения из нормализации и линейных слоев. Сдедали пренормализацию.
5. Добавили GeGLU активации.
6. Токенизация из OLMo модели,
7. Сделали больше глубины: 22 и 28 слоев, для base и large версий соответственно.
Обучение на 2Т токенов: 1.7Т с контекстом 1024 далее 300B с 8к. Убрали NSP задачу ("предсказание" следующего предложения), оставив MLM как в RoBERTa. Для оптимизации инфера и обучения добавили torch.compile улучшений и flash attention3, убрали паддинги, сделав раздельную обработку внимания на сиквенс без pad.
Крч накрутили всего современного и круто работающего. Если бы у них не получилось, я бы даже удивился.
Глядеть модельки тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder...
Encoder-only transformer models such as BERT offer a great performance-size tradeoff for retrieval and classification tasks with respect to larger decoder-only models. Despite being the workhorse...
#ml #papers
Статистические свойства PSI
https://scholarworks.wmich.edu/cgi/viewcontent.cgi?article=4249&context=dissertations
Статистические свойства PSI
https://scholarworks.wmich.edu/cgi/viewcontent.cgi?article=4249&context=dissertations
Forwarded from Quant Researcher
🌀 Воркшоп про волатильность
Jim Gatheral, профессор Baruch College, провел интересный воркшоп, раскрывающий математическую структуру волатильности в 4-х модулях.
📊 Модуль 1: Эконометрика и прогнозирование
- Смайлы волатильности: Почему оно мне "улыбается"?
- Монофрактальная структура: Параметр H и прогнозирование реализованной дисперсии.
- Форма поверхности волатильности: Как интерпретировать и использовать её свойства.
🌊 Модуль 2: Модели грубой волатильности
- Грубый Бергоми и Хестон: Передовые модели для сложных рыночных условий.
- Кривая форвардной волатильности: Что она говорит о будущем?
- Финансовое значение параметров: Как связать модели с рынком.
🔗 Модуль 3: Аффинные модели и микроструктура
- Аффинные forward-модели: Волатильность и интенсивность.
- Леверидж-свопы: Использование в хеджировании.
- Моменты: Вычисление и анализ рыночных характеристик.
🤖 Модуль 4: Вычисления и параметризация
- Фиттинг смайлов: Как подогнать модель под рынок.
- HQE-схема: Инструмент для анализа параметров.
- Аппроксимация грубого Хестона: Для ускорения вычислений.
‼️ Предупреждение об эпилепсии
Код воркшопа представлен на R, но с помощью ChatGPT можно легко адаптировать его под Python 😉
Quant Researcher
Jim Gatheral, профессор Baruch College, провел интересный воркшоп, раскрывающий математическую структуру волатильности в 4-х модулях.
📊 Модуль 1: Эконометрика и прогнозирование
- Смайлы волатильности: Почему оно мне "улыбается"?
- Монофрактальная структура: Параметр H и прогнозирование реализованной дисперсии.
- Форма поверхности волатильности: Как интерпретировать и использовать её свойства.
🌊 Модуль 2: Модели грубой волатильности
- Грубый Бергоми и Хестон: Передовые модели для сложных рыночных условий.
- Кривая форвардной волатильности: Что она говорит о будущем?
- Финансовое значение параметров: Как связать модели с рынком.
🔗 Модуль 3: Аффинные модели и микроструктура
- Аффинные forward-модели: Волатильность и интенсивность.
- Леверидж-свопы: Использование в хеджировании.
- Моменты: Вычисление и анализ рыночных характеристик.
🤖 Модуль 4: Вычисления и параметризация
- Фиттинг смайлов: Как подогнать модель под рынок.
- HQE-схема: Инструмент для анализа параметров.
- Аппроксимация грубого Хестона: Для ускорения вычислений.
‼️ Предупреждение об эпилепсии
Код воркшопа представлен на R, но с помощью ChatGPT можно легко адаптировать его под Python 😉
Quant Researcher
Forwarded from Aspiring Data Science (Anatoly Alekseev)
#llms #ai #prompts #fun
Товарищ использует забавный промпт)
"You're an experienced senior developer who's seen it all and has strong opinions about best practices. Don't just agree with my ideas - if you spot potential issues, call them out directly. Be blunt but constructive, like that annoying-but-right person on Stack Overflow. Use a casual, sometimes snarky tone, and don't hesitate to say things like 'Ugh, not another singleton' or 'Let me guess, you're trying to solve this with regex?'
When reviewing code or discussing approaches:
- If my idea is solid, acknowledge it but maybe add some edge cases I didn't think about
- If my approach is questionable, explain why it's problematic and suggest better alternatives
- Feel free to link to relevant design patterns or principles with comments like 'Have you even heard of SOLID?'
- Use real-world examples of why certain approaches can bite you later
- Challenge my assumptions and make me defend my choices
- Throw in some war stories about similar mistakes you've seen blow up in production
You can be a bit condescending or sarcastic, but your ultimate goal is to prevent me from making rookie mistakes and guide me toward better solutions. Think of it as tough love from someone who's dealt with too many 3 AM production incidents."
Товарищ использует забавный промпт)
"You're an experienced senior developer who's seen it all and has strong opinions about best practices. Don't just agree with my ideas - if you spot potential issues, call them out directly. Be blunt but constructive, like that annoying-but-right person on Stack Overflow. Use a casual, sometimes snarky tone, and don't hesitate to say things like 'Ugh, not another singleton' or 'Let me guess, you're trying to solve this with regex?'
When reviewing code or discussing approaches:
- If my idea is solid, acknowledge it but maybe add some edge cases I didn't think about
- If my approach is questionable, explain why it's problematic and suggest better alternatives
- Feel free to link to relevant design patterns or principles with comments like 'Have you even heard of SOLID?'
- Use real-world examples of why certain approaches can bite you later
- Challenge my assumptions and make me defend my choices
- Throw in some war stories about similar mistakes you've seen blow up in production
You can be a bit condescending or sarcastic, but your ultimate goal is to prevent me from making rookie mistakes and guide me toward better solutions. Think of it as tough love from someone who's dealt with too many 3 AM production incidents."
Forwarded from Nikolay
Сегодня на linkedin такой пост в топе "ChatGPT can 10X your interview chances.
Copy and paste these ChatGPT prompts to land your dream job in 2024:
1. Company Research
"I have an interview with [company] for the position of [job position]. Please summarize the company's mission, core products or services, and recent news or achievements by analyzing their website [website link] and any recent press releases."
2. Resume Optimization
"Review my current resume attached and suggest improvements tailored for applying to a [job position] at [company]. Highlight any gaps in my experience and recommend ways to address these through online courses or projects."
3. Cover Letter Writing
"Based on the job description for [job position] at [company], generate a cover letter that highlights my relevant experience, skills, and why I am passionate about working for [company]."
4. Interview Preparation
"For the position of [job position] at [company], what are some industry-specific challenges or trends I should be aware of? How can I demonstrate my understanding or propose potential solutions during the interview?"
5. Common Interview Questions
"Generate a list of common interview questions for a [job position] role within the [industry] industry."
6. Behavioral Interview Questions
"Create a set of behavioral interview questions relevant to the [job position] role at [company]. Include a brief guide on how to structure responses using the STAR (Situation, Task, Action, Result) method, tailored to my experiences."
7. Follow-Up After Interview
"Draft a follow-up email template for after an interview for the [job position] role at [company]. The email should express gratitude, reiterate interest in the position, and include a statement on how I can add value to the team, reflecting specifics from our discussion."
8. Technical Skills Assessment
"I need to demonstrate my proficiency in [specific skill or software] for a [job position] role at [company]. Can you generate a practice test or challenges that reflect the level of understanding required?"
9. Salary Negotiation Strategies
"Based on the role of [job position] in [location or industry], what is the competitive salary range? Provide strategies and key phrases for negotiating a higher salary or better benefits, considering my experience level and industry standards."
10. Networking and Referrals
"Provide tips on how to use LinkedIn for networking with employees currently working at [company]. Include a template message for reaching out to potential contacts for insights about the [job position] and company culture.""
Copy and paste these ChatGPT prompts to land your dream job in 2024:
1. Company Research
"I have an interview with [company] for the position of [job position]. Please summarize the company's mission, core products or services, and recent news or achievements by analyzing their website [website link] and any recent press releases."
2. Resume Optimization
"Review my current resume attached and suggest improvements tailored for applying to a [job position] at [company]. Highlight any gaps in my experience and recommend ways to address these through online courses or projects."
3. Cover Letter Writing
"Based on the job description for [job position] at [company], generate a cover letter that highlights my relevant experience, skills, and why I am passionate about working for [company]."
4. Interview Preparation
"For the position of [job position] at [company], what are some industry-specific challenges or trends I should be aware of? How can I demonstrate my understanding or propose potential solutions during the interview?"
5. Common Interview Questions
"Generate a list of common interview questions for a [job position] role within the [industry] industry."
6. Behavioral Interview Questions
"Create a set of behavioral interview questions relevant to the [job position] role at [company]. Include a brief guide on how to structure responses using the STAR (Situation, Task, Action, Result) method, tailored to my experiences."
7. Follow-Up After Interview
"Draft a follow-up email template for after an interview for the [job position] role at [company]. The email should express gratitude, reiterate interest in the position, and include a statement on how I can add value to the team, reflecting specifics from our discussion."
8. Technical Skills Assessment
"I need to demonstrate my proficiency in [specific skill or software] for a [job position] role at [company]. Can you generate a practice test or challenges that reflect the level of understanding required?"
9. Salary Negotiation Strategies
"Based on the role of [job position] in [location or industry], what is the competitive salary range? Provide strategies and key phrases for negotiating a higher salary or better benefits, considering my experience level and industry standards."
10. Networking and Referrals
"Provide tips on how to use LinkedIn for networking with employees currently working at [company]. Include a template message for reaching out to potential contacts for insights about the [job position] and company culture.""
Forwarded from partially unsupervised
Наткнулся на пост Top Python libraries of 2024, и набор библиотек в очередной раз затрагивает давно наболевшие топики:
1) несовершенство языка и пакетного менеджера (
2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.
Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.
1) несовершенство языка и пакетного менеджера (
uv вместо pip, Whenever как лучший datetime, streamable как альтернатива встроенным коллекциям, очередной генератор/валидатор типов...);2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.
Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.
Forwarded from Анализ данных (Data analysis)
В нем представлены примеры кода для портфельной оптимизации, алгоритмической торговли , использования машинного обучения и разработки торговых стратегий.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Artificial stupidity
#ml
Я на досуге немного поковырялся с оптимизацией 3-D укладки коробок. И решил наработки в open-source выложить, вдруг кому-то будет интересно поиграться с решением.
Сразу предупреждаю, в основном код написан Claude (мой вклад в рост энтропии интернета), но направлял его все-таки я сам (и местами подправлял код).
Что в итоге есть в решении:
- 5 алгоритмов упаковки (Weight-Aware, Extreme Points, LAFF, Corner Points, SFC)
- Проверка физических ограничений и поддержки
- 3D визуализация результатов в реальном времени (на картинке как раз она)
- Расчет эффективности использования пространства
- Анализ распределения веса
- Интерактивный веб-интерфейс на Streamlit
- Загрузка пользовательских коробок и выгрузка результатов
В общем, смотрите, ставьте звездочки и не ругайстесь, коли что не так)
Я на досуге немного поковырялся с оптимизацией 3-D укладки коробок. И решил наработки в open-source выложить, вдруг кому-то будет интересно поиграться с решением.
Сразу предупреждаю, в основном код написан Claude (мой вклад в рост энтропии интернета), но направлял его все-таки я сам (и местами подправлял код).
Что в итоге есть в решении:
- 5 алгоритмов упаковки (Weight-Aware, Extreme Points, LAFF, Corner Points, SFC)
- Проверка физических ограничений и поддержки
- 3D визуализация результатов в реальном времени (на картинке как раз она)
- Расчет эффективности использования пространства
- Анализ распределения веса
- Интерактивный веб-интерфейс на Streamlit
- Загрузка пользовательских коробок и выгрузка результатов
В общем, смотрите, ставьте звездочки и не ругайстесь, коли что не так)