Пока шел дождик, накидал скрипт, который парсит страничку с лучшими статьями по ML за неделю, выкачивает abstract'ы и лезет в Claude за объяснениями в разных стилях и генерацией дополнительной информации типа заголовков, эмодзи и тегов.
Красивый UI не смог нагенерить ни чем, так что большинство времени ушло на верстку. Стоит один такой "выпуск" где-то 0.15 долларов.
P.S. Скрипт причешу и выложу, сможете поиграться.
https://averkij.github.io/top_papers/
Красивый UI не смог нагенерить ни чем, так что большинство времени ушло на верстку. Стоит один такой "выпуск" где-то 0.15 долларов.
P.S. Скрипт причешу и выложу, сможете поиграться.
https://averkij.github.io/top_papers/
102❤61🔥38👍9❤🔥3💋3💅2 1
Тут коллеги из CV команды совместно с Центром исследования жестового языка запустили крутую вещь — словарь РЖЯ (русского жестового языка).
Сейчас записали и выложили несколько сотен видео с разных ракурсов для различных понятий. Планируют добавить еще несколько тысяч.
По-моему, очень круто. Я бы добавил еще какой-то грамматический комментарий о том, как составлять из жестов предложения с видео-примерами или даже мини-курс по РЖЯ.
Проект будет активно развиваться, так что идеи приветствуются. Какие бы слова туда еще добавить?
👉 Сайт | Хабр
Сейчас записали и выложили несколько сотен видео с разных ракурсов для различных понятий. Планируют добавить еще несколько тысяч.
По-моему, очень круто. Я бы добавил еще какой-то грамматический комментарий о том, как составлять из жестов предложения с видео-примерами или даже мини-курс по РЖЯ.
Проект будет активно развиваться, так что идеи приветствуются. Какие бы слова туда еще добавить?
👉 Сайт | Хабр
2👍25❤12🔥10
Please open Telegram to view this post
VIEW IN TELEGRAM
😁117🔥14❤3 3👍2🆒1
Чуть почистил скрипт по генерации обзоров статей. Сделал обзоры в стиле разных персонажей, можете поугадывать, хотя это не так сложно.
Перевел парсинг на фид NLP Newsletter со статьями за неделю. Модель — GPT-4o с json_mode, чтобы надежно возвращать все за один запрос.
P.S. Ах да, обещал выложить — скрипт.
P.P.S. Можете поменять API на бесплатный Мистраль и поиграться с ним, если нет токена от openai.
Upd. Поменял на обычный стиль, так тексты по приятней выглядят.
👉 https://averkij.github.io/top_papers/
Перевел парсинг на фид NLP Newsletter со статьями за неделю. Модель — GPT-4o с json_mode, чтобы надежно возвращать все за один запрос.
P.S. Ах да, обещал выложить — скрипт.
P.P.S. Можете поменять API на бесплатный Мистраль и поиграться с ним, если нет токена от openai.
Upd. Поменял на обычный стиль, так тексты по приятней выглядят.
👉 https://averkij.github.io/top_papers/
10❤16🔥12👍4⚡3🆒2
🔺 EuroLLM 1.7B Instruct
Неплохая маленькая модель от альянса UTTER, включающего в себя несколько Европейских университетов.
🔸 Обучили на 4T токенов на языках Евросоюза, причем целенаправленно добавили к ним несколько дополнительных, таких как русский, китайский, турецкий и украинский.
🔸 Токенизатор на 128k токенов с улучшенной относительно Llama 3 фертильностью для всех языков кроме английского.
🔸 В данные добавили по 20% параллельных данных en-xx, xx-en. Добавили код и математику. Обучали в два этапа, заканчивая чистыми данными.
🔸 В итоге моделька качественно генерирует на русском, в отличие от Llama, которая периодически вставляет иностранные слова или токены в текст, причем выглядит это порой очень забавно.
🔸 Зато с фантазией как раз лучше у Ламы 3.2 3B (например, она придумала слоганы для книжного магазина "Книжный ад" — "Ад в каждом томе" и "Стоимость книги: бесконечность").
Обещают обучить модели покрупнее, ждём.
👉 Статья | HF
Неплохая маленькая модель от альянса UTTER, включающего в себя несколько Европейских университетов.
🔸 Обучили на 4T токенов на языках Евросоюза, причем целенаправленно добавили к ним несколько дополнительных, таких как русский, китайский, турецкий и украинский.
🔸 Токенизатор на 128k токенов с улучшенной относительно Llama 3 фертильностью для всех языков кроме английского.
🔸 В данные добавили по 20% параллельных данных en-xx, xx-en. Добавили код и математику. Обучали в два этапа, заканчивая чистыми данными.
🔸 В итоге моделька качественно генерирует на русском, в отличие от Llama, которая периодически вставляет иностранные слова или токены в текст, причем выглядит это порой очень забавно.
🔸 Зато с фантазией как раз лучше у Ламы 3.2 3B (например, она придумала слоганы для книжного магазина "Книжный ад" — "Ад в каждом томе" и "Стоимость книги: бесконечность").
Обещают обучить модели покрупнее, ждём.
👉 Статья | HF
🔥22👍5❤4 1
🔺 HFday.ru
Сделал для сообщества сайтик с обзорами статей с HF Daily Papers на русском.
Синхронизируется каждые 2 часа, можно отсортировать по рейтингу или вывести вверх недавно добавленные статьи, чего, кстати, на оригинальной страничке не сделать.
Обзор, теги и прочие данные генерируются через Claude на основе спаршенных с сайта абстрактов.
Развернуто все полностью на GitHub — через Workflow джобы и Pages, что само по себе очень прикольно. Скрипты обновляют файлы с данными, пишут логи и генерируют страничку, которая коммитится обратно в репозиторий. Такую автоматизацию удобно использовать для своих проектов, чуть позже опишу, как это настраивать.
Предыдущие выпуски откладываются в папку prev_papers. Кушает это где-то по 20-30 рублей в день (claude 3.5 sonnet). Код открыт.
В общем, добавляйте в закладки и шарьте с коллегами. Идеи приветствуются.
—
Upd. Всем привет, кто пользуется и заходит на канал. Пишите как вам, что добавить.
Добавил сортировки, дату публикации, пофиксил баги.
Upd 2. Добавил классификацию промптом через gpt-4o-mini.
Upd 3. Добавил навигацию по дням.
Upd 4. Добавил английский и китайский. Локализовал UI на них.
Upd 5. Добавил навигацию по дням.
Upd 6. Добавил топ статей за месяц. Пользуйтесь фильтрами, там есть логика на объединение и пересечение по категориям.
Код — GitHub
Сделал для сообщества сайтик с обзорами статей с HF Daily Papers на русском.
Синхронизируется каждые 2 часа, можно отсортировать по рейтингу или вывести вверх недавно добавленные статьи, чего, кстати, на оригинальной страничке не сделать.
Обзор, теги и прочие данные генерируются через Claude на основе спаршенных с сайта абстрактов.
Развернуто все полностью на GitHub — через Workflow джобы и Pages, что само по себе очень прикольно. Скрипты обновляют файлы с данными, пишут логи и генерируют страничку, которая коммитится обратно в репозиторий. Такую автоматизацию удобно использовать для своих проектов, чуть позже опишу, как это настраивать.
Предыдущие выпуски откладываются в папку prev_papers. Кушает это где-то по 20-30 рублей в день (claude 3.5 sonnet). Код открыт.
В общем, добавляйте в закладки и шарьте с коллегами. Идеи приветствуются.
—
Upd. Всем привет, кто пользуется и заходит на канал. Пишите как вам, что добавить.
Добавил сортировки, дату публикации, пофиксил баги.
Upd 2. Добавил классификацию промптом через gpt-4o-mini.
Upd 3. Добавил навигацию по дням.
Upd 4. Добавил английский и китайский. Локализовал UI на них.
Upd 5. Добавил навигацию по дням.
Upd 6. Добавил топ статей за месяц. Пользуйтесь фильтрами, там есть логика на объединение и пересечение по категориям.
Код — GitHub
527🔥57👍16❤5🏆2💯1
🔥 А вот и Нобелевка за машинку
Джон Хопфилд и Джеффри Хинтон, 2024.
пресс-релиз
Джон Хопфилд и Джеффри Хинтон, 2024.
за фундаментальные открытия и изобретения, обеспечивающие возможность машинного обучения с использованием искусственных нейронных сетей
пресс-релиз
👍46🎉12🔥8❤5🤔5🤷♂2🗿2👌1🎄1
Экспериментально добавил на HFday.ru (обзоры статей с HF Daily Papers) фильтр по темам — nlp, cv, reasonong и т.д., так как статей иногда бывает довольно много, до 40 штук за день.
Классификация идет тоже через Claude (он генерит до 5 тем на статью), показываются все доступные темы.
Страничка синхронизируется с HF все каждые два часа, для новых статей генерируется обзор и он добавляется к остальным. Добавил также сколько прошло времени с прошлого обновления.
Еще добавил сортировку по добавлению на HF, по ней все добавленные в течение дня статьи будут показываться наверху.
Все настройки странички сохраняются в local storage браузера. UI постарался сделать красивым, довольно муторное дело, особенно для мобильного (фронтендеры, как вы это терпите?).
Кому интересно, как работает — код тут, там же проект и развернут. Пользуемся, пишем как вам такая читалка.
👉 Upd. Перевел классификацию на промпт ниже. Добавил сортировку. Модель gpt-4o-mini.
Классификация идет тоже через Claude (он генерит до 5 тем на статью), показываются все доступные темы.
Страничка синхронизируется с HF все каждые два часа, для новых статей генерируется обзор и он добавляется к остальным. Добавил также сколько прошло времени с прошлого обновления.
Еще добавил сортировку по добавлению на HF, по ней все добавленные в течение дня статьи будут показываться наверху.
Все настройки странички сохраняются в local storage браузера. UI постарался сделать красивым, довольно муторное дело, особенно для мобильного (фронтендеры, как вы это терпите?).
Кому интересно, как работает — код тут, там же проект и развернут. Пользуемся, пишем как вам такая читалка.
👉 Upd. Перевел классификацию на промпт ниже. Добавил сортировку. Модель gpt-4o-mini.
🔥34👍13❤7⚡2🤯1
🔺 Bukva
Ребята из CV-команды снова вносят вклад в развитие русского жестового языка. На этот раз подготовили и выложили датасет для дактиля — жестовой азбуки.
🔸 В датасете 33 класса, на каждый класс есть минимум по 100 видео (всего 3757). Размечало датасет больше сотни человек (!), владеющих РЖЯ. Можно почитать про то как его собирали и зачем он нужен.
👉 Хабр | Датасет | Paper
Ребята из CV-команды снова вносят вклад в развитие русского жестового языка. На этот раз подготовили и выложили датасет для дактиля — жестовой азбуки.
🔸 В датасете 33 класса, на каждый класс есть минимум по 100 видео (всего 3757). Размечало датасет больше сотни человек (!), владеющих РЖЯ. Можно почитать про то как его собирали и зачем он нужен.
👉 Хабр | Датасет | Paper
Хабр
Bukva: алфавит русского жестового языка
Всем привет! Совсем недавно мы анонсировали словарь русского жестового языка (РЖЯ), а в этой статье поговорим про задачу распознавания алфавита РЖЯ, именуемого также дактильным алфавитом или дактилем....
👍17❤9🔥5❤🔥2 1
Немного полезного контента.
// Заметили как рука Шмидхубера тянется за медалью в конце?
// Upd. Генерить тут.
// Заметили как рука Шмидхубера тянется за медалью в конце?
// Upd. Генерить тут.
😁27❤🔥7🆒2✍1🏆1 1
Такой промпт написал для классификации статей по темам. Каких тем не хватает?
https://gist.github.com/averkij/0e39e43fef4ec9282aa89fd0cdc65f07
👉 Upd. Добавил PLP, STORY_GENERATION, HALLUCINATIONS, убрал NLP.
👉 Upd 2. Добавил LONG_CONTEXT, убрал QUANTUM.
👉 Upd 3. Добавил SYNTHETIC.
👉 Upd 4. Добавил TRANSLATION. Пересчитал все.
...
DATASET: Papers that introduce new datasets or make significant modifications to existing ones
DATA: Papers focusing on data processing, cleaning, collection, or curation methodologies
BENCHMARK: Papers proposing or analyzing model evaluation frameworks and benchmarks
AGENTS: Papers exploring autonomous agents, web agents, or agent-based architectures
NLP: Papers advancing natural language processing techniques or applications
CV: Papers developing computer vision methods or visual processing systems
RL: Papers investigating reinforcement learning theory or applications
RLHF: Papers specifically about human feedback in RL (PPO, DPO, etc.)
RAG: Papers advancing retrieval-augmented generation techniques
CODE: Papers about code-related models or programming benchmarks
INFERENCE: Papers optimizing model deployment (quantization, pruning, etc.)
3D: Papers on 3D content generation, processing, or understanding
AUDIO: Papers advancing speech/audio processing or generation
...
https://gist.github.com/averkij/0e39e43fef4ec9282aa89fd0cdc65f07
👉 Upd. Добавил PLP, STORY_GENERATION, HALLUCINATIONS, убрал NLP.
👉 Upd 2. Добавил LONG_CONTEXT, убрал QUANTUM.
👉 Upd 3. Добавил SYNTHETIC.
👉 Upd 4. Добавил TRANSLATION. Пересчитал все.
Gist
Prompt for ML papers classification
Prompt for ML papers classification. GitHub Gist: instantly share code, notes, and snippets.
👍12✍7🆒1👾1
🔺 Claude обновился
Что мы имеем спустя 4 месяца после выхода Sonnet 3.5?
Claude 3.5 Haiku. Появилась малая версия 3.5, по способностям как третий Opus (модельный ряд Claude — это Хайку → Сонет → Опус).
Claude 3.5 Sonnet. Сонет тоже обновился, особенно по части кода. Пишут, что кодит теперь лучше GPT-4o*. Цена при этом осталась прежней.
Computer use. Теперь Claude может "подключится" к вашему компу в стиле удаленщика, шарить по экрану и делать то, что попросите. Делается это через вызов внешних инструментов, которыми управляет модель. Чтобы начать, подготовили демо с кодом и контейнером.
👉 Новость | Computer use API | PDF про модели
Что мы имеем спустя 4 месяца после выхода Sonnet 3.5?
Claude 3.5 Haiku. Появилась малая версия 3.5, по способностям как третий Opus (модельный ряд Claude — это Хайку → Сонет → Опус).
Claude 3.5 Sonnet. Сонет тоже обновился, особенно по части кода. Пишут, что кодит теперь лучше GPT-4o*. Цена при этом осталась прежней.
Computer use. Теперь Claude может "подключится" к вашему компу в стиле удаленщика, шарить по экрану и делать то, что попросите. Делается это через вызов внешних инструментов, которыми управляет модель. Чтобы начать, подготовили демо с кодом и контейнером.
👉 Новость | Computer use API | PDF про модели
🔥11❤6👍4 2
Добавил на hfday.ru навигацию по дням.
Теперь можно выбрать фильтр по нужной теме, например, галлюцинации или RAG'и и почитать обзоры найденных статей за последнее время.
История листается вглубь времен на три недели, когда появилась идея это пет-проекта. Пришлось заморочиться с выходными, так на них HF daily papers не обновляется и был дубляж страничек.
Дальше добавлю топ за неделю/месяц и английский язык.
Теперь можно выбрать фильтр по нужной теме, например, галлюцинации или RAG'и и почитать обзоры найденных статей за последнее время.
История листается вглубь времен на три недели, когда появилась идея это пет-проекта. Пришлось заморочиться с выходными, так на них HF daily papers не обновляется и был дубляж страничек.
Дальше добавлю топ за неделю/месяц и английский язык.
🔥32👍6 2⚡1❤🔥1
🔺 GigaChat MAX
Друзья, отличные новости — выкатили самую большую модель GigaChat'а для всех.
🔸 Среди улучшений, типа красивостей при форматировании (LaTeX, списки и другая разметка), работы с кодом и т.д., постарались добавить в обучение больше мультиязычных данных, включая малые языки.
Таких корпусов, к сожалению, немного самих по себе, но мы их отслеживаем, так что выкладывайте побольше в открытый доступ.
🔸 Токенизация стала значительно более оптимальной для всех доменов, что увеличивает также и эффективный контекст.
🔸 API скоро появится, а сейчас можно работать через UI.
Все навыки должны были улучшиться, так что тестируйте, пишите фидбек!
Все ваши отзывы команда читает и старается улучшить Гигу.
👉 giga.chat | Замеры и описание | @gigachat_bot
Друзья, отличные новости — выкатили самую большую модель GigaChat'а для всех.
🔸 Среди улучшений, типа красивостей при форматировании (LaTeX, списки и другая разметка), работы с кодом и т.д., постарались добавить в обучение больше мультиязычных данных, включая малые языки.
Таких корпусов, к сожалению, немного самих по себе, но мы их отслеживаем, так что выкладывайте побольше в открытый доступ.
🔸 Токенизация стала значительно более оптимальной для всех доменов, что увеличивает также и эффективный контекст.
🔸 API скоро появится, а сейчас можно работать через UI.
Все навыки должны были улучшиться, так что тестируйте, пишите фидбек!
Все ваши отзывы команда читает и старается улучшить Гигу.
👉 giga.chat | Замеры и описание | @gigachat_bot
👍28🔥10❤4🍾1
По просьбам читателей добавил обзоры на английском и на китайском (через gpt-4o). UI вроде тоже весь локализовал. Если что найдете, пишите.
P.S. Для теста добавил фоновые картинки для статей с рейтингом 20+ (промпт пишет gpt-4o, генерит flux). По-моему, это не особо нужно (хотя прикольно), а как вам?
👉 HFday.ru
P.S. Для теста добавил фоновые картинки для статей с рейтингом 20+ (промпт пишет gpt-4o, генерит flux). По-моему, это не особо нужно (хотя прикольно), а как вам?
👉 HFday.ru
50🔥19👍8❤2⚡2🎉1