Forwarded from GoogleDeveloperStudentClub at TSTU
#buildwithai #speaker
Meet the next speaker of Build with AI Event ‘24!
⠀
👨💻 Emre Hızlı, Founder @ HighBrains
📫 Topic: "The Revolution of Angular"
👀 Date: May 04, 2024
🕙 Time: 10:00 - 16:00
📍 Venue: PDP University
🎟 Get your FREE ticket today:
Tap Here
🙌 See you at Build with AI Event '24!
< @gdsc_tstu >
Meet the next speaker of Build with AI Event ‘24!
⠀
👨💻 Emre Hızlı, Founder @ HighBrains
📫 Topic: "The Revolution of Angular"
👀 Date: May 04, 2024
🕙 Time: 10:00 - 16:00
📍 Venue: PDP University
🎟 Get your FREE ticket today:
Tap Here
🙌 See you at Build with AI Event '24!
< @gdsc_tstu >
❤2
В рамках Computational linguistics Call for papers воркшоп Special interest group on Turkic languages https://sigturk.github.io/workshop/ Организует мой знакомый чел с Измира. Физически в Бангкоке, но можно участвовать онлайн @devs_kz
SIGTURK
Workshop
The First Workshop on Natural Language Processing for Turkic Languages (SIGTURK 2024)
🔥2
Топ 2 сайта для удаленной работы (субьективно) https://remoteok.com. И https://www.workatastartup.com @devs_kz
Remote OK
Remote Jobs in Programming, Design, Sales and more #OpenSalaries
Looking for a remote job? Remote OK® is the #1 Remote Job Platform and has 1,129,617+ remote jobs as a Developer, Designer, Copywriter, Customer Support Rep, Sales Professional, Project Manager and more! Find a career where you can work remotely from anywhere.
Они семейная пара. Пару лет назад прошли собеседование в ИТ компании в Британии. Недавно нашли британскую гос программу и по ней купили в ипотеку в Шотландии. Постараюсь все вопросы от вас задать (про самозванца, резюме и прочее). Или вы можете сами напрямую задать сегодня в 15:00 GMT+5 https://www.youtube.com/live/0fD_pYzxRBw?feature=shared. @devs_kz
YouTube
Как готовить CV и LINKEDIN для международного рынка. Собеседование в MAANG
Встречаемся с фаундерами NETWORK.IO.
Екатериной Ли и Антоном Ольшанецким.
Повестка:
Как готовить CV и LINKEDIN для международного рынка
Опыт прохождения собеседований в MAANG
01:00 Представление
02:00 Путь в Лондон. Релоцируют не только разработчиков.…
Екатериной Ли и Антоном Ольшанецким.
Повестка:
Как готовить CV и LINKEDIN для международного рынка
Опыт прохождения собеседований в MAANG
01:00 Представление
02:00 Путь в Лондон. Релоцируют не только разработчиков.…
❤5👍1
Мессадж для православных участников: Христос воскрес! С праздником вас!
❤16
ISO 42001-2023 Artifical Intelligence Management System.pdf
842.6 KB
Свежий стандарт ISO 42001 AI management в основном описывают так называемые контроли. Например, документ AI policy, документирование датасетов бизнес требований и т. п. Оглядываясь назад, как его предшественник ISO 22989 представлял такие концепции, как автономное ML L0-L6 (тогда это было отражено во всех современных электромобилях, я думаю, что ISO 42001 будет отражено) в корпоративном законодательстве довольно скоро. Чуть детальнее расписал в статье. Полезно только если вы ИТ аудитор/консультант/инфобезопасник. А если вы разработчик или менеджер, то лучше взять простой курс по Responsible AI коих сейчас много. @devs_kz
👍1🔥1
Джереми Кун написал книгу которая обьясняет математику для гуманитариев программистов. На картинке объяснение формулы сигмы https://pimbook.org/ @devs_kz
🔥17👍3😨3❤1
По признанию ряда дата инженеров, не зависимо от сложности AI систему, контроль процесса тренировки проводиться в банальном Google sheets. Не знаю правда или нет. Найден пример типичного шаблона. https://docs.google.com/spreadsheets/d/1rtosyNRjd1ZNAuoY9s13c9xZ6ZvAkOfoOT0ij9yMfJk/edit#gid=0 @devs_kz
Google Docs
Example of experiment tracking
❤3
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
В апреле я побывал в гостях в Университете Тарту. И одна из свежих штук, которую мне там показали - это эстонская LLaMA, названная llammas (по-эстонски баран, ибо модель получилась весьма упрямая 🐏 ). Вот статья про неё.
Что её авторы сделали:
1. До-предобучили Llama-2-7B на 5B токенов: 75% эстонских и 25% английских (чтобы английский не забывался).
1. Сгенерировали с помощью GPT-3.5-turbo датасет, аналогичный Alpaca, на эстонском (50K примеров).
1. Взяли кучу открытых шумных датасетов для перевода между английским и эстонским, и сконвертировали их в формат инструкций (1М примеров). Дополнительно взяли ещё 2К более чистых примеров для перевода.
1. Дообучили эту модель: сначала опционально на полном датасете перевода (1М примеров), потом на чистом переводе и английских и эстонских инструкциях (100К примеров из английской и эстонской альпак, и ещё 25К из более качественных английских инструкций).
1. Оценили модель на задачах question answering, choice of plausible alternative, grammatical error correction, и перевода.
Что выяснили:
- Для большинства задач (кроме CoPA) большая часть эффекта от продолженного предобучения на эстонском была достигнута уже на 1B токенов.
- Если дообучать сначала на полном датасете для перевода, а потом на инструкциях, то перевод и исправление ошибок даются модели лучше, а логика и ответы на вопросы - хуже, чем если дообучать сразу на инструкциях.
- Модели, дообученные на инструкциях, в принципе способны поддерживать осмысленную беседу на эстонском, хоть они и не всегда звучат естественно.
- Модель переводит между эстонским и английским достаточно близко к уровню SOTA (типа NLLB).
- На большинстве английских бенчмарков модель, которую до-предобучили на смеси эстонского с английским, не очень сильно падает в качестве по сравнению с исходной.
- Нужно ли дообучаться на большом датасете для перевода, и нужно ли это делать вперемешку с инструкциями или до них, не вполне понятно (разные задачи дают разные сигналы). Но в целом нет свидетельств, что реально много параллельных текстов для такой модели нужно.
Из этого, казалось бы, можно сделать вывод, что для адаптации LLM к новому языку не очень-то и нужно иметь много хороших параллельных данных для этого языка; достаточно иметь большой моноязычный датасет для продолженного предобучения (хотя бы 1B токенов, при том что токенайзер LLaMA даёт для эстонского в среднем вдвое больше токенов на предложение, чем для английского) и умеренно большой датасет с инструкциями.
Но как раз наличие датасета с инструкциями и представляет из себя большое "но": он был получен благодаря магии GPT, который уже каким-то чудом знает эстонский достаточно хорошо. А значит, для языков, на которых GPT работает не так классно, такой датасет нужно будет ли собирать вручную с нуля, или переводить с других языков. Так что я думаю, что без этапа создания хорошего машинного перевода - а значит, и сбора хороших параллельных корпусов - всё-таки не обойтись.
Ну и да, основной позитивный сингал: если таки вы нашли данные, то даже такую англоцентричную модель, как LLaMA 2, можно адаптировать на такой нишевой язык, как эстонский, за где-то 1300 GPU-часов (как это сделали TartuNLP), или даже, скажем, всего за 300 (если предобучаться на 1 млрд токенов, а не на 5, что уже тоже даёт неплохой результат). То есть: doable даже в домашних условиях.
Что её авторы сделали:
1. До-предобучили Llama-2-7B на 5B токенов: 75% эстонских и 25% английских (чтобы английский не забывался).
1. Сгенерировали с помощью GPT-3.5-turbo датасет, аналогичный Alpaca, на эстонском (50K примеров).
1. Взяли кучу открытых шумных датасетов для перевода между английским и эстонским, и сконвертировали их в формат инструкций (1М примеров). Дополнительно взяли ещё 2К более чистых примеров для перевода.
1. Дообучили эту модель: сначала опционально на полном датасете перевода (1М примеров), потом на чистом переводе и английских и эстонских инструкциях (100К примеров из английской и эстонской альпак, и ещё 25К из более качественных английских инструкций).
1. Оценили модель на задачах question answering, choice of plausible alternative, grammatical error correction, и перевода.
Что выяснили:
- Для большинства задач (кроме CoPA) большая часть эффекта от продолженного предобучения на эстонском была достигнута уже на 1B токенов.
- Если дообучать сначала на полном датасете для перевода, а потом на инструкциях, то перевод и исправление ошибок даются модели лучше, а логика и ответы на вопросы - хуже, чем если дообучать сразу на инструкциях.
- Модели, дообученные на инструкциях, в принципе способны поддерживать осмысленную беседу на эстонском, хоть они и не всегда звучат естественно.
- Модель переводит между эстонским и английским достаточно близко к уровню SOTA (типа NLLB).
- На большинстве английских бенчмарков модель, которую до-предобучили на смеси эстонского с английским, не очень сильно падает в качестве по сравнению с исходной.
- Нужно ли дообучаться на большом датасете для перевода, и нужно ли это делать вперемешку с инструкциями или до них, не вполне понятно (разные задачи дают разные сигналы). Но в целом нет свидетельств, что реально много параллельных текстов для такой модели нужно.
Из этого, казалось бы, можно сделать вывод, что для адаптации LLM к новому языку не очень-то и нужно иметь много хороших параллельных данных для этого языка; достаточно иметь большой моноязычный датасет для продолженного предобучения (хотя бы 1B токенов, при том что токенайзер LLaMA даёт для эстонского в среднем вдвое больше токенов на предложение, чем для английского) и умеренно большой датасет с инструкциями.
Но как раз наличие датасета с инструкциями и представляет из себя большое "но": он был получен благодаря магии GPT, который уже каким-то чудом знает эстонский достаточно хорошо. А значит, для языков, на которых GPT работает не так классно, такой датасет нужно будет ли собирать вручную с нуля, или переводить с других языков. Так что я думаю, что без этапа создания хорошего машинного перевода - а значит, и сбора хороших параллельных корпусов - всё-таки не обойтись.
Ну и да, основной позитивный сингал: если таки вы нашли данные, то даже такую англоцентричную модель, как LLaMA 2, можно адаптировать на такой нишевой язык, как эстонский, за где-то 1300 GPU-часов (как это сделали TartuNLP), или даже, скажем, всего за 300 (если предобучаться на 1 млрд токенов, а не на 5, что уже тоже даёт неплохой результат). То есть: doable даже в домашних условиях.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
Яндекс открывает прием заявок на ежегодную международную научную премию Yandex ML Prize
Казахстанские исследователи в области искусственного интеллекта смогут претендовать на международную научную премию. Победители получат от 2,5 до 5 миллионов тенге в зависимости от номинации. Также Yandex Cloud предоставит победителям гранты, что позволит им выполнять облачные вычисления на платформе, обрабатывать данные экспериментов и обучать ML-модели.
Премия вручается молодым исследователям, научным руководителям и преподавателям за достижения в области компьютерного зрения, обработки естественного языка и машинного перевода, распознавания и синтеза речи, информационного поиска и анализа данных, генеративных моделей.
Премия в этом году будет вручаться в пяти номинациях. На неё смогут претендовать исследователи и их наставники из 11 стран, в том числе из Казахстана. Награждение Yandex ML Prize состоится осенью 2024 года.
Заявки принимаются на сайте премии до 21 июня.
Номинации Yandex ML Prize в 2024 году:
● «Первая публикация»
● «Исследователи»
● «Молодые научные руководители»
● «Научные руководители»
● «Преподаватели ML»
Казахстанские исследователи в области искусственного интеллекта смогут претендовать на международную научную премию. Победители получат от 2,5 до 5 миллионов тенге в зависимости от номинации. Также Yandex Cloud предоставит победителям гранты, что позволит им выполнять облачные вычисления на платформе, обрабатывать данные экспериментов и обучать ML-модели.
Премия вручается молодым исследователям, научным руководителям и преподавателям за достижения в области компьютерного зрения, обработки естественного языка и машинного перевода, распознавания и синтеза речи, информационного поиска и анализа данных, генеративных моделей.
Премия в этом году будет вручаться в пяти номинациях. На неё смогут претендовать исследователи и их наставники из 11 стран, в том числе из Казахстана. Награждение Yandex ML Prize состоится осенью 2024 года.
Заявки принимаются на сайте премии до 21 июня.
Номинации Yandex ML Prize в 2024 году:
● «Первая публикация»
● «Исследователи»
● «Молодые научные руководители»
● «Научные руководители»
● «Преподаватели ML»
Yandex ML Prize
Премия Яндекса при экспертной поддержке Школы анализа данных за вклад в развитие ML
👍4❤1🤬1
Приветствуем любителей инноваций!
🌟 Приглашаем вас на Google I/O Extended Oral 2024!
📅 13 мая
🕒 14:30
📍 Уральск, ул. Маметовой, 81, Дворец студентов КазИИТУ
Google I/O Extended - это серия мероприятий, которые проходят по всему миру и являются дополнением к ежегодной конференции разработчиков Google I/O. На этих мероприятиях участники могут узнать о последних разработках Google, пообщаться с другими разработчиками и поделиться своими знаниями.
В качестве спикеров мы пригласили для вас международных экспертов. Не бойтесь языкового барьера, все выступления будут сопровождаться синхронным переводом.
🚀 Мероприятие организовано при поддержке Jaiq Hub.
Присоединяйтесь к уникальному событию, не упустите шанс задать свои вопросы и обменяться идеями с опытными специалистами.
📝 Регистрация на Google I/O Extended Oral 2024
🌟 Приглашаем вас на Google I/O Extended Oral 2024!
📅 13 мая
🕒 14:30
📍 Уральск, ул. Маметовой, 81, Дворец студентов КазИИТУ
Google I/O Extended - это серия мероприятий, которые проходят по всему миру и являются дополнением к ежегодной конференции разработчиков Google I/O. На этих мероприятиях участники могут узнать о последних разработках Google, пообщаться с другими разработчиками и поделиться своими знаниями.
В качестве спикеров мы пригласили для вас международных экспертов. Не бойтесь языкового барьера, все выступления будут сопровождаться синхронным переводом.
🚀 Мероприятие организовано при поддержке Jaiq Hub.
Присоединяйтесь к уникальному событию, не упустите шанс задать свои вопросы и обменяться идеями с опытными специалистами.
📝 Регистрация на Google I/O Extended Oral 2024
Для тех кто пишет научные статьи с методами качественных (qualitative) исследований и сталкивается с злыми ревьюерами. Как отвечать на типичные комменты https://docs.google.com/document/d/1jHiWJdkjm6Go683GIxi0tz8l-17rQQpadn9qb7zZDh4/heading=h.e86h69sdez6d#heading=h.2uezojvhv0la
Куда применить свой потенциал. Если не знаете, как вариант изучайте технологии роя дронов. Будет актуально в любой стране в последующие годы как в гражданской так и других отраслях. Наковырял пару гит репозиториев с мирных use кейсов и симуляций от 2018 года. На 2024 технологии далеко шагнули у наших соседей в постсоветских странах, Западе и даже Турции. Последнии тенденции координация группы дронов, и из полуавтономная работа. Репо 1 https://github.com/mlpi-unipi/drones-swarm Репо 2 https://github.com/lis-epfl/swarmlab. @devs_kz
GitHub
GitHub - mlpi-unipi/drones-swarm: Adaptive exploration of a UAVs swarm for distributed targets detection and tracking
Adaptive exploration of a UAVs swarm for distributed targets detection and tracking - mlpi-unipi/drones-swarm
👍2
Github copilot не надо платить 100 usd / месяц. По этой ссылке бесплатно https://education.github.com/ @devs_kz
GitHub
GitHub Education
GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.
❤6
От Технодома. Гаджеты для дома весной 2024
1. Робот-пылесос: Автоматизируйте уборку пола с помощью умного робота-пылесоса, который самостоятельно пройдет по всем комнатам и под мебелью.
2. Пароочиститель: Очистите поверхности от грязи и бактерий при помощи пароочистителя, который безопасно использует пар для дезинфекции.
3. Умный мойщик окон: Забудьте о скучной и трудоемкой уборке окон с помощью устройства, которое автоматически моет стекла, экономя ваше время и усилия.
4. Многофункциональный пылесос: Ищите пылесос, который не только пылесосит, но и удаляет пятна с ковров и диванов, а также очищает воздух от пыли и аллергенов.
Промокоды для, покупки гаждетов в Technodom:
REAL131 – дополнительная скидку 5% на 2 любых заказа. Минимальная и максимальная суммы не учитываются. Не распространяется на товары в кредит или рассрочку. Имеются исключения по брендам: Apple, Bork, Dyson, Laurastar, Miele, игровые приставки Sony, смартфоны Samsung, сертификаты, техносервис, установки.
Специальные предложения доступны ТОЛЬКО по этой ссылке https://technodom5.prfl.me/devs_kz/7oxynp
Подробнее на technodom.kz
1. Робот-пылесос: Автоматизируйте уборку пола с помощью умного робота-пылесоса, который самостоятельно пройдет по всем комнатам и под мебелью.
2. Пароочиститель: Очистите поверхности от грязи и бактерий при помощи пароочистителя, который безопасно использует пар для дезинфекции.
3. Умный мойщик окон: Забудьте о скучной и трудоемкой уборке окон с помощью устройства, которое автоматически моет стекла, экономя ваше время и усилия.
4. Многофункциональный пылесос: Ищите пылесос, который не только пылесосит, но и удаляет пятна с ковров и диванов, а также очищает воздух от пыли и аллергенов.
Промокоды для, покупки гаждетов в Technodom:
REAL131 – дополнительная скидку 5% на 2 любых заказа. Минимальная и максимальная суммы не учитываются. Не распространяется на товары в кредит или рассрочку. Имеются исключения по брендам: Apple, Bork, Dyson, Laurastar, Miele, игровые приставки Sony, смартфоны Samsung, сертификаты, техносервис, установки.
Специальные предложения доступны ТОЛЬКО по этой ссылке https://technodom5.prfl.me/devs_kz/7oxynp
Подробнее на technodom.kz
👍2❤1