Devs.kz
8.43K subscribers
2.63K photos
170 videos
129 files
3.2K links
IT карьера в Казахстане и мире. Воркшопы и митапы Google и др. компаний. Наш офиц. портал devs.kz

Обратная связь @AskarAi Аскар Айтуов

Реклама: https://t.me/devs_kz/5211

Youtube @devs_kz

Курс AI Product engineer: https://t.me/+CG8Tpmy0RtxkZjZi
Download Telegram
Наши Women TechMakers Bishkek + и студенческие клубы попали на Kyrgyz BBC! https://youtu.be/gPXj4THZ5lg?feature=shared @devs_kz
🕊2
👋 Приглашаем на мероприятие Elcore и Google Cloud Central Asia Acceleration Day!
📅 17 мая 2024
13:00
🏢 SmArt Point, Байзакова, 280 Almaty
🤖 Погрузитесь в мир инноваций, где генеративный ИИ и облачные решения Google открывают безграничные возможности для бизнес-трансформации.
👩‍🦰 Julia Nikulina, Channel Territory Manager, Google Cloud
👩‍🦰 Mariia Pokhylchuk, Google Cloud Team Lead, Elcore
🧔‍♂️ Nicolae Ciobanu, Partner Engineer, Google Cloud
🧔‍♂️ Darkhan Meirman, DevOps Engineer, Cybernet
🧔‍♂️ Qazybek Beken, Manager (Advisory, Data & Analytics), PwC
🧔‍♂️ Temirlan Dalenov, Cloud Brand Manager, Elcore
На Acceleration Day вы узнаете о возможностях GenAI, научитесь использовать аналитику данных, получите рекомендации по миграции в облако, изучите реальные успешные кейсы.
Перенимайте опыт компаний, которые уже успешно внедрили и используют облачные решения в повседневных бизнес-процессах, получите информацию о новых технологиях из первых рук и разберитесь, как облако может быть полезно именно для вас.
🗓 Программа:
Let's Talk GenAI
Аналитика данных с BigQuery
Кейсы казахских компаний
Миграция в Google Cloud
DevOps в облаке
👉 Регистрируйтесь: https://rsvp.withgoogle.com/events/elcore-and-google-cloud-central-asia-acceleration-day
2👍1🔥1
👍2
[Ташкент]
#buildwithai #speaker

Meet the next speaker of Build with AI Event ‘24!

👨‍💻 Emre Hızlı, Founder @ HighBrains

📫 Topic: "The Revolution of Angular"

👀 Date: May 04, 2024
🕙 Time: 10:00 - 16:00
📍 Venue: PDP University

🎟 Get your FREE ticket today:
Tap Here

🙌 See you at Build with AI Event '24!

< @gdsc_tstu >
2
В рамках Computational linguistics Call for papers воркшоп Special interest group on Turkic languages https://sigturk.github.io/workshop/ Организует мой знакомый чел с Измира. Физически в Бангкоке, но можно участвовать онлайн @devs_kz
🔥2
😁18
Они семейная пара. Пару лет назад прошли собеседование в ИТ компании в Британии. Недавно нашли британскую гос программу и по ней купили в ипотеку в Шотландии. Постараюсь все вопросы от вас задать (про самозванца, резюме и прочее). Или вы можете сами напрямую задать сегодня в 15:00 GMT+5 https://www.youtube.com/live/0fD_pYzxRBw?feature=shared. @devs_kz
5👍1
Devs.kz pinned «Они семейная пара. Пару лет назад прошли собеседование в ИТ компании в Британии. Недавно нашли британскую гос программу и по ней купили в ипотеку в Шотландии. Постараюсь все вопросы от вас задать (про самозванца, резюме и прочее). Или вы можете сами напрямую…»
Мессадж для православных участников: Христос воскрес! С праздником вас!
16
ISO 42001-2023 Artifical Intelligence Management System.pdf
842.6 KB
Свежий стандарт ISO 42001 AI management в основном описывают так называемые контроли. Например, документ AI policy, документирование датасетов бизнес требований и т. п. Оглядываясь назад, как его предшественник ISO 22989 представлял такие концепции, как автономное ML L0-L6 (тогда это было отражено во всех современных электромобилях, я думаю, что ISO 42001 будет отражено) в корпоративном законодательстве довольно скоро. Чуть детальнее расписал в статье. Полезно только если вы ИТ аудитор/консультант/инфобезопасник. А если вы разработчик или менеджер, то лучше взять простой курс по Responsible AI коих сейчас много. @devs_kz
👍1🔥1
Катя рассказывается про ATS систему (CV) https://www.youtube.com/watch?v=0fD_pYzxRBw
👍3
Джереми Кун написал книгу которая обьясняет математику для гуманитариев программистов. На картинке объяснение формулы сигмы https://pimbook.org/ @devs_kz
🔥17👍3😨31
Психиатр: успокойся, гитхаб тебя не преследует. Слетай в отпуск.

Я лечу в отпуск. Вид из иллюминатора: ….. автор Дима Рожков @devs_kz
😁16🤣6
По признанию ряда дата инженеров, не зависимо от сложности AI систему, контроль процесса тренировки проводиться в банальном Google sheets. Не знаю правда или нет. Найден пример типичного шаблона. https://docs.google.com/spreadsheets/d/1rtosyNRjd1ZNAuoY9s13c9xZ6ZvAkOfoOT0ij9yMfJk/edit#gid=0 @devs_kz
3
В апреле я побывал в гостях в Университете Тарту. И одна из свежих штук, которую мне там показали - это эстонская LLaMA, названная llammas (по-эстонски баран, ибо модель получилась весьма упрямая 🐏). Вот статья про неё.

Что её авторы сделали:
1. До-предобучили Llama-2-7B на 5B токенов: 75% эстонских и 25% английских (чтобы английский не забывался).
1. Сгенерировали с помощью GPT-3.5-turbo датасет, аналогичный Alpaca, на эстонском (50K примеров).
1. Взяли кучу открытых шумных датасетов для перевода между английским и эстонским, и сконвертировали их в формат инструкций (1М примеров). Дополнительно взяли ещё 2К более чистых примеров для перевода.
1. Дообучили эту модель: сначала опционально на полном датасете перевода (1М примеров), потом на чистом переводе и английских и эстонских инструкциях (100К примеров из английской и эстонской альпак, и ещё 25К из более качественных английских инструкций).
1. Оценили модель на задачах question answering, choice of plausible alternative, grammatical error correction, и перевода.

Что выяснили:
- Для большинства задач (кроме CoPA) большая часть эффекта от продолженного предобучения на эстонском была достигнута уже на 1B токенов.
- Если дообучать сначала на полном датасете для перевода, а потом на инструкциях, то перевод и исправление ошибок даются модели лучше, а логика и ответы на вопросы - хуже, чем если дообучать сразу на инструкциях.
- Модели, дообученные на инструкциях, в принципе способны поддерживать осмысленную беседу на эстонском, хоть они и не всегда звучат естественно.
- Модель переводит между эстонским и английским достаточно близко к уровню SOTA (типа NLLB).
- На большинстве английских бенчмарков модель, которую до-предобучили на смеси эстонского с английским, не очень сильно падает в качестве по сравнению с исходной.
- Нужно ли дообучаться на большом датасете для перевода, и нужно ли это делать вперемешку с инструкциями или до них, не вполне понятно (разные задачи дают разные сигналы). Но в целом нет свидетельств, что реально много параллельных текстов для такой модели нужно.

Из этого, казалось бы, можно сделать вывод, что для адаптации LLM к новому языку не очень-то и нужно иметь много хороших параллельных данных для этого языка; достаточно иметь большой моноязычный датасет для продолженного предобучения (хотя бы 1B токенов, при том что токенайзер LLaMA даёт для эстонского в среднем вдвое больше токенов на предложение, чем для английского) и умеренно большой датасет с инструкциями.
Но как раз наличие датасета с инструкциями и представляет из себя большое "но": он был получен благодаря магии GPT, который уже каким-то чудом знает эстонский достаточно хорошо. А значит, для языков, на которых GPT работает не так классно, такой датасет нужно будет ли собирать вручную с нуля, или переводить с других языков. Так что я думаю, что без этапа создания хорошего машинного перевода - а значит, и сбора хороших параллельных корпусов - всё-таки не обойтись.

Ну и да, основной позитивный сингал: если таки вы нашли данные, то даже такую англоцентричную модель, как LLaMA 2, можно адаптировать на такой нишевой язык, как эстонский, за где-то 1300 GPU-часов (как это сделали TartuNLP), или даже, скажем, всего за 300 (если предобучаться на 1 млрд токенов, а не на 5, что уже тоже даёт неплохой результат). То есть: doable даже в домашних условиях.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
Яндекс открывает прием заявок на ежегодную международную научную премию Yandex ML Prize

Казахстанские исследователи в области искусственного интеллекта смогут претендовать на международную научную премию. Победители получат от 2,5 до 5 миллионов тенге в зависимости от номинации. Также Yandex Cloud предоставит победителям гранты, что позволит им выполнять облачные вычисления на платформе, обрабатывать данные экспериментов и обучать ML-модели.

Премия вручается молодым исследователям, научным руководителям и преподавателям за достижения в области компьютерного зрения, обработки естественного языка и машинного перевода, распознавания и синтеза речи, информационного поиска и анализа данных, генеративных моделей.

Премия в этом году будет вручаться в пяти номинациях. На неё смогут претендовать исследователи и их наставники из 11 стран, в том числе из Казахстана. Награждение Yandex ML Prize состоится осенью 2024 года.

Заявки принимаются на сайте премии до 21 июня.

Номинации Yandex ML Prize в 2024 году:

● «Первая публикация»
● «Исследователи»
● «Молодые научные руководители»
● «Научные руководители»
● «Преподаватели ML»
👍41🤬1
Приветствуем любителей инноваций!

🌟 Приглашаем вас на Google I/O Extended Oral 2024!

📅 13 мая
🕒 14:30
📍 Уральск, ул. Маметовой, 81, Дворец студентов КазИИТУ

Google I/O Extended - это серия мероприятий, которые проходят по всему миру и являются дополнением к ежегодной конференции разработчиков Google I/O. На этих мероприятиях участники могут узнать о последних разработках Google, пообщаться с другими разработчиками и поделиться своими знаниями.

В качестве спикеров мы пригласили для вас международных экспертов. Не бойтесь языкового барьера, все выступления будут сопровождаться синхронным переводом.

🚀 Мероприятие организовано при поддержке Jaiq Hub.

Присоединяйтесь к уникальному событию, не упустите шанс задать свои вопросы и обменяться идеями с опытными специалистами.

📝 Регистрация на Google I/O Extended Oral 2024
Для тех кто пишет научные статьи с методами качественных (qualitative) исследований и сталкивается с злыми ревьюерами. Как отвечать на типичные комменты https://docs.google.com/document/d/1jHiWJdkjm6Go683GIxi0tz8l-17rQQpadn9qb7zZDh4/heading=h.e86h69sdez6d#heading=h.2uezojvhv0la
Куда применить свой потенциал. Если не знаете, как вариант изучайте технологии роя дронов. Будет актуально в любой стране в последующие годы как в гражданской так и других отраслях. Наковырял пару гит репозиториев с мирных use кейсов и симуляций от 2018 года. На 2024 технологии далеко шагнули у наших соседей в постсоветских странах, Западе и даже Турции. Последнии тенденции координация группы дронов, и из полуавтономная работа. Репо 1 https://github.com/mlpi-unipi/drones-swarm Репо 2 https://github.com/lis-epfl/swarmlab. @devs_kz
👍2