BigDataFuture
1.42K subscribers
226 photos
76 videos
385 links
Говоримо про AI, великі дані, технології майбутнього та як вони незабаром змінять наше суспільство.

Веде канал Володимир Лозовий (linkedin.com/in/vlozovyi), засновник Artellence (artellence.com).

Зв'язок: artellence.com/ua#contacts
Download Telegram
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Ирландский сайт Twin Strangers позволяет по селфи найти своего двойника со всего мира. Любопытно... и одновременно с этим немного пугающе.
Мы в Artellence, занимаясь анализом открытых данных и разработкой технологий распознаванием лиц, также умеем находить двойников человека по селфи. Хотя и используем это в самых обычных прикладных целях. На самом деле, такое нахождение двойников - один из шагов при поиске человека по фото: сначала находятся все люди с похожей внешностью, а затем среди них по дополнительным параметрам выбирается нужный человек.

Никогда раньше не задумывались над тем, чтобы вывести этот шаг в отдельный сервис. Хотя, признаемся, и игрались с поиском по фото двойников своих сотрудников)

---
Канал: Big data future
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

"Скажи мне, кто твой друг, и я скажу тебе, кто ты" - так написал очень давно древнегреческий драматург Эврипид.

Мы в Artellence провели связанный с этим высказыванием эксперимент. Сначала построили модель кредитного скоринга, которая учитывала всю возможную информацию о самом человеке. А затем, построили модель, которая анализировала только список его друзей. Точности этих двух моделей оказались идентичными.

24 века с тех пор прошло, а мысль древнего грека так и не утратила своей актуальности!

---
Канал: Big data future
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Распознавание лиц - одна из самых горячих тем в последнее время. Мы в Artellence также погрузились в эту сферу и делимся своим опытом.
bit.ly/3rqeJFs
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Противоположности притягиваются

Положительный заряд к отрицательному, красавица к чудовищу... радикальные националисты к сторонникам России. Да-да, именно такой инсайт мы нашли, анализируя интересы Facebook радикально и пророссийски настроенных жителей Украины.

Кто подписчики Правого сектора и факельных шествий в Facebook? Почти в половине случаев - люди с пророссийскими взглядами. А кто подписывается на Путина и ностальгирует по СССР? В большом количестве - радикальные националисты!

---
Канал: Big data future
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Лед и пламя

Как математики, мы любим считать. Особенно что-то из Facebook - благо у него для этого повод всегда найдется. В это раз мы посчитали сколько крайне пророссийских ("Путин приди") и крайне националистических постов и комментариев ("вбити москалів") было оставлено в укр. сегменте соцсети за год.
Первых оказалось 750 тыс., вторых - 485 тыс. Не мало! И почти половина из них оставлена уникальными аккаунтами.

Как мы считали: вручную разметили выборку из 20 тыс. крайне пророссийских и националистических комментариев, также добавили к ним нейтральных. На этих данных обучили алгоритм сортировать комментарии на 3 категории: пророссийские, националистические, нейтральные. И прогнали через этот алгоритм все публичные комментарии укр. сегмента Facebook.

---
Канал: Big data future
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Безграничная фантазия

Мы создали свой мэтчер имен, который позволяет искать человека в соцсетях по приблизительному написанию имени. И знаете зачем? Например, имя Александр можно написать 174 различными способами!

alxandr, alexandar, alexanr, alexx, sanechk, санька, aleksandyr, olexand, олександр, aleksadr, sasha, alesandr, lexandr, алексндр, alesandro, alecs, sanyochek, aleksad, sanyi, sashcha, саша, olesandr, sanch, alexandru, sasho, olexandr, olyksandy, saske, sanjay, aleskandr, елех, sandro, sanny, shasha, alehandro, sanych, шура, aexandr, shura, shury, sanyk, sanyika, aleksndr, oleksander, caha, sanie, adeksandr, aleksan, александ, oleksande, alex's, adeksand, олександ, саньок, alessandro, александо, sanchik, sahsa, syanya, sash, alecsandr, aleksanr, сашко, oleksan, sascha, сашуня, олексанр, sas, syanka, olexander, alekandr, alexandr, oleksad, canya, sashechka, aleksandar, sanyaba, sanok, oleksand, алех, aleksando, alexi, александр., sasasa, shurik, alexndr, саща, sank, санечка, sanechka, alksand, sanj, sannya, shur, aleksandro, sashulya, александир, aleksanda, oleksanr, alexand, sanyc, алекс, sanna, саске, оликсандыр, сашка, sany, санечек, саня, алексанр, shuryk, sashuni, xander, sanyok, alekcandr, sashok, sasha., alexandro, alexadr, oleksadr, sacha, алексадр, aleksandy, sashch, aleksanbr, sanka, alekh, alejandro, sasa, sashunia, саник, sakha, sasza, alekand, sanechek, sanchos, alechandro, sano, saneche, aleksnd, саш, сашок, alexander, саныч, алекандр, sanya, alexxx, aleksand, sania, александар, sahka, sanich, адександр, olyksandyr, aleksandr., alek, sani, саша., sashko, санчо, sask, alykhandro, шурик, alksandr, александыр, alexanndr, алксандр, александр, sancho, adexandr, aleksander, олександер, sashk, олексадр

---
Канал: Big data future
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Общаясь с клиентами, можно услышать идеи совершенно неожиданного применения своих продуктов.

Так, например, службы безопасности агрокомпаний проверяют надежность своих сотрудников, анализируя аккаунты OLX их родственников. Зачем? Сотрудник стащил мешок сахара, продать хочется, но через свой аккаунт - опасно. Вот и находится для таких целей племянник или брат, которые помогают осуществить задуманное. А используя наш продукт, такой номер больше не пройдет.

---
Канал: Big data future
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Не все коту Масленица

Почему-то принято считать, что построение ИИ-решений - это только обучение и тюнинг различных нейронок. Это конечно правда... только процентов на 10, не более!

Мы сейчас активно адаптируем наши продукты по кредитам для рынка Вьетнама. И знаете, чем мы занимаемся основную часть времени? Например, совместно с коренными вьетнамцами изучаем в каком порядке записываются слова в полном имени человека, может ли одно и то же слово в одной ситуации быть именем человека, а в другой - его фамилией. И как находить в соцсетях людей с фамилией Нгуен, ведь ее носителей во Вьетнаме - 40% всего населения!

А еще мы изучаем особенности составления никнеймов вьетнамцами, какие фото они обычно ставят на аватарки, какими словами называют своих близких и родственников... И только проделав всю эту работу, мы перейдем к долгожданному этапу - построению нейронок!

---
Канал: Big data future
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Навеяно предыдущим постом...

Пару лет назад, во время Президентских выборов, мы активно анализировали информационное пространство соцсетей - пытались понять суть: как же меняются предпочтения людей и какие темы их беспокоят. Для этого мы строили автоматическую группировку всех постов на темы: вышел пост - алгоритм его проанализировал - и отнес в группу со схожими по смыслу постами.

А в один момент мы заметили, что тема "цирка" начала очень быстро расти... И все из-за одного слова - "клоун". Копнув немного глубже, мы разобрались в чем дело - в итоге даже построили отдельный алгоритм, который разделял смысл слова клоун: когда речь шла о клоуне в цирке, а когда - о нашем нынешнем Президенте.

Анализ смыслов текстов - крайне сложная задача, даже для английского языка, не говоря уже про украинский или русский. Именно поэтому соцсети так часто ни за что банят наши посты и не позволяют запускать рекламные объявления.

---
Канал: Big data future
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Новое время опубликовали наше совместное исследование с Инсайт об отношении украинцев к ЛГБТ. С результатами можно ознакомиться по ссылке, а в этом посте немного расскажу о внутренней кухне исследования.

Шаг 1. Спарсить все посты и комментарии украинцев в FB за 2 года. Задача кажется непомерно сложной, если делать ее с нуля. Работая же постоянно с такими задачами, особых трудностей у нас она не вызвала.

Шаг 2. Отобрать среди всех постов и комментариев те, которые относятся к теме ЛГБТ. Анализ ключевых слов особо не помог. В украинском FB комментарии, содержащие слова "геи", "пидарасы" в 90% к теме ЛГБТ отношения совершенно не имеют - намного чаще так называют президента, правительство и депутатов. Поэтому нам пришлось обучить алгоритм учитывать контекст слова и "понимать" в каком случае текст относится к теме ЛГБТ, а в каком - имеет политический посыл.

Шаг 3. Определить для каждого комментария его тематику и тональность. Это были самые сложные задачи. Почему? Ведь вы наверное все видели красивые демо (особенно американских сервисов), в которых нейронка так легко определяет тематику текста и его тональность за доли секунды? Дело в том, что в этих демо нейронке на вход дают понятный осмысленный текст, а вы ругательные комментарии украинцев в FB читали? Что-что, а вот смысл в них найти довольно сложно. Но и для анализа настолько сильно зашумленных данных есть свои подходы. Что у нас получилось в итоге? Читайте в статье!

---
Канал: Big data future
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Помню в 2016 вышел сервис FindFace. Он позволял искать профайл человека в VK только по 1 фото. Можно было сделать фотографию случайного прохожего и найти его страницу. Звучало как магия, которая совершенно не понятно как происходит.

Несколько недель назад мы в Artellence разработали и запустили схожий сервис, только с более широким функционалом: охватывающий большее кол-во ресурсов и выдающий дополнительную информацию о человеке. "Магию" поиска мы разгадали. Делюсь несколькими интересными находками:

1. Если сравнивать фото человека с каждой отдельно взятой фотографией в соцсетях - модель будет иметь высокую погрешность. Гораздо эффективнее - построить сначала "усредненное" лицо каждого профайла (на основе 10+ фотографий со страницы), а затем уже сравнивать фото человека с такими "усредненными" лицами.

2. Частая проблема, с которой мы столкнулись на этапе очистки данных - огромное кол-во фотографий детей в аккаунтах их родителей. Как понять: кому принадлежит аккаунт, имеющий 30 фото ребенка и 1 фото взрослого? Пришлось даже строить отдельную модель для решения этой задачи.

3. Сказать, что создание такого сервиса требует много вычислительных ресурсов - ничего не сказать. Чтобы облегчить нашим серверам задачу, поиск мы решили выполнять следующим образом: из 2048-мерного вектора "усредненного" лица сначала выбирались 56 самых важных координат, по ним находились 10 тыс. наиболее похожих кандидатов, и только на финальном этапе при выборе из 10 тыс. кандидатов использовался полный 2048-мерный вектор. Точность, кстати, просела от этого незначительно, а вот сервера остались очень довольны таким решением.

---
Канал: Big data future
Вакансии Artellence в декабре

Ищем: Python dev, Parsing/reverse engineering, BizDev, Recruiter. Детальнее тут: djinni.co/jobs/company-artellence-8a2e8/

Откликнуться можно на djinni или отправив резюме на vlozovyi@artellence.com

Чем мы занимаемся? Читайте по тегу #ai_from_inside. Хотите заниматься тем же? Ждем ваших резюме, присоединяйтесь!
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Бывший военный лайкнул в Одноклассниках фото советского герба. За это он получил 10 000 грн. штрафа.

Нужно ли в целях государственной безопасности вычислять людей с сепаратистскими взглядами? Конечно да.

Можно ли это делать с помощью анализа их поведения в соцсетях и других открытых источниках? Конечно можно.

Достаточно ли одного лайка, чтобы назвать человека сепаратистом? А вот здесь уже - нет! Погрешность слишком велика.

А чтобы погрешность снизить, нужно учитывать всю активность человека на различных платформах за как можно больший период времени. А затем еще и отранжировать людей по размеру подозрительной активности, чтобы найти наиболее влиятельных потенциальных сепаратистов.

Мы в Artellence это как раз недавно сделали - насчитали в Украине 344 тыс. таких людей. А вот штраф украинская судебная система присудила только одному из них, почему из многих тысяч выбрали именно его - лично для нас загадка.
https://vctr.media/ua/kolishnomu-vijskovomu-prisudili-bilshe-10-000-grn-shtrafu-za-lajk-v-odnoklasnikakh-116756/
Вакансии Artellence в феврале

Ищем: Python dev, Parsing/reverse engineer, Data scientist. Детальнее тут: djinni.co/jobs/company-artellence-8a2e8/

Откликнуться можно на djinni или отправив резюме на vlozovyi@artellence.com

Чем мы занимаемся? Читайте по тегу #ai_from_inside. Хотите заниматься тем же? Ждем ваших резюме, присоединяйтесь!
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Лучший критерий качества вашего продукта - когда вы сами начинаете его использовать

Представьте, что вы хотите зарекрутить себе крутого программиста, который показывает потрясающие результаты на международной платформе олимпиадных задач. А из контактных данных о нем у вас есть его детское фото древней давности да еще ник (который ни в одной соцсети не пробивается). Что делать в такой ситуации?

Вариант 1 - сдаться. Вариант 2 - использовать поиск по фото от Artellence. Не сразу верится, но только по одному детскому фото наша система нашла активные профайлы нужного человека в соцсетях. И разница в его возрасте на фотографиях на качество поиска не повлияла! Вот так продукт, который разрабатывался для служб безопасности, пригодился и в целях рекрутинга.

Реальная история, которая произошла в нашей компании на этой неделе.
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Что можно узнать о человеке, имея лишь одно его фото? Всю публичную жизнь!

Вероятность правильной идентификации человека по обычному фото - 90%.
Вероятность правильной идентификации человека по размытому фото (с камеры наблюдения, убитого солдата) - 60%.
Именно с такой точностью наш продукт находит и идентифицирует людей, что позволяет в дальнейшем узнать необходимую публичную информацию о человеке.

Что же нужно было для создания такого продукта? Для начала - проанализировать даже не миллионы, а миллиарды фотографий из открытых источников. А затем найти на них лица и векторизировать их. Кстати, в этом нам очень помог супер-компьютер от Nvidia для ИИ вычислений, который предоставили UkraineNow и Артур Кюльян, за что им огромное спасибо! Стоимость такого компьютера $150 тыс. Супер-компьютер для достижения супер-результатов🚀
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

На войне гибнут люди и, к сожалению, с этим ничего поделать нельзя. Очень важно идентифицировать каждого из них, чтобы была возможность передать тело родным погибшего. Если с солдатами это сделать проще - существуют нашивки на форме, документы, то с гражданскими и, в особенности с волонтерами - гораздо сложнее, ведь они могут находиться в любой части прифронтовой территории. И часто единственный способ опознать человека - найти его по фотографии.

Решение этой задачи - одно из применений нашего продукта BigDataPeople. Загрузив лишь одно фото убитого человека - продукт с вероятностью 60% сможет его верно идентифицировать. Чтобы добиться такой точности, мы специально оптимизировали алгоритмы для работы с фотографиями низкого качества: повернутые, размытые, искаженные (думаю многие видели страшные кадры из СМИ, как выглядят тела после зверств русских солдат).

Будем искренне надеяться, что с каждым днем жертв будет становиться меньше и наши технологии с военной сферы перекочуют обратно в бизнес.
#ai_from_inside - в рубрике делимся историями о том, как мы строим ИИ решения в Artellence

Почему-то многие считают публичное общение в Telegram более конфиденциальным, чем в Facebook или Instagram... Большой брат с вами не согласен!

Уже не первый год как серая индустрия массово перекочевала из “более белых” соцсетей в Telegram: эротика, запрещенные препараты, полулегальные услуги и многое другое чувствует себя здесь в полной безопасности... а зря! На первый взгляд кажется, что крайне сложно идентифицировать кому же принадлежит аккаунт Telegram, который ведет канал или оставляет сообщения в комментариях, однако на практике это часто не так.

Если у аккаунта на аватаре фото человека - с вероятность 90% можно сказать кто это. Если указаны имя, фамилия, никнейм - вероятность правильной идентификации личности также высока. Даже если ничего из этого нет, но аккаунт имеет высокую активность в Telegram - его также часто можно идентифицировать. Для этого достаточно лишь сопоставить его цифровой след (посты, комментарии, подписки) из Telegram с другими соцсетями. А цифровой след - настолько уникальная штука, что легко укажет как же зовут этого анонима. Например, мои аккаунты в Telegram и Facebook можно легко сопоставить, зная лишь тот факт, что в обеих соцсетях я подписан на группу своего ЖК, Artellence и еще несколько уникальных групп с небольшим количеством подписчиков.

Хотите узнать о реальной жизни человека? Без пафоса Facebook и фильтров Instagram? Изучите его Telegram😎
#ai_from_inside - історії про те, як ми будуємо AI рішення в Artellence

Вже наприкінці квітня відбудеться знаковий реліз - вийде BigDataPeople 2.0, над яким уся наша команда працювала останні півроку! Він міститиме багато інноваційних рішень, і сьогодні хочу розповісти деякі технічні цікавинки про одне із них - пошук людини за фото.

1. Пошук. Ми розширюємо можливості пошуку за фото - відтепер в результатах можна буде побачити не лише перелік акаунтів, але й окремі фото, на яких могла бути зображена людина. Розмір пошукової бази вже скоро перетне позначку у 5 млрд. зображень, а швидкість роботи алгоритму - вимірюється у секундах!

2. Технологія. Це лише на перший погляд задачі пошуку акаунтів та окремих фото доволі схожі. На практиці - вони мають багато відмінностей.

Наприклад, головні складнощі для задачі пошуку акаунтів полягають у визначенні еталонного фото власника акаунту: фотографії дітей, другої половинки та… Кріштіану Роналду можуть зустрічатися набагато частіше за фото самого власника акаунту. І це далеко не поодинокі випадки!

А от для окремих фото постає питання порогових значень. Ось ця особа із напівприкритим та розвернутим убік обличчям - все ще цільова чи вже ні? Навіть людина, придивляючись, не може дати відповідь на це питання. А алгоритми можуть! Проаналізувавши великі дані, які асоційовані із зображенням, як от зв’язки акаунта, на якому було розміщено фото.

3. Фото дівчат. Бажаєте віднайти фото дівчини і не знаєте де їх шукати? Її власний акаунт? Акаунт другої половинки чи подруг? То є лише вершина айсбергу! Краще перевірте акаунти її улюблених салонів краси та фотостудій;)
#ai_from_inside - історії про те, як ми будуємо AI рішення в Artellence

На кінець цього тижня ми планували реліз нового модулю для BigDataPeople 2 на основі GPT. Часто даних, які можна знайти про профіль у соцмережах та інших відкритих джерелах, настільки багато, що проаналізувати вручну їх майже неможливо. От і виникла ідея для ще одного, дуже влучного застосування GPT - створити чат, в якому користувач міг би ставити свої питання і одразу отримувати на них точні відповіді, без необхідності годинами передивлятись пости, коментарі, фото, друзів...

Проте реліз вирішили відкласти. На початку тижня вийшла GPT-4o і ми спершу порівняли ефективність нової моделі із тими, що вже використовували. Наші результати:

1. Підтвердили твердження, які були оголошені авторами. Модель дійсно вдвічі дешевша, а, якщо врахувати, що вона краще у 1.5 рази вміє токенізувати необхідні нам вхідні дані, то економія виходить втричі у порівнянні із GPT-4 Turbo. Нова модель також працює у 2-3 рази швидше. Якщо попередня модель обробляла запит за 1-2 хвилини, то нова - близько 30 сек.

2. Додатково помітили, що GPT-4o краще вміє розуміти код. Ми передаємо вхідні дані у форматі xml, де передаються як самі дані, так і опис до них - їх тип, додаткові характеристики та пояснення - що це за дані. І якщо GPT-4 Turbo приблизно в 15% випадків помилялася і неправильно інтерпретувала, що це за тип даних та що з ними робити, то тепер рівень помилок впав десь до 5%.

3. Проте GPT-4o все ще не така універсальна. Якщо для більш конкретних питань ("оціни цей фактор", "розкажи ось про це") ця модель відпрацьовує найкраще, то з узагальнюючими питаннями ("вибери найголовніші фактори про профіль") більш точною є Claude 3 Opus. Вона, на відміну від GPT, краще розуміє що саме користувач хотів би почути, що могло б бути для нього важливо та цікаво.

Мікс GPT-4o та Claude 3 Opus у новому аналітичному модулі продукту вже наступного тижня стане доступним для наших користувачів. Stay tuned!