This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT обновили: теперь отчёты Deep Research можно сохранять и скачивать в формате красивого PDF.
В готовых «курсовых» сохраняются все ссылки, таблицы и картинки.
Форматирование остаётся безупречным: ничего не плывёт и не разваливается.
Просто нажимаем иконку «Поделиться» над статьей и выбираем «Скачать PDF».
Работает даже со старыми материалами от Deep Research.
Уже доступно всем платным подписчикам.
В готовых «курсовых» сохраняются все ссылки, таблицы и картинки.
Форматирование остаётся безупречным: ничего не плывёт и не разваливается.
Просто нажимаем иконку «Поделиться» над статьей и выбираем «Скачать PDF».
Работает даже со старыми материалами от Deep Research.
Уже доступно всем платным подписчикам.
Forwarded from BritLab
Охота за файлами в VK
Сегодня расскажу про "хитрушку" VK, которую активно обсуждали около 10 лет назад. Со временем о ней стали забывать, хотя она до сих пор не потеряла актуальности.
К сути
Уже много лет во «ВКонтакте» существует встроенный инструмент для поиска файлов, доступный каждому пользователю. Поиск по документам может открыть доступ к уникальным данным, которые не найти в обычных поисковиках.
Как это работает?
1️⃣ Переходим в раздел «Файлы» → vk.com/docs
2️⃣ Вводим запрос (например, «ответы на ЕГЭ 2025», «внутренние инструкции», «отчет 2024»)
3️⃣ PROFIT!
Из личного опыта:
В студенчестве с помощью этого метода я находил ответы на экзамены, которые загружал кто-то из предшествующих потоков.
Где пригодится?
Поиск учебных материалов, анализ цифрового следа, журналистские расследования, … — возможности огромны!
@ru_vm #BritLab #OSINT #ВК #Документы #Инструменты
Сегодня расскажу про "хитрушку" VK, которую активно обсуждали около 10 лет назад. Со временем о ней стали забывать, хотя она до сих пор не потеряла актуальности.
К сути
Уже много лет во «ВКонтакте» существует встроенный инструмент для поиска файлов, доступный каждому пользователю. Поиск по документам может открыть доступ к уникальным данным, которые не найти в обычных поисковиках.
Как это работает?
1️⃣ Переходим в раздел «Файлы» → vk.com/docs
2️⃣ Вводим запрос (например, «ответы на ЕГЭ 2025», «внутренние инструкции», «отчет 2024»)
3️⃣ PROFIT!
Из личного опыта:
В студенчестве с помощью этого метода я находил ответы на экзамены, которые загружал кто-то из предшествующих потоков.
Где пригодится?
Поиск учебных материалов, анализ цифрового следа, журналистские расследования, … — возможности огромны!
@ru_vm #BritLab #OSINT #ВК #Документы #Инструменты
Forwarded from BritLab
Охота за файлами в VK (часть 2)
Грустная новость: спустя месяц после моего поста о поиске файлов во ВКонтакте API сервиса изменилось. Теперь поиск работает только по вашим личным документам! Свет в той будке обрубили капитально, так что запросы к vk.com/docs для поиска информации стали бесполезными.
Но там, где закрывается одна дверь, открывается другая! 🚪
🔥 Новый способ (доступен только авторизованным пользователям)
Оказалось, что через vk.com/search/statuses можно искать посты с вложениями, включая файлы.
Как искать?
1️⃣ Выбираем фильтр «Вложения» → «Файл»
2️⃣ Вбиваем нужный запрос (например, «инструкция»)
3️⃣ Готово! Перед вами — все доступные посты, содержащие слово "инструкция" с прикреплёнными файлами.
Минусы
Нельзя искать по названию файла (только по тексту поста) из-за этого выдача стала менее точной
Плюсы
Работает не только с файлами, но и с другими типами вложений:
📷 Фото | 🎥 Видео | 🎧 Аудио | ✏️ Граффити | 📝 Заметки
📊 Опросы | 🔗 Ссылки | 🖼 Альбомы | 📰 Статьи
Пример (скрин с результатом прикреплен к посту):
https://vk.com/search/statuses?c[allow_dups]=1&c[attach]=8&c[per_page]=40&c[q]=инструкция
Дополнение
В фильтре можно указать геолокацию и искать посты только в нужном районе!
Как думаете, через сколько недель этот функционал прикроют? 😂
@ru_vm #BritLab #OSINT #ВК
Грустная новость: спустя месяц после моего поста о поиске файлов во ВКонтакте API сервиса изменилось. Теперь поиск работает только по вашим личным документам! Свет в той будке обрубили капитально, так что запросы к vk.com/docs для поиска информации стали бесполезными.
Но там, где закрывается одна дверь, открывается другая! 🚪
Оказалось, что через vk.com/search/statuses можно искать посты с вложениями, включая файлы.
Как искать?
1️⃣ Выбираем фильтр «Вложения» → «Файл»
2️⃣ Вбиваем нужный запрос (например, «инструкция»)
3️⃣ Готово! Перед вами — все доступные посты, содержащие слово "инструкция" с прикреплёнными файлами.
Минусы
Нельзя искать по названию файла (только по тексту поста) из-за этого выдача стала менее точной
Плюсы
Работает не только с файлами, но и с другими типами вложений:
📷 Фото | 🎥 Видео | 🎧 Аудио | ✏️ Граффити | 📝 Заметки
📊 Опросы | 🔗 Ссылки | 🖼 Альбомы | 📰 Статьи
Пример (скрин с результатом прикреплен к посту):
https://vk.com/search/statuses?c[allow_dups]=1&c[attach]=8&c[per_page]=40&c[q]=инструкция
В фильтре можно указать геолокацию и искать посты только в нужном районе!
Как думаете, через сколько недель этот функционал прикроют? 😂
@ru_vm #BritLab #OSINT #ВК
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from BritLab
Поиск в TGStat: что можно найти и стоит ли оно того?
TGStat — один из крупнейших каталогов Telegram-каналов и чатов с функцией поиска по публикациям. Но насколько этот поиск полезен? Давайте разбираться.
Как работает поиск в TGStat?
1️⃣ Вводите запрос — фразу, домен, номер телефона или часть текста.
2️⃣ Выбираете источник — каналы, чаты или всё сразу.
3️⃣ Настраиваете фильтры — период поиска, геолокацию, язык контента и т. д.
4️⃣ Получаете результаты — список публикаций, где встречается ваш запрос.
Важно: Бесплатно можно искать только по каналам и только за последние 7 дней. Полный доступ (все источники + архив) стоит 2940 ₽/мес.
Масштабы базы TGStat
Сервис заявляет, что в его базе есть информация о:
➖ 2+ млн каналов
➖ 224+ тыс. чатов (включая приватные)
➖ 45+ млрд публикаций
Эксперимент
Вчера мне в руки попал аккаунт с платной подпиской, и я решил проверить, насколько TGStat полезен для реальных задач.
После нескольких запросов стало понятно, что сервис индексирует в основном популярные каналы и чаты (неудивительно), поэтому большая часть выдачи — это информационный шум. Но кое-что полезное найти всё же можно.
Для себя я выделил следующие задачи, для которых инструмент может пригодиться:
1️⃣ Поиск по доменам. Можно обнаружить субдомены и прямые ссылки, которые не попали в обычные поисковики.
2️⃣ Поиск документов. Например, запрос «
3️⃣ Поиск плагиата. Вставляете фрагмент текста — находите, кто его копировал и когда.
4️⃣ Поиск по номеру телефона. Можно проверить, не "светился" ли ваш номер в проиндексированных Telegram-каналах и чатах.
⚠️ Минусы TGStat
➖Проблемы с большими запросами. Если искать что-то популярное (например, упоминания "Google") за длительный период (5+ лет), API может выдавать 500-ые ошибки.
➖Скудная выдача. Для базы в 45+ млрд публикаций результаты часто оказываются не такими уж впечатляющими. Возможно, я просто плохо искал, но ничего уникального найти не удалось.
Итог
TGStat — полезный инструмент для узких задач (поиск утечек, плагиата, контактов), но ждать от него "чудес" не стоит. Если у вас нет конкретной цели, платная подписка точно не окупится.
@ru_vm #BritLab #TGStat #Поиск #Аналитика #OSINT
TGStat — один из крупнейших каталогов Telegram-каналов и чатов с функцией поиска по публикациям. Но насколько этот поиск полезен? Давайте разбираться.
Как работает поиск в TGStat?
1️⃣ Вводите запрос — фразу, домен, номер телефона или часть текста.
2️⃣ Выбираете источник — каналы, чаты или всё сразу.
3️⃣ Настраиваете фильтры — период поиска, геолокацию, язык контента и т. д.
4️⃣ Получаете результаты — список публикаций, где встречается ваш запрос.
Важно: Бесплатно можно искать только по каналам и только за последние 7 дней. Полный доступ (все источники + архив) стоит 2940 ₽/мес.
Масштабы базы TGStat
Сервис заявляет, что в его базе есть информация о:
➖ 2+ млн каналов
➖ 224+ тыс. чатов (включая приватные)
➖ 45+ млрд публикаций
Эксперимент
Вчера мне в руки попал аккаунт с платной подпиской, и я решил проверить, насколько TGStat полезен для реальных задач.
После нескольких запросов стало понятно, что сервис индексирует в основном популярные каналы и чаты (неудивительно), поэтому большая часть выдачи — это информационный шум. Но кое-что полезное найти всё же можно.
Для себя я выделил следующие задачи, для которых инструмент может пригодиться:
1️⃣ Поиск по доменам. Можно обнаружить субдомены и прямые ссылки, которые не попали в обычные поисковики.
2️⃣ Поиск документов. Например, запрос «
https://docs.google.com/spreadsheets/d/» выдаст кучу публичных Google-таблиц — иногда там может встретиться весьма интересная информация.3️⃣ Поиск плагиата. Вставляете фрагмент текста — находите, кто его копировал и когда.
4️⃣ Поиск по номеру телефона. Можно проверить, не "светился" ли ваш номер в проиндексированных Telegram-каналах и чатах.
⚠️ Минусы TGStat
➖Проблемы с большими запросами. Если искать что-то популярное (например, упоминания "Google") за длительный период (5+ лет), API может выдавать 500-ые ошибки.
➖Скудная выдача. Для базы в 45+ млрд публикаций результаты часто оказываются не такими уж впечатляющими. Возможно, я просто плохо искал, но ничего уникального найти не удалось.
Итог
TGStat — полезный инструмент для узких задач (поиск утечек, плагиата, контактов), но ждать от него "чудес" не стоит. Если у вас нет конкретной цели, платная подписка точно не окупится.
@ru_vm #BritLab #TGStat #Поиск #Аналитика #OSINT
Forwarded from BritLab
Как искать ролики на YouTube по локации?
Недавно наткнулся на древнюю, но любопытную Google-таблицу с подборкой OSINT-инструментов.
Сразу привлёк внимание инструмент для поиска YouTube-видео по координатам: YouTube Geofind
Где может пригодиться?
1️⃣ Проверка достоверности информации
Если из одной локации поступают противоречивые данные, можно найти все видео с этого места и сравнить их.
2️⃣ Расследования и журналистика
Установление места съёмки: если видео якобы снято в Сирии, а координаты ведут в другую страну — это повод усомниться.
Поиск свидетелей: можно найти ролики, снятые рядом с местом события, и посмотреть, кто там был.
3️⃣ Кибербезопасность
Выявление фейков, где одно и то же видео выдают за съёмки из разных мест.
4️⃣ Краеведение
Анализ изменений локации: стройки, разрушения, природные катаклизмы — можно сравнить, как место выглядело раньше и сейчас.
Главный недостаток
➖ Не у всех видео есть привязка к геолокации (не вина инструмента)
Как сделать свой Youtube Geofind?
Ключевой принцип работы инструмента прост и завязан на YouTube API (документация).
Чтобы найти видео по координатам, достаточно одного запроса:
Где:
—
—
—
—
Пример запроса (все видео в радиусе 200 м от Красной площади, опубликованные после 00:00 9 мая 2025 года):
В ответ получаем JSON с найденными видео (пример на прилагаемом к посту скриншоте).
Метод поддерживает и другие параметры — подробнее в официальной документации.
Заключение
Важно помнить, что любые инструменты — лишь вспомогательные средства. Не стоит забывать о критическом мышлении и перекрёстной проверке.
Отдельно хочется поздравить всех с Днём Великой Победы! 🇷🇺
@ru_vm #BritLab #OSINT #YouTube #Геопоиск
Недавно наткнулся на древнюю, но любопытную Google-таблицу с подборкой OSINT-инструментов.
Сразу привлёк внимание инструмент для поиска YouTube-видео по координатам: YouTube Geofind
Где может пригодиться?
1️⃣ Проверка достоверности информации
Если из одной локации поступают противоречивые данные, можно найти все видео с этого места и сравнить их.
2️⃣ Расследования и журналистика
Установление места съёмки: если видео якобы снято в Сирии, а координаты ведут в другую страну — это повод усомниться.
Поиск свидетелей: можно найти ролики, снятые рядом с местом события, и посмотреть, кто там был.
3️⃣ Кибербезопасность
Выявление фейков, где одно и то же видео выдают за съёмки из разных мест.
4️⃣ Краеведение
Анализ изменений локации: стройки, разрушения, природные катаклизмы — можно сравнить, как место выглядело раньше и сейчас.
Главный недостаток
Как сделать свой Youtube Geofind?
Ключевой принцип работы инструмента прост и завязан на YouTube API (документация).
Чтобы найти видео по координатам, достаточно одного запроса:
https://www.googleapis.com/youtube/v3/search?part=snippet&type=video&location={latitude}2C{longitude}&locationRadius={radius}&publishedAfter={publishedAfter}&key={API_KEY}
Где:
—
latitude и longitude - широта и долгота;—
radius - радиус—
publishedAfter - значение даты и времени в формате RFC 3339 (1970-01-01T00:00:00Z), которое указывает, что ответ API должен содержать только видео, созданные в указанное время или после него—
API_KEY - ваш API-ключ, который можно получить через Google ConsoleПример запроса (все видео в радиусе 200 м от Красной площади, опубликованные после 00:00 9 мая 2025 года):
https://www.googleapis.com/youtube/v3/search?part=snippet&type=video&location=55.7539%2C37.6208&locationRadius=200m&publishedAfter=2025-05-09T00:00:00Z&key=<ваш API-ключ>
В ответ получаем JSON с найденными видео (пример на прилагаемом к посту скриншоте).
Метод поддерживает и другие параметры — подробнее в официальной документации.
Заключение
Важно помнить, что любые инструменты — лишь вспомогательные средства. Не стоит забывать о критическом мышлении и перекрёстной проверке.
Отдельно хочется поздравить всех с Днём Великой Победы! 🇷🇺
@ru_vm #BritLab #OSINT #YouTube #Геопоиск
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from BritLab
Если твоё резюме не нашёл ни один OSINT-специалист —
значит, ты плохо искал работу
Пару лет назад ко мне обратился одногруппник за помощью. Ему нужно было провести аналитику по вакансиям с hh.ru для написания научной работы, но он не знал, как собрать данные. Оказалось, всё довольно просто — у HeadHunter есть открытый API, где за деньги можно получить тонны данных: резюме соискателей, информацию о компаниях, вакансии конкурентов и многое другое.
Но кое-что можно вытащить и бесплатно:
✅ Информацию о вакансиях
✅ Информацию о компаниях
Документация
Полный список API-методов — https://github.com/hhru/api
Как это сделать?
Для примера покажу, как извлекать содержимое вакансий, которые опубликованы на текущий момент. Например, чтобы получить вакансии Яндекса можно использовать следующий запрос:
Где:
-
-
Но есть ограничение: бесплатно можно получить не более 2000 вакансий из одного запроса.
💡 Как обойти лимит в 2000 вакансий?
Можно разбить запросы по дополнительным параметрам. Например, добавить фильтр по профессиональным ролям (параметр
Допустим, что у Яндекса (
Затем перебираем все доступные значения параметров professional_role (полный список ролей) и page. Перебор параметров позволяет собрать все данные, поскольку для каждой роли в компании вряд ли будет больше 2000 открытых вакансий. Если же такая ситуация когда-нибудь возникнет, то можно добавить дополнительные параметры фильтрации, которые аналогично будут перебираться в процессе сбора.
Зачем это нужно?
1️⃣ Разведка технологий компаний
→ Вакансии часто содержат стек технологий (полезно для IT-специалистов, пентестеров и маркетологов).
2️⃣ Подготовка к собеседованию
→ Собрать требования из вакансий, передать их AI (вместе с имеющимися у вас навыками) — получить идеальное резюме под конкретную компанию.
3️⃣ Сравнение профессий
→ Хотите выбрать между двумя специальностями? Можно сравнить, какая чаще встречается и лучше оплачивается (хотя зарплаты в вакансиях указывают не всегда).
4️⃣ Анализ рынка труда
→ Исследовать тренды, зарплатные вилки, востребованные навыки.
#BritLab #HeadHunter #API #Парсинг #Аналитика
значит, ты плохо искал работу
Пару лет назад ко мне обратился одногруппник за помощью. Ему нужно было провести аналитику по вакансиям с hh.ru для написания научной работы, но он не знал, как собрать данные. Оказалось, всё довольно просто — у HeadHunter есть открытый API, где за деньги можно получить тонны данных: резюме соискателей, информацию о компаниях, вакансии конкурентов и многое другое.
Но кое-что можно вытащить и бесплатно:
✅ Информацию о вакансиях
✅ Информацию о компаниях
Документация
Полный список API-методов — https://github.com/hhru/api
Как это сделать?
Для примера покажу, как извлекать содержимое вакансий, которые опубликованы на текущий момент. Например, чтобы получить вакансии Яндекса можно использовать следующий запрос:
https://api.hh.ru/vacancies?employer_id=1740&page=1Где:
-
employer_id — ID компании (можно найти в URL страницы работодателя, например: https://hh.ru/employer/1740 — значит, ID = 1740)-
page — номер страницы (по умолчанию API отдаёт по 100 вакансий за раз)Но есть ограничение: бесплатно можно получить не более 2000 вакансий из одного запроса.
💡 Как обойти лимит в 2000 вакансий?
Можно разбить запросы по дополнительным параметрам. Например, добавить фильтр по профессиональным ролям (параметр
professional_role).Допустим, что у Яндекса (
employer_id=1740) имеется 3000 вакансий. Чтобы получить их все, добавим фильтр по роли (например, "Программист" — professional_role=96):https://api.hh.ru/vacancies?employer_id=1740&professional_role=96&page=1Затем перебираем все доступные значения параметров professional_role (полный список ролей) и page. Перебор параметров позволяет собрать все данные, поскольку для каждой роли в компании вряд ли будет больше 2000 открытых вакансий. Если же такая ситуация когда-нибудь возникнет, то можно добавить дополнительные параметры фильтрации, которые аналогично будут перебираться в процессе сбора.
Зачем это нужно?
1️⃣ Разведка технологий компаний
→ Вакансии часто содержат стек технологий (полезно для IT-специалистов, пентестеров и маркетологов).
2️⃣ Подготовка к собеседованию
→ Собрать требования из вакансий, передать их AI (вместе с имеющимися у вас навыками) — получить идеальное резюме под конкретную компанию.
3️⃣ Сравнение профессий
→ Хотите выбрать между двумя специальностями? Можно сравнить, какая чаще встречается и лучше оплачивается (хотя зарплаты в вакансиях указывают не всегда).
4️⃣ Анализ рынка труда
→ Исследовать тренды, зарплатные вилки, востребованные навыки.
#BritLab #HeadHunter #API #Парсинг #Аналитика
Forwarded from BritLab
Как автоматизировать распознавание текста с изображений?
В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.
Раньше в моём арсенале был только pytesseract (Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:
➖Плохо справлялась с разными шрифтами
➖Теряла точность на низкокачественных изображениях
➖Путала языки, если текст был мультиязычным
Сейчас появились LLM-модели, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.
В профильных каналах регулярно пишут: «Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!», но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.
Обзор моделей для OCR
Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:
1️⃣ GPT-4 mini — высокая точность, но платная.
2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.
Выбор без раздумий пал на Gemini. На момент публикации бесплатные лимиты от Google следующие:
✔️ 15 запросов в минуту
✔️ 1 млн токенов в минуту (ввод + вывод)
✔️ 1 500 запросов в сутки
Но есть важный нюанс: сервис не работает с российскими IP
Как взаимодействовать с Gemini?
1️⃣ Получаем API-ключ в Google AI Studio
2️⃣ Через API отправляем изображение в base64 + промпт
3️⃣ Получаем распознанный текст в ответе
Что делать, если Gemini недоступна?
Если у вас по какой-то причине нет возможности получить доступ к серверам Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, DeepInfra.
Плюсы:
✔️ Нет блокировок по геолокации
✔️ Гибкая тарификация
Минусы:
✖️ Нет бесплатного тарифа
Как заведено в BritLab, к посту прилагаю репозиторий с примерами скриптов для работы с Gemini и DeepInfra. Результаты работы скриптов — скриншот с исходным изображением и распознанным текстом — можно увидеть в заголовке поста (оба метода показали отличные результаты).
Разбор реального кейса
Представьте, что у вас есть PDF с текстом на иностранном языке. Вам нужно извлечь текст и перевести его на другой язык. Как это сделать?
1️⃣ Разбиваем PDF на страницы и конвертируем каждую в изображение
2️⃣ С помощью Gemini извлекаем весь текст с изображений
3️⃣ Загружаем текст в другую модель, которая заточена на перевод
4️⃣ Получаем текст на нужном языке
5️⃣ Загружаем результат в БД
6️⃣ PROFIT
Связка OCR + LLM открывает огромные возможности. Экспериментируйте)
#AI #Automation #LLM #Python #OCR
В открытых источниках часто встречаются изображения с ценным текстом — скриншоты рабочих столов и приложений, фотографии таблиц, чеков, рукописных заметок и т.д. Сбор обычного текста автоматизировать легко, но с текстом на картинках начинаются сложности.
Раньше в моём арсенале был только pytesseract (Python-библиотека для распознавания текста). Она работала, но с серьёзными ограничениями:
➖Плохо справлялась с разными шрифтами
➖Теряла точность на низкокачественных изображениях
➖Путала языки, если текст был мультиязычным
Сейчас появились LLM-модели, которые справляются с этой задачей гораздо лучше, но если у вас нет мощного железа, запустить их локально не получится.
В профильных каналах регулярно пишут: «Вышла модель Х, которая показывает отличные результаты. OSINT-еры больше не нужны!», но никто не дает гайдов, как с этими моделями работать. Сегодня я это исправлю.
Обзор моделей для OCR
Прошерстив не один десяток источников, я выделил две наиболее популярные на текущий момент модели:
1️⃣ GPT-4 mini — высокая точность, но платная.
2️⃣ Google Gemini 2.0 Flash — высокая точность + бесплатный лимит.
Выбор без раздумий пал на Gemini. На момент публикации бесплатные лимиты от Google следующие:
✔️ 15 запросов в минуту
✔️ 1 млн токенов в минуту (ввод + вывод)
✔️ 1 500 запросов в сутки
Но есть важный нюанс: сервис не работает с российскими IP
Как взаимодействовать с Gemini?
1️⃣ Получаем API-ключ в Google AI Studio
2️⃣ Через API отправляем изображение в base64 + промпт
3️⃣ Получаем распознанный текст в ответе
Что делать, если Gemini недоступна?
Если у вас по какой-то причине нет возможности получить доступ к серверам Google AI Studio, то можно воспользоваться сервисами, которые предоставляют доступ к различным open-source моделям. Например, DeepInfra.
Плюсы:
✔️ Нет блокировок по геолокации
✔️ Гибкая тарификация
Минусы:
✖️ Нет бесплатного тарифа
Как заведено в BritLab, к посту прилагаю репозиторий с примерами скриптов для работы с Gemini и DeepInfra. Результаты работы скриптов — скриншот с исходным изображением и распознанным текстом — можно увидеть в заголовке поста (оба метода показали отличные результаты).
Разбор реального кейса
Представьте, что у вас есть PDF с текстом на иностранном языке. Вам нужно извлечь текст и перевести его на другой язык. Как это сделать?
1️⃣ Разбиваем PDF на страницы и конвертируем каждую в изображение
2️⃣ С помощью Gemini извлекаем весь текст с изображений
3️⃣ Загружаем текст в другую модель, которая заточена на перевод
4️⃣ Получаем текст на нужном языке
5️⃣ Загружаем результат в БД
6️⃣ PROFIT
Связка OCR + LLM открывает огромные возможности. Экспериментируйте)
#AI #Automation #LLM #Python #OCR
ЦБ сделал веб-сервис для получения по API данных о компаниях с выявленными признаками нелегальной деятельности на финансовом рынке.
Сервис предоставляет данные в структурированном виде (JSON).
Детальная информация по составу и структуре сервиса описана в Open API 3.0.
Банки, например, смогут автоматизировать отказ в платежах в адрес структур, которые есть в списке.
Подробнее:
↘️ https://cbr.ru/development/warning-list/
...
Сервис предоставляет данные в структурированном виде (JSON).
Детальная информация по составу и структуре сервиса описана в Open API 3.0.
Банки, например, смогут автоматизировать отказ в платежах в адрес структур, которые есть в списке.
Подробнее:
↘️ https://cbr.ru/development/warning-list/
...
cbr.ru
Веб-сервис для получения данных о компаниях с выявленными признаками нелегальной деятельности на финансовом рынке | Банк России
Джон Кармак: мы все могли бы работать на старом компьютерном оборудовании, если бы оптимизация ПО была приоритетом #habr
https://habr.com/ru/news/909152/
Tags: кармак, оптимизация поставок
https://habr.com/ru/news/909152/
Tags: кармак, оптимизация поставок
Хабр
Джон Кармак: мы все могли бы работать на старом компьютерном оборудовании, если бы оптимизация ПО была приоритетом
Легендарный разработчик культовых игр Джон Кармак рассказал , что мы не так уж зависимы от передовых компьютерных разработок, как предполагает большинство, но у нас...
Взлом ИИ-асситентов. Абсолютный контроль: выдаём разрешение от имени системы #habr
https://habr.com/ru/articles/909188/
Tags: llm, chatgpt, исскуственный интеллект, ии, взлом, gemini, gemini flash
Author: Parcevale
https://habr.com/ru/articles/909188/
Tags: llm, chatgpt, исскуственный интеллект, ии, взлом, gemini, gemini flash
Author: Parcevale
Хабр
Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы (Gemini, DeepSeek, ChatGPT...)
Немного теории ChatGPT рассказал мне что все сообщения для модели выглядят как простой текст, будь то системные или пользовательские. Он же и подготовил мне такой пример, где часть запроса модель...
Сделали copilot-сервис для техподдержки и делимся секретами RAG c глубоким пониманием контекста #habr
https://habr.com/ru/companies/yandex/articles/908972/
Tags: яндекс, machine learning, поддержка пользователей, gpt, yagpt, servicedesk, helpdesk, умный ассистент, support team
Author: Marchello00 (Яндекс, Yandex Cloud & Yandex Infrastructure)
https://habr.com/ru/companies/yandex/articles/908972/
Tags: яндекс, machine learning, поддержка пользователей, gpt, yagpt, servicedesk, helpdesk, умный ассистент, support team
Author: Marchello00 (Яндекс, Yandex Cloud & Yandex Infrastructure)
Хабр
Сделали copilot-сервис для техподдержки и делимся секретами RAG c глубоким пониманием контекста
Сегодня мы запускаем Yandex Neurosupport — сервис, который генерирует умные подсказки для операторов контакт‑центра. Он выполняет функции второго пилота: нейросеть анализирует текстовые...
BookStack: мой опыт настройки и использования open-source базы знаний #habr
https://habr.com/ru/articles/909222/
Tags: база знаний, open-source
Author: Project-2501
https://habr.com/ru/articles/909222/
Tags: база знаний, open-source
Author: Project-2501
Хабр
BookStack: мой опыт настройки и использования open-source базы знаний
Почему я выбрал именно BookStack Мы в команде давно искали удобный инструмент для хранения технической документации и инструкций. Пробовали всё подряд — от Wiki.js до Confluence. Но то санкции, то...
Защищенное хранение резервных копий #habr
https://habr.com/ru/articles/909058/
Tags: резервное копирование, защита данных, резервные копии, хранение данных
Author: Cyberprotect
https://habr.com/ru/articles/909058/
Tags: резервное копирование, защита данных, резервные копии, хранение данных
Author: Cyberprotect
Хабр
Защищенное хранение резервных копий
В этом обзоре расскажем о проблематике защиты резервных копий, возможных вариантах реализации такой защиты, а также о совместном решении компаний Киберпротект и АМТ‑ГРУП,...
Иммутабельность в ООП — что ты такое? #habr
https://habr.com/ru/articles/909228/
Tags: иммутабельность, ооп
Author: apolon13
https://habr.com/ru/articles/909228/
Tags: иммутабельность, ооп
Author: apolon13
Как научить ИИ обслуживать клиентов не хуже человека? #habr
https://habr.com/ru/companies/alfa/articles/904028/
Tags: искусственный интеллект, поддержка клиентов, машинное+обучение
Author: smirnovevgeny (Альфа-Банк)
https://habr.com/ru/companies/alfa/articles/904028/
Tags: искусственный интеллект, поддержка клиентов, машинное+обучение
Author: smirnovevgeny (Альфа-Банк)
Подборка для ML-инженера: как прокачаться джуниору #habr
https://habr.com/ru/companies/yandex_praktikum/articles/901432/
Tags: машинное обучение, ml, machinelearning, machine learning, ml-инженер
Author: TroyMan (Яндекс Практикум)
https://habr.com/ru/companies/yandex_praktikum/articles/901432/
Tags: машинное обучение, ml, machinelearning, machine learning, ml-инженер
Author: TroyMan (Яндекс Практикум)
Хабр
Подборка для ML-инженера: как прокачаться джуниору
Привет! Меня зовут Антон Моргунов, я инженер МО в «Базис.Центре» и программный эксперт курса «Инженер машинного обучения» в Яндекс Практикуме. В этой статье я поделюсь бесплатными мини-курсами,...
Модели рассуждений в ИИ: от предварительного обучения к автономному мышлению #habr
https://habr.com/ru/companies/bothub/news/908888/
Tags: ии, ии и машинное обучение, llm, ии-модели, openai, модели рассуждений, автономность, agi
https://habr.com/ru/companies/bothub/news/908888/
Tags: ии, ии и машинное обучение, llm, ии-модели, openai, модели рассуждений, автономность, agi
Хабр
Модели рассуждений в ИИ: от предварительного обучения к автономному мышлению
Якуб Пачоцки, возглавляющий разработку передовых моделей в OpenAI, говорит, что способность ИИ самостоятельно генерировать знания знаменует собой поворотный момент для бизнеса и исследований. По...
Как искусственный интеллект допиливал интеграцию 1С и «Битрикс24» #habr
https://habr.com/ru/companies/w_code/articles/909254/
Tags: ии, chatgpt, искусственный интеллект, интеграция, интеграция сервисов, интеграция с 1с
Author: SergeySkirdin (ИТ-интегратор Белый код)
https://habr.com/ru/companies/w_code/articles/909254/
Tags: ии, chatgpt, искусственный интеллект, интеграция, интеграция сервисов, интеграция с 1с
Author: SergeySkirdin (ИТ-интегратор Белый код)
Хабр
Как искусственный интеллект допиливал интеграцию 1С и «Битрикс24»
На связи Сергей Скирдин, технический директор ИТ-интегратора «Белый код». На майских праздниках, как водится, собрались на шашлыки, за шашлыками много обсуждали искусственный интеллект. В результате...
Kubernetes в продакшене: основные понятия и вопросы на собеседовании #habr
https://habr.com/ru/articles/909260/
Tags: kubernetes, interview, devops, cicd, k8s, собеседование вопросы, собеседование в it
Author: AppFox_Team
https://habr.com/ru/articles/909260/
Tags: kubernetes, interview, devops, cicd, k8s, собеседование вопросы, собеседование в it
Author: AppFox_Team
Хабр
Kubernetes в продакшене: основные понятия и вопросы на собеседовании
Меня зовут Александр, я CTO компании AppFox. Мы более 10 лет занимаемся заказной разработкой и также имеем собственные продукты. В этой статье мы рассмотрим, что такое Kubernetes, в каких случаях его...
Выпуск Nobara 42, редакции Fedora с патчами для игр и обработки контента #opennet
https://www.opennet.ru/opennews/art.shtml?num=63234
Опубликован выпуск дистрибутива Nobara 42, основанного на пакетной базе Fedora Linux 42 и включающего дополнительные исправления для решения проблем с запуском компьютерных игр, потоковым вещанием и выполнением задач, связанных с созданием контента. Для загрузки подготовлены девять установочных образов: официальный со стилизованным KDE, дополнительные с чистыми окружениями GNOME и KDE, Steam-HTPC для Steam Deck на базе KDE и Steam-Handheld для носимых устройств, а также отдельные сборки первых четырёх образов с проприетарными драйверами NVIDIA.
https://www.opennet.ru/opennews/art.shtml?num=63234
Опубликован выпуск дистрибутива Nobara 42, основанного на пакетной базе Fedora Linux 42 и включающего дополнительные исправления для решения проблем с запуском компьютерных игр, потоковым вещанием и выполнением задач, связанных с созданием контента. Для загрузки подготовлены девять установочных образов: официальный со стилизованным KDE, дополнительные с чистыми окружениями GNOME и KDE, Steam-HTPC для Steam Deck на базе KDE и Steam-Handheld для носимых устройств, а также отдельные сборки первых четырёх образов с проприетарными драйверами NVIDIA.