Різдвяна казочка.
Всі пишуть про ітоги, а я розкажу, що зі мною сталося в цьому році, що залишило незабутний слід та змінило мене.
Минулого Різдва я був на скелелазінні та щось собі пошкодив. Десь 2 місяці в мене боліла спина, а в березні я вже не зміг встати. Боліла спина, нога та все тіло. Дмитро Бондар казав, що покоління сеошників старіє, так воно і є ))
В березні я не міг ходити, не міг сидіти, не міг лежати. Кожні 2 години приймав знеболювальне. По квартирі совався якось, літерою Г, бо не міг розігнутись. Коли потрібно було проводити стріми, я вимикав камеру, бо не міг сидіти прямо. Думав, через пару днів пройде і піду в лікарню. Але хрін там. Працювати також особо не міг, реклама допомогала. Дякую, що терпіли всі ці рекламні пости і не відписувались ))
Десь за місяць до цього мене запросили на конференцію, вже купували всі квитки та забронювали гостиницю. Я такий думаю, ну за 2 тижні я маю поправитись, все буде норм. Але хрін там. Я не ходив десь 2 місяці. На скріні моя статистика по крокам щомісяця. В березені я ходив в середньому ~200 кроків на добу. Раз мене забирала швидка, бо я втратив свідомість.
Перерив весь ютуб, щоб зрозуміти, що зі мною не так. Плакав, коли дивився відео людей, які розповідали про себе. Ти їх розумієш тільки коли сам зіштовхуєся з подібною ситуацією.
Зрозумів, що проблема в мене в м'язах. Сидяча робота сеошника роками, додаткове перенапруження в спорті і капець. Не буду вдаватись в деталі, скажу тільки, що почав робити різні вправи. Перепробував багато чого з вправ. По ітогу дуже допомогли прокатування на тенісному м'ячику, прогрівання та розтяжки. В мене дома з'явився спортивний куточок, де я періодично роблю різні вправи.
За декілька місяців майже повністю відновився. Аж не віриться. Так приємно ходити прямо, та і взагалі ходити, нагинатися без болю, підніматися сходами... За цей період було над чим поміркувати та переосмислити.
Наразі зі мною все добре. Чого і вам бажаю!
Хай у вас все буде добре. Гарного Різдва!
Всі пишуть про ітоги, а я розкажу, що зі мною сталося в цьому році, що залишило незабутний слід та змінило мене.
Минулого Різдва я був на скелелазінні та щось собі пошкодив. Десь 2 місяці в мене боліла спина, а в березні я вже не зміг встати. Боліла спина, нога та все тіло. Дмитро Бондар казав, що покоління сеошників старіє, так воно і є ))
В березні я не міг ходити, не міг сидіти, не міг лежати. Кожні 2 години приймав знеболювальне. По квартирі совався якось, літерою Г, бо не міг розігнутись. Коли потрібно було проводити стріми, я вимикав камеру, бо не міг сидіти прямо. Думав, через пару днів пройде і піду в лікарню. Але хрін там. Працювати також особо не міг, реклама допомогала. Дякую, що терпіли всі ці рекламні пости і не відписувались ))
Десь за місяць до цього мене запросили на конференцію, вже купували всі квитки та забронювали гостиницю. Я такий думаю, ну за 2 тижні я маю поправитись, все буде норм. Але хрін там. Я не ходив десь 2 місяці. На скріні моя статистика по крокам щомісяця. В березені я ходив в середньому ~200 кроків на добу. Раз мене забирала швидка, бо я втратив свідомість.
Перерив весь ютуб, щоб зрозуміти, що зі мною не так. Плакав, коли дивився відео людей, які розповідали про себе. Ти їх розумієш тільки коли сам зіштовхуєся з подібною ситуацією.
Зрозумів, що проблема в мене в м'язах. Сидяча робота сеошника роками, додаткове перенапруження в спорті і капець. Не буду вдаватись в деталі, скажу тільки, що почав робити різні вправи. Перепробував багато чого з вправ. По ітогу дуже допомогли прокатування на тенісному м'ячику, прогрівання та розтяжки. В мене дома з'явився спортивний куточок, де я періодично роблю різні вправи.
За декілька місяців майже повністю відновився. Аж не віриться. Так приємно ходити прямо, та і взагалі ходити, нагинатися без болю, підніматися сходами... За цей період було над чим поміркувати та переосмислити.
Наразі зі мною все добре. Чого і вам бажаю!
Хай у вас все буде добре. Гарного Різдва!
1❤176👍17😢1
Зараз працюю з ембеддінгами, використовуючі API OpenAI та Gemini. Розкажу про деякі нюанси, про які вам варто знати.
У Gemini класний API, але судячи по вихідному коду, це обкладенка для їх Vertext AI, а не окремий API.
Плюси в тому, що можна задати тип задачі для ембеддінгу, під яку він буде оптимізований (класифікація, пошук, семантична близькість, факт-чекінг тощо). Текст можна розбивати на чанки та надсилати одразу чанками. Все обробляється доволі швидко.
Google мені всім подобається, але є нюанс по цінам та токенам.
Gemini Embeddings — 15 центів за 1 млн. токенів
Ліміт документу — 2048 токенів
При batch запитах не більше 100 одночасних
OpenAI Embeddings — 13 центів за 1млн. токенів
Ліміт документу — 8192 токенів
Може містити 50 000 реквестів при батч запитах
Тобто, у ChatGPT робота з ембеддінгами виходе дешевше, плюс кращі ліміти. Єдине що підкупає в Gemini, то що ми оптимізуємо тексти під Google, а не під ChatGPT )) все таки в них різні вектори на виході.
Моделі по-різному сприймають синоніми, довгі фрази, контекстуальні залежності. Можуть відкидати стоп-слова по-різному. Все це буде впливати на косинусну близькість. "SEO optimization" та "search engine ranking" будуть мати різні відстані в embedding space у GPT та Gemini. Чисто під SEO задачи обирав би гугл. Плюс гугл розуміє/обробляє набагато більше мов ніж ChatGPT.
Ще одна думка. Так як у Google меньше ліміти на вході (в 4 рази), можливо він (коли працює сам з векторами) при аналізі сторінок разбиває їх на невелику кількість чанків. Сторінка може містити 10-15 тис. токенів (без HTML коду), буває і більше. А на вхід оцінки (створення вектору) йде тільки 2000. То ж, робити велику кількість контенту для SEO немає сенсу. Треба знайти якийсь патент, як саме гугл розбиває контент на чанки, думаю це буде корисно.
Ось такі думки. Хто працює з ембеддінгами, розкажіть, який API використовуєте?
У Gemini класний API, але судячи по вихідному коду, це обкладенка для їх Vertext AI, а не окремий API.
Плюси в тому, що можна задати тип задачі для ембеддінгу, під яку він буде оптимізований (класифікація, пошук, семантична близькість, факт-чекінг тощо). Текст можна розбивати на чанки та надсилати одразу чанками. Все обробляється доволі швидко.
Google мені всім подобається, але є нюанс по цінам та токенам.
Gemini Embeddings — 15 центів за 1 млн. токенів
Ліміт документу — 2048 токенів
При batch запитах не більше 100 одночасних
OpenAI Embeddings — 13 центів за 1млн. токенів
Ліміт документу — 8192 токенів
Може містити 50 000 реквестів при батч запитах
Тобто, у ChatGPT робота з ембеддінгами виходе дешевше, плюс кращі ліміти. Єдине що підкупає в Gemini, то що ми оптимізуємо тексти під Google, а не під ChatGPT )) все таки в них різні вектори на виході.
Моделі по-різному сприймають синоніми, довгі фрази, контекстуальні залежності. Можуть відкидати стоп-слова по-різному. Все це буде впливати на косинусну близькість. "SEO optimization" та "search engine ranking" будуть мати різні відстані в embedding space у GPT та Gemini. Чисто під SEO задачи обирав би гугл. Плюс гугл розуміє/обробляє набагато більше мов ніж ChatGPT.
Ще одна думка. Так як у Google меньше ліміти на вході (в 4 рази), можливо він (коли працює сам з векторами) при аналізі сторінок разбиває їх на невелику кількість чанків. Сторінка може містити 10-15 тис. токенів (без HTML коду), буває і більше. А на вхід оцінки (створення вектору) йде тільки 2000. То ж, робити велику кількість контенту для SEO немає сенсу. Треба знайти якийсь патент, як саме гугл розбиває контент на чанки, думаю це буде корисно.
Ось такі думки. Хто працює з ембеддінгами, розкажіть, який API використовуєте?
👍10❤4
Через 15 хв. останній в цьому році SEO-стрім! Під'єднуйтесь, хто ще працює )
https://www.youtube.com/watch?v=M01ZTHNc4f4
https://www.youtube.com/watch?v=M01ZTHNc4f4
YouTube
SEO Подкаст #154 | SEO новини 22-26 грудня 2025
Щосереди о 19-30 обговорюємо SEO новини за тиждень!
Спонсор SEO підкасту - Netwall Hosting - хостинг для SEO без DMCA та блокувань
Створений спеціально для SEO-проєктів, де важливі стабільність, безпека та незалежність.
Знижка 50% на перший місяць за промокодом…
Спонсор SEO підкасту - Netwall Hosting - хостинг для SEO без DMCA та блокувань
Створений спеціально для SEO-проєктів, де важливі стабільність, безпека та незалежність.
Знижка 50% на перший місяць за промокодом…
❤6
Тільки дізнався, що в ChatGPT є своя академія. Запустили на початку року, тільки зараз наповнили контентом та активно піарять. Там є статті, вебінари та навіть форум.
https://academy.openai.com/
Виглядає цікаво та перспективно для продукту, але поки що з невеликою цінністю для користувачів. Наразі вируситься гілка з готовими для роботи промптами
https://academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c
Пішов вивчати. Поділюсь своїми думками.
— Для SEO тут нічого немає.
З близького це для маркетингу або IT.
— Промпти дуже прості.
Виглядають, як згенеровані самим ChatGPT.
— Ну і всі англійською мовою.
Не знаю, чому люди діляться сюди лінками. Можливо, то заказні пости, а можливо просто немає інших інфоприводів.
Самі статті оптимізовани чисто під SEO ключі
- chatgpt for [marketing | sales | product | it | finance | hr ...]
Якщо ви такі статті будете публікувати у себе, Google накладе фільтр при Helpful Content Update, але у OpenAI це працює, тому що бренд :) та норм лінки. Наразі вони топ1 по всім цим запитам.
https://academy.openai.com/
Виглядає цікаво та перспективно для продукту, але поки що з невеликою цінністю для користувачів. Наразі вируситься гілка з готовими для роботи промптами
https://academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c
Пішов вивчати. Поділюсь своїми думками.
— Для SEO тут нічого немає.
З близького це для маркетингу або IT.
— Промпти дуже прості.
Виглядають, як згенеровані самим ChatGPT.
— Ну і всі англійською мовою.
Не знаю, чому люди діляться сюди лінками. Можливо, то заказні пости, а можливо просто немає інших інфоприводів.
Самі статті оптимізовани чисто під SEO ключі
- chatgpt for [marketing | sales | product | it | finance | hr ...]
Якщо ви такі статті будете публікувати у себе, Google накладе фільтр при Helpful Content Update, але у OpenAI це працює, тому що бренд :) та норм лінки. Наразі вони топ1 по всім цим запитам.
👍8❤2
Цікаво, що на різних моїх аккаунтах Google різні можливості в Google Search Console. На основному є AI фільтр, на додатковому є тільки групування даних графіка (з останіх фічей).
Ні там ні там поки що немає фільтрації по бреновим запитам. Мабуть, все поступово розкатують на різні аккаунти.
Поки що перемикаюсь між аккаунтами, коли потрібна якась певна функція консолі ))
Ні там ні там поки що немає фільтрації по бреновим запитам. Мабуть, все поступово розкатують на різні аккаунти.
Поки що перемикаюсь між аккаунтами, коли потрібна якась певна функція консолі ))
✍7👍3🌭3
В які дні працюєте наступного тижня?
Anonymous Poll
71%
29 грудня
66%
30 грудня
39%
✨ 31 грудня
12%
🎄 1 січня
46%
2 січня
28%
☕️ 3 січня
30%
☕️ 4 січня
16%
Поки що не знаю
😢8👍2
Свіжі подкасти з відомими SEO, прямо з новорічної сковорідочки. Дуже рекомендую послухати (англ. мовою).
Лілі Рей. Чому сайти втрачають позиції або проблема "переоптимізації"
https://www.youtube.com/watch?v=zjlAVsjwe4E
Шон Андерсон. Гугл не брехав, що нам розказують витоки даних
https://www.youtube.com/watch?v=tYObbKZS-zA
Лілі Рей. Чому сайти втрачають позиції або проблема "переоптимізації"
https://www.youtube.com/watch?v=zjlAVsjwe4E
Шон Андерсон. Гугл не брехав, що нам розказують витоки даних
https://www.youtube.com/watch?v=tYObbKZS-zA
YouTube
Why Sites Lose Rankings: The 'Too Much SEO' Problem with Lily Ray
Get Your Free SEO Audit and 30 mins consultation at https://www.pagetraffic.com/request-quote.php
Is your SEO strategy doing more harm than good? Watch this game-changing video to discover why too much SEO could be killing your rankings and learn actionable…
Is your SEO strategy doing more harm than good? Watch this game-changing video to discover why too much SEO could be killing your rankings and learn actionable…
🔥5
🔍 SEO Check-up з Devaka
30 грудня | 19:00-22:00 | онлайн (Google Meet)
Проведу живий SEO check-up сайтів — формат прожарки: швидкий, прямий розбір із поглядом на сайт іншими очима. Може бути трохи боляче, але максимально корисно.
Ідеально для власників бізнесу та seo-спеціалістів, яким важливо мати незалежний експертний погляд на сайт і його потенціал росту. Отримати практичні рекомендації.
- Ліміт до 15 учасників
- Вартість 5000 грн
Формат платний, тому що створений для бізнесів та практикуючих SEO, де прожарка сайтів це інструмент прийняття рішень.
Реєстрація за посиланням:
https://forms.gle/hic4oWiyPTMUr5GT7
30 грудня | 19:00-22:00 | онлайн (Google Meet)
Проведу живий SEO check-up сайтів — формат прожарки: швидкий, прямий розбір із поглядом на сайт іншими очима. Може бути трохи боляче, але максимально корисно.
Ідеально для власників бізнесу та seo-спеціалістів, яким важливо мати незалежний експертний погляд на сайт і його потенціал росту. Отримати практичні рекомендації.
- Ліміт до 15 учасників
- Вартість 5000 грн
Формат платний, тому що створений для бізнесів та практикуючих SEO, де прожарка сайтів це інструмент прийняття рішень.
Реєстрація за посиланням:
https://forms.gle/hic4oWiyPTMUr5GT7
😁12🔥10👏2😢1
Зробив фоточку для анонсу =)
В руках то DevakaTools 😀
Хто пропустив, новорічний чекап сайтів завтра увечорі.
https://t.me/devakatalk/5591
В руках то DevakaTools 😀
Хто пропустив, новорічний чекап сайтів завтра увечорі.
https://t.me/devakatalk/5591
😁14👍4🌭3🔥2😱2
Devaka Talk
Свіжі подкасти з відомими SEO, прямо з новорічної сковорідочки. Дуже рекомендую послухати (англ. мовою). Лілі Рей. Чому сайти втрачають позиції або проблема "переоптимізації" https://www.youtube.com/watch?v=zjlAVsjwe4E Шон Андерсон. Гугл не брехав, що нам…
Про що Лілі Рей розповідала в подкасті. Невелике самарі
https://www.youtube.com/watch?v=zjlAVsjwe4E
Багато сайтів втрачають позиції через іронічну причину — вони роблять "занадто багато SEO". Старі тактики, агресивне нарощування посилань та програмне створення контенту, які працювали 5 років тому, зараз стають причиною санкцій.
Хоча зараз ШІ-контент може ранжуватися непогано, Лілі прогнозує велику "зачистку" від Google у 2026 році. Вона радить маркувати ШІ-контент, щоб не вводити користувачів в оману.
Вихід з-під фільтрів Google може тривати до 2 років і потребує величезних зусиль. Простіше туди не потрапляти.
Люди все частіше обирають відповіді від ШІ замість традиційного пошуку, хоча й залишаються скептичними до точності даних.
Google все частіше показує контент із Reddit, TikTok та YouTube прямо в результатах пошуку, що змушує бренди диверсифікувати джерела трафіку.
Важливо інвестувати хоча б в один інструмент для відстеження видимості в AI.
Один із головних факторів ранжування зараз — це те, чи додає ваша стаття нову інформацію, якої ще немає в мережі. Якщо ви просто перефразуєте топ-10 результатів пошуку (навіть за допомогою ШІ), Google вважатиме такий контент малоцінним. Потрібні унікальні дослідження, власні фото або особистий досвід.
Домінування Reddit у пошуковій видачі — це свідома відповідь Google на невдоволення користувачів "стерильним" SEO-контентом. Люди хочуть бачити реальні відгуки та обговорення від справжніх людей, навіть якщо вони не ідеально оптимізовані.
Останні оновлення Google найбільше вдарили по невеликих нішевих блогах. Багато з них втратили до 90% трафіку.
Для E-E-A-T недостатньо просто написати біографію автора під статтею. Google перевіряє, чи існує ця людина в реальному світі: чи є у неї профілі в соціальних мережах, чи цитують її інші ресурси, чи є вона визнаним експертом у своїй галузі.
Лілі каже, що SEO-фахівець майбутнього — це не людина, яка розставляє ключові слова, а стратегічний консультант.
https://www.youtube.com/watch?v=zjlAVsjwe4E
Багато сайтів втрачають позиції через іронічну причину — вони роблять "занадто багато SEO". Старі тактики, агресивне нарощування посилань та програмне створення контенту, які працювали 5 років тому, зараз стають причиною санкцій.
Хоча зараз ШІ-контент може ранжуватися непогано, Лілі прогнозує велику "зачистку" від Google у 2026 році. Вона радить маркувати ШІ-контент, щоб не вводити користувачів в оману.
Вихід з-під фільтрів Google може тривати до 2 років і потребує величезних зусиль. Простіше туди не потрапляти.
Люди все частіше обирають відповіді від ШІ замість традиційного пошуку, хоча й залишаються скептичними до точності даних.
Google все частіше показує контент із Reddit, TikTok та YouTube прямо в результатах пошуку, що змушує бренди диверсифікувати джерела трафіку.
Важливо інвестувати хоча б в один інструмент для відстеження видимості в AI.
Один із головних факторів ранжування зараз — це те, чи додає ваша стаття нову інформацію, якої ще немає в мережі. Якщо ви просто перефразуєте топ-10 результатів пошуку (навіть за допомогою ШІ), Google вважатиме такий контент малоцінним. Потрібні унікальні дослідження, власні фото або особистий досвід.
Домінування Reddit у пошуковій видачі — це свідома відповідь Google на невдоволення користувачів "стерильним" SEO-контентом. Люди хочуть бачити реальні відгуки та обговорення від справжніх людей, навіть якщо вони не ідеально оптимізовані.
Останні оновлення Google найбільше вдарили по невеликих нішевих блогах. Багато з них втратили до 90% трафіку.
Для E-E-A-T недостатньо просто написати біографію автора під статтею. Google перевіряє, чи існує ця людина в реальному світі: чи є у неї профілі в соціальних мережах, чи цитують її інші ресурси, чи є вона визнаним експертом у своїй галузі.
Лілі каже, що SEO-фахівець майбутнього — це не людина, яка розставляє ключові слова, а стратегічний консультант.
👍8❤4😁2😱1
Кейс зростання сайту в Google після проставлення посилань з морд 🔼
Простий кейс, який доводить актуальність якісних посилань у Google та підтверджує їхній першорядний вплив на позиції у видачі. Розглянемо як виконали роботу та які посилання використовували.
Потрібні посилання з PBN морд під ваш проект - пишіть @seoalex📩
Роботи по сайту 👇
1. Сайт у ГЕО Україна, повністю оптимізований до початку проставлення морд, трафік повільно зростає
2. Вибрали пріоритетні сторінки з ключами, які вже були у ТОП 20
3. Одноразово поставили 15 посилань із головних сторінок нашої сітки PBN Україна
4. 70% посилань з прямими анкорами у вигляді основних ключів та 30% безанкор з навколопосилальним текстом та згадкою в ньому ключа
5. Сторінки морд після проставлення посилань додатково проіндексували через бот у телеграм
Зростання почалося досить швидко, через кілька тижнів після переіндексації морд. Ключі зайшли в ТОП 10, а частина ключів залетіла в ТОП 3. Це дало істотний приріст трафіку на сайт, що видно на скрині.
Потрібні якісні морди під Україну? Пишіть @seoalex, підбіруть оптимальний варіант під ваш сайт індивідуально.
Ціна на 1 морду 30 $ при оренді на рік💵
#реклама
Простий кейс, який доводить актуальність якісних посилань у Google та підтверджує їхній першорядний вплив на позиції у видачі. Розглянемо як виконали роботу та які посилання використовували.
Потрібні посилання з PBN морд під ваш проект - пишіть @seoalex
Роботи по сайту 👇
1. Сайт у ГЕО Україна, повністю оптимізований до початку проставлення морд, трафік повільно зростає
2. Вибрали пріоритетні сторінки з ключами, які вже були у ТОП 20
3. Одноразово поставили 15 посилань із головних сторінок нашої сітки PBN Україна
4. 70% посилань з прямими анкорами у вигляді основних ключів та 30% безанкор з навколопосилальним текстом та згадкою в ньому ключа
5. Сторінки морд після проставлення посилань додатково проіндексували через бот у телеграм
Зростання почалося досить швидко, через кілька тижнів після переіндексації морд. Ключі зайшли в ТОП 10, а частина ключів залетіла в ТОП 3. Це дало істотний приріст трафіку на сайт, що видно на скрині.
Потрібні якісні морди під Україну? Пишіть @seoalex, підбіруть оптимальний варіант під ваш сайт індивідуально.
Ціна на 1 морду 30 $ при оренді на рік
#реклама
Please open Telegram to view this post
VIEW IN TELEGRAM
😁17👌4❤2👍1😱1🌭1💯1
Так як в тренді GEO та AI SEO, то в 2026 році та подалі будуть популярні саме GEO Tools замість SEO Tools.
Ніша вже чатково зайнята, але можна всіх посунути і з часом стати більш популярним ніж Ahrefs або умовний Frog. Можливо... якщо знайти основний біль користувачів.
Потрібно вже зараз шукати ідеї та розробляти інструменти. А тим, хто не розробник, потрібно створювати добірки кращих GEO Tools, будуть гарно заходити аудиторії.
Декілька ідей для інструментів:
- LLM Трекери (вже є, але ніша тільки формується)
- GEO Аудити та автоматизація аудитів
- Аналіз якості відповідей, факт-чекінг, галюцінації при питаннях про бренд
- GEO Link Profile Analysis (які типи джерел цитує LLM)
- Аналіз Fan-out Queries (для розуміння, як LLM підбирає інформацію)
- Freshness Checker (наскільки застарілі дані по бренду та його продуктам)
- Автоматизовані рекомендаційні системи по покращенню видимості в LLM
- Answer Volatility Index (як сильно змінюються відповіді з часом)
- LLM Snippet Optimizer
...
Ніша вже чатково зайнята, але можна всіх посунути і з часом стати більш популярним ніж Ahrefs або умовний Frog. Можливо... якщо знайти основний біль користувачів.
Потрібно вже зараз шукати ідеї та розробляти інструменти. А тим, хто не розробник, потрібно створювати добірки кращих GEO Tools, будуть гарно заходити аудиторії.
Декілька ідей для інструментів:
- LLM Трекери (вже є, але ніша тільки формується)
- GEO Аудити та автоматизація аудитів
- Аналіз якості відповідей, факт-чекінг, галюцінації при питаннях про бренд
- GEO Link Profile Analysis (які типи джерел цитує LLM)
- Аналіз Fan-out Queries (для розуміння, як LLM підбирає інформацію)
- Freshness Checker (наскільки застарілі дані по бренду та його продуктам)
- Автоматизовані рекомендаційні системи по покращенню видимості в LLM
- Answer Volatility Index (як сильно змінюються відповіді з часом)
- LLM Snippet Optimizer
...
1👍10❤3
Ну і як раз апдейт завершився. Можна аналізувати позиції
https://status.search.google.com/incidents/DsirqJ1gpPRgVQeccPRv
Дякую @par111234 за оперативну інфу
https://status.search.google.com/incidents/DsirqJ1gpPRgVQeccPRv
Дякую @par111234 за оперативну інфу
❤18
Microsoft розробив легку утіліту на Python, яка перетворює будь який документ на markdown. Дуже крутий тул!
https://github.com/microsoft/markitdown
Markdown це оптимальний формат для текстів, який подалі використовується в LLM і пов'язаних аналізаторах текстівої інформації. Всі, хто колись будував власні аналізатори текстів гарно розуміє, що перед аналізом потрібно текст якось витягнути з сайтів і підготувати. Це не так просто, бо HTML містить багато шуму. Markitdown вирішує проблему за вас.
Наразі підтримується конвертація з наступних форматів:
- HTML
- Text, CSV, JSON, XML
- PowerPoint, Word, Excel
- PDF, ZIP
- Images, Videos (EXIF, OCR Data, Speech Transcription)
- YouTube URLS
- EPubs і навіть більше
До речі, в DevakaTools коли ви використовуєте AI Helper, там текст сторінки також перетворюється на Markdown, тому що це дуже зручно і оптимально (меньше шуму, більше швидкість, економія токенів).
Використання майкрософтовского інструменту дуже просте, після вставновки в консолі викликаються команди:
Є також Python API до Markitdown, і MCP сервер для використання інструменту через LLM або AI агентів.
https://github.com/microsoft/markitdown/tree/main/packages/markitdown-mcp
Скрипт року, я вважаю!
https://github.com/microsoft/markitdown
Markdown це оптимальний формат для текстів, який подалі використовується в LLM і пов'язаних аналізаторах текстівої інформації. Всі, хто колись будував власні аналізатори текстів гарно розуміє, що перед аналізом потрібно текст якось витягнути з сайтів і підготувати. Це не так просто, бо HTML містить багато шуму. Markitdown вирішує проблему за вас.
Наразі підтримується конвертація з наступних форматів:
- HTML
- Text, CSV, JSON, XML
- PowerPoint, Word, Excel
- PDF, ZIP
- Images, Videos (EXIF, OCR Data, Speech Transcription)
- YouTube URLS
- EPubs і навіть більше
До речі, в DevakaTools коли ви використовуєте AI Helper, там текст сторінки також перетворюється на Markdown, тому що це дуже зручно і оптимально (меньше шуму, більше швидкість, економія токенів).
Використання майкрософтовского інструменту дуже просте, після вставновки в консолі викликаються команди:
markitdown path-to-file.html > document.md
cat path-to-file.pdf | markitdown
Є також Python API до Markitdown, і MCP сервер для використання інструменту через LLM або AI агентів.
https://github.com/microsoft/markitdown/tree/main/packages/markitdown-mcp
Скрипт року, я вважаю!
GitHub
GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.
Python tool for converting files and office documents to Markdown. - microsoft/markitdown
❤11👍6