This media is not supported in your browser
VIEW IN TELEGRAM
Серваки крутятся, сайты парсятся
Показать особо нечего, процесс не сильно визуальный.
Уже спаршено 250к страниц с одного донора.
Сегодня/завтра запущу парсинг второго. Для начала будет достаточно.
#пьяный_снегирь
Показать особо нечего, процесс не сильно визуальный.
Уже спаршено 250к страниц с одного донора.
Сегодня/завтра запущу парсинг второго. Для начала будет достаточно.
#пьяный_снегирь
🔥4
Собрал чуть больше миллиона номеров и отзывов к ним.
Собирал с трех сайтов.
Первый сайт никак не защищен от подобных вещей, собирать данные одно удовольствие.
Второй защищен с CloudFlare. Пришлось повозиться: прикрутил ротацию прокси, поубавил темп - понемного обхожу сайт. В день где-то по 100-150к записей удается положить в БД. Если купить нормальные прокси, то дело пойдет быстрее, но покупать неохота.
Третий сайт обуздать не удалось. Там не CloudFlare, какой-то их собственный самопис, с весьма жесткой политикой.
Решил, что пока поработаю с тем, что есть. Благо, сырых данных много. Их точно хватит чтобы стартануть, а там будет видно - стрельнуло/не стрельнуло. Нет смысла упарываться над всесторонним качеством данных, пока нет уверенности что сайт полетит.
Дальнейшие шаги - придумать как поженить сырые данные и привести их к необходимому виду. А для этого, по-хорошему, нужно собрать в голове картинку итогового сайта.
#пьяный_снегирь
Собирал с трех сайтов.
Первый сайт никак не защищен от подобных вещей, собирать данные одно удовольствие.
Второй защищен с CloudFlare. Пришлось повозиться: прикрутил ротацию прокси, поубавил темп - понемного обхожу сайт. В день где-то по 100-150к записей удается положить в БД. Если купить нормальные прокси, то дело пойдет быстрее, но покупать неохота.
Третий сайт обуздать не удалось. Там не CloudFlare, какой-то их собственный самопис, с весьма жесткой политикой.
Решил, что пока поработаю с тем, что есть. Благо, сырых данных много. Их точно хватит чтобы стартануть, а там будет видно - стрельнуло/не стрельнуло. Нет смысла упарываться над всесторонним качеством данных, пока нет уверенности что сайт полетит.
Дальнейшие шаги - придумать как поженить сырые данные и привести их к необходимому виду. А для этого, по-хорошему, нужно собрать в голове картинку итогового сайта.
#пьяный_снегирь
👍6👏1
Внезапно, не писал 2 недели.
По сайтам сделано ноль. Проект пьяный_снегирь тоже стоит на месте. Мотивация его делать не пропала, но у меня что-то вроде новой главы в жизни. Было не до этого.
Постепенно возвращаюсь к делам.
Несколько анонсов о будущих постах:
- #пьяный_снегирь завис на этапе дизайна. Есть вариант сделать максимально просто на базовом бутсрап шаблоне или чуть красивее, переделав шаблон от Сеоники (покупал как-то дизайн у Степана)
- полтора месяц назад покупал неплохой дроп, развернул сайт, результаты неожиданные;
- есть задумка средиректить сайт, зафильтрованый в ходе последнего большого апдейта гугла, на новенький домен и посмотреть что из этого получится. Кто-то пробовал так делать?
По сайтам сделано ноль. Проект пьяный_снегирь тоже стоит на месте. Мотивация его делать не пропала, но у меня что-то вроде новой главы в жизни. Было не до этого.
Постепенно возвращаюсь к делам.
Несколько анонсов о будущих постах:
- #пьяный_снегирь завис на этапе дизайна. Есть вариант сделать максимально просто на базовом бутсрап шаблоне или чуть красивее, переделав шаблон от Сеоники (покупал как-то дизайн у Степана)
- полтора месяц назад покупал неплохой дроп, развернул сайт, результаты неожиданные;
- есть задумка средиректить сайт, зафильтрованый в ходе последнего большого апдейта гугла, на новенький домен и посмотреть что из этого получится. Кто-то пробовал так делать?
👍5
Недавно приобрел себе тематичный дроп с относительно неплохим ссылочным. Единственный подвох - последние несколько лет на дропе не был поднят сайт, а вместо этого он редиректил на другой домен.
Возможно, это супер очевидная вещь, но я не супер опытный в дропах , поэтому решил купить и попробовать.
Поднял небольшой статейник на Hugo. Тематика крипта, залил штук 15 хороших статей, знатно перелинковал. Даже самому финальный вид понравился.
Сначала в Яндексе и Гугле вылезли варнингы, что сайт не доступен (хотя при проверке их же инструментами - доступен).
Потом Гугл Консоль игнорировала сайтмап. Яндекс тоже засыпал варнингами, что все плохо.
В итоге пришел к выводу:
1) что у обоих поисковиков в панелях есть что-то вроде кеша, на примере той же ошибки что сайт не доступен, хотя он доступен. Раза с третьего после повторных проверок кеш вместе с ошибкой ушел.
2) если робот долго не заходил на сайт, то его туда фиг затащишь
Итого, спустя полтора месяца - 2 клика из поиска и мертвые показы.
Возможно, это супер очевидная вещь, но я не супер опытный в дропах , поэтому решил купить и попробовать.
Поднял небольшой статейник на Hugo. Тематика крипта, залил штук 15 хороших статей, знатно перелинковал. Даже самому финальный вид понравился.
Сначала в Яндексе и Гугле вылезли варнингы, что сайт не доступен (хотя при проверке их же инструментами - доступен).
Потом Гугл Консоль игнорировала сайтмап. Яндекс тоже засыпал варнингами, что все плохо.
В итоге пришел к выводу:
1) что у обоих поисковиков в панелях есть что-то вроде кеша, на примере той же ошибки что сайт не доступен, хотя он доступен. Раза с третьего после повторных проверок кеш вместе с ошибкой ушел.
2) если робот долго не заходил на сайт, то его туда фиг затащишь
Итого, спустя полтора месяца - 2 клика из поиска и мертвые показы.
👍1
SEO в 2022 году
купил ссылок в сапе - ✅
не заходил туда много лет, но сейчас понял, что это как раз то, что нужно для одного из сайтов.
А где вы добываете ссылки?
купил ссылок в сапе - ✅
не заходил туда много лет, но сейчас понял, что это как раз то, что нужно для одного из сайтов.
А где вы добываете ссылки?
#Пьяный_снегирь разрабатывается полным ходом.
Я по прежнему на "скучной" технической стадии - поправил архитектуру, спроектировал БД, сделал миграции, загрузил справочные данные (мобильные операторы, регионы действия и т.д.).
По сути текущая задача - почистить сырые данные, которые были спарсшены у доноров и разложить их по таблицам. Делаю это само собой не вручную.
Есть один "главный" и несколько дополнительных скриптов, которые ходят в хранилище сырых данных, берут что нужно, приводят к необходимому виду и укладывают их в базу сайта.
Может показаться сложным? На деле это не так. Разбив данные должным образом их теперь можно крутить как угодно. Например, можно сделать разделы с любой группировкой и т.д.
Также, успел написать определитель мобильного оператора и региона, где был зарегистрирован номер. Задачка оказалась та еще. При этом был простой вариант - просто брать эту инфу у тех же конкурентов, в формате обычного текста. Но ни о какой гибкости тут речи не идет...
Визуала, особенно интересного, тут нет. Так что хз, нужно ли вообще об этом писать - оно вам интересно?
Впереди работы непосредственно с видимой частью сайта, потом внутренняя SEO оптимизация и первый релиз (непосредственно публикация сайта и первая индексация).
Я по прежнему на "скучной" технической стадии - поправил архитектуру, спроектировал БД, сделал миграции, загрузил справочные данные (мобильные операторы, регионы действия и т.д.).
По сути текущая задача - почистить сырые данные, которые были спарсшены у доноров и разложить их по таблицам. Делаю это само собой не вручную.
Есть один "главный" и несколько дополнительных скриптов, которые ходят в хранилище сырых данных, берут что нужно, приводят к необходимому виду и укладывают их в базу сайта.
Может показаться сложным? На деле это не так. Разбив данные должным образом их теперь можно крутить как угодно. Например, можно сделать разделы с любой группировкой и т.д.
Также, успел написать определитель мобильного оператора и региона, где был зарегистрирован номер. Задачка оказалась та еще. При этом был простой вариант - просто брать эту инфу у тех же конкурентов, в формате обычного текста. Но ни о какой гибкости тут речи не идет...
Визуала, особенно интересного, тут нет. Так что хз, нужно ли вообще об этом писать - оно вам интересно?
Впереди работы непосредственно с видимой частью сайта, потом внутренняя SEO оптимизация и первый релиз (непосредственно публикация сайта и первая индексация).
🔥3
127.0.0.1_8000.png
1.4 MB
В качестве хоть какого-то визуала, глядите какая внутренняя получилась. Детали пока еще в проработке, но основа такая
👍2
Эксперимент по восстановлению трафика после апдейта Гугла
В ходе последнего апдейта гугла зафильтровало много сайтов. С одним из них решил провести эксперимент.
Что если поставить постраничный 301 редирект на новый домен? Есть предположение, что трафик вернется.
Для начала решил потестировать на одном сайте.
Бурж, мультиязычный, контент: подъездная генеренка (без AI, вариации подставного/шаблонного текста). Но все читаемо и вопрос пользователя раскрывает на 100%.
До апдейта был стремительный рост, без ссылок и на свежерег домене.
Чуть больше 2-х недель назад зарегистрировал новый домен, поставил редирект, в GSC запустил перенос сайта и начал ждать.
Пока имеем такую картинку.
В ходе последнего апдейта гугла зафильтровало много сайтов. С одним из них решил провести эксперимент.
Что если поставить постраничный 301 редирект на новый домен? Есть предположение, что трафик вернется.
Для начала решил потестировать на одном сайте.
Бурж, мультиязычный, контент: подъездная генеренка (без AI, вариации подставного/шаблонного текста). Но все читаемо и вопрос пользователя раскрывает на 100%.
До апдейта был стремительный рост, без ссылок и на свежерег домене.
Чуть больше 2-х недель назад зарегистрировал новый домен, поставил редирект, в GSC запустил перенос сайта и начал ждать.
Пока имеем такую картинку.
🔥2
Страницы сразу начали залетать в индекс, все выглядело весьма позитивно, но спустя неделю халява закончилась.
В GSC вылезла ошибка "Страница является копией. Канонические версии страницы, выбранные Google и пользователем, не совпадают.", трафик и позиции соответственно упали.
Странно наблюдать "Страница является копией" после того, как в серч консоли выставляешь, что сайт переехал, но полагаю, что это временная история и гуглу нужно время чтобы раздуплиться.
Пока отставил в сторону и посмотрю что будет через месяц.
Был ли у вас подобный опыт? Сколько обычно занимает полный переезд сайта? Как думаете, восстановится ли трафик?
В GSC вылезла ошибка "Страница является копией. Канонические версии страницы, выбранные Google и пользователем, не совпадают.", трафик и позиции соответственно упали.
Странно наблюдать "Страница является копией" после того, как в серч консоли выставляешь, что сайт переехал, но полагаю, что это временная история и гуглу нужно время чтобы раздуплиться.
Пока отставил в сторону и посмотрю что будет через месяц.
Был ли у вас подобный опыт? Сколько обычно занимает полный переезд сайта? Как думаете, восстановится ли трафик?
Как минимум, есть ниша и рабочий способ как сделать еще сетку таких сайтов, но уже раздельно под каждый язык и это уже задача на 2023
#пьяный_снегирь update
Вам почему-то нравится такой формат, поэтому расскажу какие успехи с проектом пьяный_снегирь.
Сделал внутреннюю страницу, уже не на заглушках, а прям рабочая версия.
Процентов на 90 готовы страницы с детальной информацией по мобильным операторам в каждом регионе, какие у них коды, диапазоны и т.д. Пожинаю плоды того, что разложил данные в реляционном виде, а не просто скопипастил.
Немного поковырялся с "рейтингом" номера. У конкурентов везде идет оценка от 1 до 5. Я хз в чем разница между оценкой 3.2 и 2.3, поэтому решил, что юзеру будет приятнее решение в лоб: плохой это номер или нет. Как это выглядит можно глянуть на макете в одном из прошлых постов.
Написал хитрую, но банальную, логику преобразования числового рейтинга в такой "простой" вид, на основе оценки из сырых данных + анализа текста отзывов для этого номера.
Вам почему-то нравится такой формат, поэтому расскажу какие успехи с проектом пьяный_снегирь.
Сделал внутреннюю страницу, уже не на заглушках, а прям рабочая версия.
Процентов на 90 готовы страницы с детальной информацией по мобильным операторам в каждом регионе, какие у них коды, диапазоны и т.д. Пожинаю плоды того, что разложил данные в реляционном виде, а не просто скопипастил.
Немного поковырялся с "рейтингом" номера. У конкурентов везде идет оценка от 1 до 5. Я хз в чем разница между оценкой 3.2 и 2.3, поэтому решил, что юзеру будет приятнее решение в лоб: плохой это номер или нет. Как это выглядит можно глянуть на макете в одном из прошлых постов.
Написал хитрую, но банальную, логику преобразования числового рейтинга в такой "простой" вид, на основе оценки из сырых данных + анализа текста отзывов для этого номера.
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера запустил скрипт сборки данных и их загрузки в БД. Загружу 500к номеров в базу на этой неделе. Остальное буду постепенно добавлять после запуска.
И напоследок останутся работы по SEO: пройтись по всем типам страниц, написать шаблонный текст, продумать шаблоны для title, description, h1, сделать перелинковку и т.д.
Хочу успеть запуститься в этом году.
#пьяный_снегирь
И напоследок останутся работы по SEO: пройтись по всем типам страниц, написать шаблонный текст, продумать шаблоны для title, description, h1, сделать перелинковку и т.д.
Хочу успеть запуститься в этом году.
#пьяный_снегирь
👍4🔥1
Подарочек под елочку
Пару месяцев назад покупал домен для проекта #пьяный_снегирь . Купил на beget и оставил болтаться.
Сегодня получил новогодний подарочек под елочку в виде редиректа на клубичку. Какого дед мороза тут происходит, подумал я?
Пошел искать концы и понял, что оставил домен без привязки DNS к какому-либо серверу. Был план арендовать свежий сервак и уже потом связать все это дело вместе, но не судьба.
Полагаю, что не составляет особого труда проделать подобную манипуляцию, вопрос только в том, как программно находить такие домены.
P.S. Подарочек олицетворяет весь 2022 год. У вас были планы, но вот вам новые, с голой жопой на экране.
Пару месяцев назад покупал домен для проекта #пьяный_снегирь . Купил на beget и оставил болтаться.
Сегодня получил новогодний подарочек под елочку в виде редиректа на клубичку. Какого дед мороза тут происходит, подумал я?
Пошел искать концы и понял, что оставил домен без привязки DNS к какому-либо серверу. Был план арендовать свежий сервак и уже потом связать все это дело вместе, но не судьба.
Полагаю, что не составляет особого труда проделать подобную манипуляцию, вопрос только в том, как программно находить такие домены.
P.S. Подарочек олицетворяет весь 2022 год. У вас были планы, но вот вам новые, с голой жопой на экране.
🤣4👍1
Всех с наступающим Новым годом!
Не буду еще раз рассказывать, каким непростым был этот год, вы и сами знаете.
Несмотря на весь пиздец, который произошел в 2022 (а, где-то и из-за него) во многих сферах в этом году удалось шагнуть сильно вперед. Так далеко, что аж сам в шоке.
Я желаю каждому из вас в следующем году прыгнуть выше своей головы. Но самое главное, желаю вам сохранить свое психологическое и физическое здоровье.
Хочу поблагодарить вас, подписчиков, что нашли интересным этот канал. В 2023 году вас станет больше, а я продолжу делать свои эксперименты и делиться ими с вами. В голове уже намечены большие планы и темы, которые, я уверен, вам будут интересны.
Всем добра и мира! Feliz Ano Novo! 🎄
Не буду еще раз рассказывать, каким непростым был этот год, вы и сами знаете.
Несмотря на весь пиздец, который произошел в 2022 (а, где-то и из-за него) во многих сферах в этом году удалось шагнуть сильно вперед. Так далеко, что аж сам в шоке.
Я желаю каждому из вас в следующем году прыгнуть выше своей головы. Но самое главное, желаю вам сохранить свое психологическое и физическое здоровье.
Хочу поблагодарить вас, подписчиков, что нашли интересным этот канал. В 2023 году вас станет больше, а я продолжу делать свои эксперименты и делиться ими с вами. В голове уже намечены большие планы и темы, которые, я уверен, вам будут интересны.
Всем добра и мира! Feliz Ano Novo! 🎄
🔥8👍3❤1
Как настроить сайты для спокойного отпуска
Подзабил на канал и сайты. Постепенно возвращаюсь.
Впервые за очень долгое время, (может и вовсе впервые) ездил в отпуск без ноута. Полный отдых и отключка от дел.
У меня 4 арендованых сервера, 1 чисто под БД, лямбды в Aws, десяток сайтов, пара сервисов, настроенный мониторинг. в общем, зоопарк.
Зная свой уровень удачи. У меня что-то обязательно грохнется ровно в тот момент, когда я вступлю на порог самолета. (это не шутка, со мной такое бывало не раз).
В общем нужно иметь инструменты управления зверюшками в этом зоопарке. Особенно когда я без рабочего ноута.
Для себя пока пришел к такой схеме:
- облепился мониторингами (это давно уже). оповещения приходят в телегу
- поставил себе на планшет и телефон Termius. Приложуха позволяет ходить на сервера по ssh. Не супер удобно, но бесплатно и хватает для быстрого реагирования.
Для мониторинга использую https://github.com/louislam/uptime-kuma и https://uptimerobot.com/. Зачем сразу два?
Решил сэкономить на отдельном сервере для мониторинга. (очевидно нет смысла вешать селф хостед мониторинг на одном сервере с вашими сайтами, т. к. если грохнется сервер, мониторинг вам об этом не скажет). Поэтому 2 инструмента - мониторинг на мониторинг: )
Нужно ли написать подробнее, как я слежу за сайтами? или ссылок на инструменты достаточно?
Подзабил на канал и сайты. Постепенно возвращаюсь.
Впервые за очень долгое время, (может и вовсе впервые) ездил в отпуск без ноута. Полный отдых и отключка от дел.
У меня 4 арендованых сервера, 1 чисто под БД, лямбды в Aws, десяток сайтов, пара сервисов, настроенный мониторинг. в общем, зоопарк.
Зная свой уровень удачи. У меня что-то обязательно грохнется ровно в тот момент, когда я вступлю на порог самолета. (это не шутка, со мной такое бывало не раз).
В общем нужно иметь инструменты управления зверюшками в этом зоопарке. Особенно когда я без рабочего ноута.
Для себя пока пришел к такой схеме:
- облепился мониторингами (это давно уже). оповещения приходят в телегу
- поставил себе на планшет и телефон Termius. Приложуха позволяет ходить на сервера по ssh. Не супер удобно, но бесплатно и хватает для быстрого реагирования.
Для мониторинга использую https://github.com/louislam/uptime-kuma и https://uptimerobot.com/. Зачем сразу два?
Решил сэкономить на отдельном сервере для мониторинга. (очевидно нет смысла вешать селф хостед мониторинг на одном сервере с вашими сайтами, т. к. если грохнется сервер, мониторинг вам об этом не скажет). Поэтому 2 инструмента - мониторинг на мониторинг: )
Нужно ли написать подробнее, как я слежу за сайтами? или ссылок на инструменты достаточно?
👍11
Пару дней назад зарелизил #пьяный_снегирь. 🍾
Изначально предполагалось, что я буду описывать весь процесс по ходу дела.
Понял, что описывать прям подробно это дело затратное. Делаешь, описываешь, редактируешь, смена контекста, короче стопит процесс.
Поэтому напишу мысли, идеи и принципы, которым я следую в процессе подобной разработки.
А пока история.
Изначально предполагалось, что я буду описывать весь процесс по ходу дела.
Понял, что описывать прям подробно это дело затратное. Делаешь, описываешь, редактируешь, смена контекста, короче стопит процесс.
Поэтому напишу мысли, идеи и принципы, которым я следую в процессе подобной разработки.
А пока история.
Как Яндекс задудосил новый сайт
Спустя 2 часа после публикации пьяного снегиря упали половина сайтов, вообще не относящихся к делу. Ситуация странная, начал копаться, дошел до того, что грохнулся сервер, где крутится БД.
===
Немного контекста.
У меня выделен отдельный сервер, где развернут Postgresql.
Когда нагрузка была небольшая, а сайтов мало - бд и сайты были на одной тачке. Со временем стало тесновато, решил оптимизироваться.
Вынес БД отдельно, добавил ресурсов. Большая часть сайтов теперь ходит в одно центральное место, никто никому не мешает. Кстати, скорость выполнения sql запросов выросла в 3 раза.
Как можно догадаться, в этой архитектуре есть один большой минус. Если лежит центральное звено - лежат все сайты.
===
Возвращаясь к вновь опубликованному сайту, тут оказалась как раз такая ситуация.
Судя по логам, спустя пару часов работы, сайт начал получать сотни запросов в минуту. Я немного приофигел от того, когда увидел, что в UserAgent записан YandexBot и его вариации.
Естественно, подумал, что кто-то просто прикрывается Яндексом. Сделал обратный запрос по ip - реально домены Яндекса.
Запросы идут на страницы, которых не существуют. Но тематика моя...
Тут я совсем выпал. В логах 200к запросов на страницы, которых не существует.
Заглянул в вебархив и все стало на свои места. Домен с историей, сайт той же тематики, был заброшен в прошлом году.
Этот момент я, конечно, забыл проверить перед регистрацией, но получилось забавно.
Т.е. Яндекс увидел, что старый сайт ожил и решил сделать переобход известных ему страниц (но в индексе и в панели вебмастера их нет).
Короче. Все эти левые запросы шли прямиком в приложуху, которая каждый раз создавала коннект к базе.
Решил это дело перехватом и редиректом на 404 на уровне nginx.
Нагрузка спала. Наблюдаю ситуацию.
Вообще прикол, конечно, с доменами. Первый "отжали", второй дудосит Яндекс. Вход в нишу считаю успешным.
Кстати, десяток страниц уже в индексе. Гугл пока отстает
Спустя 2 часа после публикации пьяного снегиря упали половина сайтов, вообще не относящихся к делу. Ситуация странная, начал копаться, дошел до того, что грохнулся сервер, где крутится БД.
===
Немного контекста.
У меня выделен отдельный сервер, где развернут Postgresql.
Когда нагрузка была небольшая, а сайтов мало - бд и сайты были на одной тачке. Со временем стало тесновато, решил оптимизироваться.
Вынес БД отдельно, добавил ресурсов. Большая часть сайтов теперь ходит в одно центральное место, никто никому не мешает. Кстати, скорость выполнения sql запросов выросла в 3 раза.
Как можно догадаться, в этой архитектуре есть один большой минус. Если лежит центральное звено - лежат все сайты.
===
Возвращаясь к вновь опубликованному сайту, тут оказалась как раз такая ситуация.
Судя по логам, спустя пару часов работы, сайт начал получать сотни запросов в минуту. Я немного приофигел от того, когда увидел, что в UserAgent записан YandexBot и его вариации.
Естественно, подумал, что кто-то просто прикрывается Яндексом. Сделал обратный запрос по ip - реально домены Яндекса.
Запросы идут на страницы, которых не существуют. Но тематика моя...
Тут я совсем выпал. В логах 200к запросов на страницы, которых не существует.
Заглянул в вебархив и все стало на свои места. Домен с историей, сайт той же тематики, был заброшен в прошлом году.
Этот момент я, конечно, забыл проверить перед регистрацией, но получилось забавно.
Т.е. Яндекс увидел, что старый сайт ожил и решил сделать переобход известных ему страниц (но в индексе и в панели вебмастера их нет).
Короче. Все эти левые запросы шли прямиком в приложуху, которая каждый раз создавала коннект к базе.
Решил это дело перехватом и редиректом на 404 на уровне nginx.
Нагрузка спала. Наблюдаю ситуацию.
Вообще прикол, конечно, с доменами. Первый "отжали", второй дудосит Яндекс. Вход в нишу считаю успешным.
Кстати, десяток страниц уже в индексе. Гугл пока отстает
😁5