🍄 Дон Шампиньон [aka Lord_Alfred]
2.26K subscribers
16 photos
67 links
Хитрожопый дорвейщик. Сборник мыслей о Black SEO и иже с ним.
Делаю говно-сайты (doorways), паразитирую на чужих ресурсах, пилю софт для всего этого и зарабатываю так себе на безбедную жизнь.

Блог в vk: https://vk.com/lord.alfred
Download Telegram
🆘 Срочная новость!
Те, кто использует PHP7-FPM + Nginx - проверьте, чтоб в конфиге nginx НЕ было следующих строчек:

fastcgi_split_path_info ^(.+?\.php)(/.*)$;
fastcgi_param PATH_INFO $fastcgi_path_info;

В версиях php 7+ (заканчивая вчерашней) в парсинге fastcgi есть бинарный баг, который позволяет перетереть FASTCGI переменные, что позволяет выставлять php.ini опции, что в свою очередь дает возможность выполнить код.

Для успешной эксплутатации нужно, чтобы в связке php-fpm + nginx конфиг последнего позволял передать пустое значение PATH_INFO.

🚯 Рабочий эксплоит с подробным описанием предусловий лежит тут: https://github.com/neex/phuip-fpizdam/

PS: новость бесстыдно слизана с в tg канала "Кавычка": https://t.me/webpwn
👷🏻 Снова с камрадами-дорвейщиками подняли обсуждение что лучше всего юзать в качестве базы данных под тысячи доров с десятками тысяч страниц на каждом.

💡 Сейчас существует огромное количество различных БД под любые виды задач. Уже даже рейтинг существует (в котором 355! СУБД): https://db-engines.com/en/ranking

Но вот простому работяге-дорвейщику хочется, чтоб было и удобно, и стабильно (тут должен быть смайлик с двумя стульями). Хочется, чтоб всё было по-максимуму оптимизировано и можно было не страдать как в случае с опробованными решениями:
😲 MySQL: постоянные ошибки нехватки соединений, сколько их не повышай;
😶 обычные файлы: в лёгкую можно упереться в количество inodes (решается установкой ОС с файловой системой без инод, вроде btrfs) и отсутствием хоть какого-либо минимального сжатия;
😧 SQLite: рано или поздно вывалятся ошибки "To many open files" (временно можно решить увеличением ulimit -n, но опять же до поры до времени), плюс это всё таки БД без сервера, то есть на каждое подключение будет огромный оверхед;
😵 PostgreSQL: стабильно, сложно и скорее всего рано или поздно придется лезть в настройки и мучаться в подборе каких-то волшебных параметров;
😖 Redis: хранение данных в памяти, поэтому нужно очень много RAM;
😩 Memcached: опять же хранение в RAM, да и чет сомнительно юзать её под большие объемы данных.

По сути то и нужно просто хранение данных аля ключ-значение (key-value), быстрый доступ к этим данным, да поддержка большого числа подключений (повторю, что там тысячи доменов с десятками тысяч страниц на каждом, поэтому в одну секунду может идти сотни запросов, например, при индексации всего этого добра гуглоботом).

👨🏻‍💻 Вроде как напрашивается протестировать MongoDB, но чёт терзают сомнения. 🤔 Может быть у кого-то есть опыт?

Поделитесь вашим видением на данную ситуёвину: https://vk.com/wall-43106145_1488
🕰 Часы перешагнули за полночь, а это значит самое время обсудить тайм-менеджмент. 🤣

Наверняка, среди моих читателей найдется множество людей, кто не может самоорганизоваться и пол дня страдает фигней, а под конец пытается всё успеть (или идёт спать с мыслью "да похер, завтра сделаю"). Я живу с таким состоянием пока не придумаю для себя интересную задачу или жопу не начнет припекать. 👨‍🚒 Отчасти поэтому и занимаюсь всякой движухой, за счёт которой вы меня и знаете - за долгие годы выработалась практика находить в сложных задачах интересные подзадачи и решать их, а потом выкладывать эти решения в паблик (или писать в блоге). Именно такой подход и помогает стимулировать мозг работать наиболее эффективно, но тем не менее - список задач (которые только в голове, но об этом позже) - всё множится и множится... Уже даже были попытки почитать что-то о прокрастинации, но все они разбились о суровую жопу реальности, когда я открывал огромные талмуды с текстом где умные дядьки учили как надо работать (сцуко, вот бы их кто-нибудь научил как нужно интересно писать!).

🍔 И вот на моё удивление сегодня за ужином (а я взял себе за практику в обед или ужин стараться смотреть что-то познавательное: будь то видео Дудя - зачастую они выступают как мотиватор; но лучше видео с какой-нибудь конференции по разработке - чтоб мозг "не густел") наткнулся на старый любопытный доклад "Принцип экономии мыслетоплива". Просто заинтересовало название, да и хотелось "хлеба и зрелищ", поэтому тыкнул - и вот ни разу не пожалел. Сразу даю ссылочку на это видео, можете пока что открывать в соседней вкладке, чтоб не забыть: https://www.youtube.com/watch?v=fWR5SFhBUWc

🙃 И после просмотра я чет так угорел, что решил запилить этот пост. Задолбало развлекать свою "сиюминутную обезьянку" по пол дня! Хочется хардкора, мяса и жести - успевать пилить все идеи и работать так, чтоб гугл затрещал. Поэтому прямо сейчас возобновляю затею записывать задачи из головы в ежедневник: вечером планирую что буду делать на следующий день, а не придумывать себе задачи "на ходу". Причем не "втупую" как я это делал раньше, а с новыми силами и идеями, которые я перенял из доклада: не жалеть бумагу и записывать подробно что нужно сделать; сложные задачи делать в начале дня, а интересные - в конце; если появилась новая задача посреди дня, то вначале её записать, а уже потом делать (не делать ничего без записи!); вечером подсчитывать результаты и записывать метрику "удовлетворенности" от количества решенных задач.

Раз уж я сам такую движуху для себя затеял, да ещё и смог это всё описать тут словами, то предлагаю и вам присоединиться и перестать провафливать драгоценное время на уговоры самого себя, а для этого:
🤜 для начала посмотрите видео, которое я линканул - отдохнёте (видео легкое и с юмором), да ещё и на подкорке много всего отложится;
🤜 выполните советы из видео: "отключите уведомления" и другие полезные идеи;
🤜 решите для себя каким образом будете записывать задачи (имхо, чем проще - тем лучше, бумага и ручка - идеально);
🤜 отпишитесь в комментах, что вы "в деле"(!): https://vk.com/wall-43106145_1540
📹 Уже неоднократно писал, что стараюсь смотреть записи с конференций по разработке, чтоб успевать следить за новыми тенденциями. Но вот видео про SEO я стараюсь обходить стороной, потому что 99% из них - это вода и фантазии (все ответы в выдаче). Не знаю что произошло в этот раз, но я случайно открыл интервью с основателем Rush Analytics - Олегом Шестаковым и потратил 3 часа своей жизни (но с пользой!).

🕵️ Учитывая, что больше 10 лет я связан с Black SEO и разработкой под неё всего подряд, а последние 4 года я работаю только с буржем - даже для меня в этих видео были крайне увлекательные моменты. Особенно интересно было узнать из достоверного источника про продвижение в Яндексе, т.к. я с ним уже давно не работаю. Да и в целом кроме SEO там обсуждалось много любопытных моментов. Поэтому, думаю, среди моих читателей будет тоже много людей, кому "зайдёт" это интервью 😉

😦 Часть №1: https://www.youtube.com/watch?v=P74cJKpUMUo
😲 Часть №2: https://www.youtube.com/watch?v=7Qgkh3yvW6c
🎲 "Давным-давно..." (так бы могла начинаться сказка, если бы я был сказочником) я выкладывал платный шаблон для ZP по парсингу поисковых подсказок, где было собрано более 25 поисковиков. А недавно заметил, что у братьев по цеху снова проснулся интерес к этому виду сбора (а иногда и исправления!) баз ключевых слов. Всё равно шаблон уже не поддерживается и не продается, поэтому скрывать тот список доменов уже нет смысла 🤔 Авось кому-то это поможет улучшить свой комбайн и порвать гугло-топы 🥇

Конечно, с тех времён уже часть поисковиков сдохла или отключила поисковые подсказки (честно, я не при чём 😆), но 19 доменов (преимущественно для англоязычных ключевиков) - находятся теперь тут: https://pastebin.com/Fda1QpbZ
Сами ссылки для парсинга легко сниффаются даже через браузер. В некоторых поисковиках добавляются всякие странные хеши в GET-параметрах к этим ссылкам, но по факту зачастую они нафиг не нужны. И ещё стоит упомянуть что где-то результаты при запросе с пробелом на конце могут сильно различаться ("запрос" и "запрос ").

🕯 Ну и напоследок хочется поделиться ещё одной очевидной, но редко используемой идеей: просто найдите топ-10/50 крупных сайтов по вашей нише и посмотрите на их поиск. С большой вероятностью вы можете найти несколько доменов, которые будут давать результаты гораздо интереснее тех, что содержат поисковики.

Если вдруг я забыл какой-то поисковик с подсказками, то напишите о нём в комментариях: https://vk.com/wall-43106145_1578
👳 Наткнулся на простенький бенч c1000k - проверки проблемы 1 миллиона одновременных соединений. Если простыми словами, то она описывает задачу конфигурирования сервера для поддержки высокопроизводительной обработки множества подключений (не обязательно извне, но и внутри сервера, например при общении PHP/Python и какой-то СУБД вроде Redis/MySQL/SQLite). В общем случае, данный бенч может помочь правильно потюнить TCP/IP и количество открытых файлов.

🦇 Вообще, такая проблема возникает у всех кто запихивает на один сервер кучу доров или имеет огромный поток трафика.

Сам тест (содержит и сервер, и клиент для проверки): https://github.com/ideawu/c1000k - ридми достаточно короткий и простой, чтобы разобраться как его собрать и запустить.

Решается всё это уже исходя из конкретных проблем, но обычно первое ограничение - это количество одновременно открытых файлов (ошибка "Too many open files"). Самое адекватное описание решения в свое время я нашел только тут: https://medium.com/@muhammadtriwibowo/set-permanently-ulimit-n-open-files-in-ubuntu-4d61064429a
Плюс, будет полезно посмотреть до и после настройки на лимиты конкретного процесса по его ПИДу по команде: cat /proc/<PID>/limits.

А уже дальше, если это не особо поможет, то нужно будет копать в сторону TCP/IP tuning, но сразу же предостерегу, что в гугле уева куча статей без нормального описания параметров, которые они меняют. Просто якобы "напихайте себе вот такие настройки и будет счастье" 😆
Максимум, что могу посоветовать - это присмотреться к настройкам, которые советуют в Яндекс.Танке: https://yandextank.readthedocs.io/en/latest/generator_tuning.html#tuning

💬 Если у вас есть ссылки на _правильную_ настройку всего этого добра, то велкам в комменты: https://vk.com/wall-43106145_1588
💰 Решил ради интереса купить немного рекламы на свой блог в Telegram, а заодно и провести небольшой эксперимент. Вообще меня обычно узнают за счёт того, что я часто помогаю и выкладываю интересные штуки для программы ZennoPoster (это, пожалуй, лучшая программа для автоматизации регистрации на сайтах, постинга и простановки ссылок, которую я использую для создания дорвеев). Плюс меня знают как раз по Black SEO тусовке за счёт того, что я в ней уже больше 10 лет (правда, с перерывами) - пилю приватный софт для генерации дорвеев, немного мучаю нейронки, да и вообще выдача одна - все там рядом 😁

💸 Суть этого рекламного эксперимента в следующем: я купил 51 тысячу показов моей ссылки на блог в telegram за 2008 рублей в 13 рекламных площадках. Для каждой из них я написал свой, немного уникальный текст для ссылки (заточенный на тематику площадки). Минимальной целью я ставлю +100 подписчиков на блоге по завершению открутки всех объявлений (это 20 рублей за подписчика, что имхо очень дорого). В принципе, это более чем достижимо, т.к. если будет даже CTR в 1%, то это уже 510 переходов, а конверсия в подписчика на одного посетителя 1 к 5 видится мне вполне реальной.

📉 Конечно, мой скилл в арбитраже около нулевой, поэтому даже если солью эти 2к рублей - будет получен опыт, а это ценнее всех денег 🙂 К тому же, они были потрачены с WMP кошелька, где у меня осталось около 10к рублей, которые я прощелкал и не сконвертировал в WMZ, когда летом стало известно об окончании жизни WMR кошельков. Поэтому будет не так обидно их просрать 😆

С точки зрения узнаваемости моего ника, да и вообще деятельности - такой подход при покупке рекламы в нетематических (но схожих!) местах выглядит вполне логичным действием. Даже если обо мне узнает не такое большое количество людей, но с похожими идеями и совсем с противоположными взглядами - это будет поводом для увеличения критического мышления в ходе дискуссий в паблике vk (я там делаю кросс-пост, велкам если что: https://vk.com/lord.alfred ).

Единственное, что меня смущает: площадки, где крутится реклама - имеют низкую посещаемость. Поэтому время открутки может составлять как неделю, так и месяц. Но если этот эксперимент получит много откликов или лайков, то я потом расскажу о результатах отдельным постом.

PS: кто-то может спросить "Зачем ты это вообще делаешь? Ты же не продаешь ничего и не цыганишь курсами" - ответ прост: мне это по кайфу :) Я очень часто встречаю что-то интересное, что может пригодится в работе не только мне, но и коллегам по цеху, поэтому пишу об этом в блоге. Да и графоманство мне близко по духу 🙃

PPS: топ-3 постов для новоприбывших:
1️⃣ Руководство для асессоров Google: https://t.me/lord_alfred/11
2️⃣ Видео как поиметь Google и Яндекс: https://t.me/lord_alfred/28
3️⃣ Спор по выбору БД для тысяч доров на одном сервере: https://t.me/lord_alfred/26
🤡 Недавно наткнулся на очень забавное поведение одного из регистраторов доменов. Искал дешевые доткомы и наткнулся на Epik - решил затестить его, а он сразу после реги предложил перенести другие домены, и я ради интереса согласился.

😯 А дальше произошло то, что вы видите на скрине. Он каким-то чудом нашел немного моих доменов (от других регистраторов) и выдал их список. Самое интересное, что подтверждение регистрации по мылу я в этот момент ещё не сделал...

🤐 То есть получается такая ситуация, что при условии знания мыльника конкурента (вдруг где-то он его забыл скрыть, да или СИ никто не отменял) - можно выпалить всю его сетку целиком. А он узнает об этом лишь постфактум, - когда придет письмо с подтверждением регистрации.

👹 Вот такие чудеса. Возможно, кому-то пригодится данный способ. Мне он ни к чему, вот и решил поделиться им в блоге 🙃
🤥 Неожиданно и приятно, что мой tg-канал упомянули в дайджесте от топсапы (https://t.me/topsapereader/5692)! И судя по количеству новых подписчиков - это получилось явно профитнее, чем реклама из блогов, о которой я рассказывал парой постов ранее ☝️

И раз уж пошла такая пьянка, то будет полезно поделиться каналами которые читаю я. Список моих интересов довольно специфический, но скорее всего они должны пересекаться и с вашими, раз мы идём нога в ногу 😉 Большинство каналов не "палят" какие-то темы, а публикуют записи раз в пару дней / неделю, но если вдумчиво читать посты, то можно между строк увидеть мысли, которые близки или над которыми стоит задуматься.

💴 Стартапы, Бизнес, Тренды:
- https://t.me/temno - крайне интересные мысли Аркадия Морейниса
- https://t.me/subjectivno - канал Андрея Пуртова, мысли и тренды
- https://t.me/zamesin - продакт-менеджер рассказывает о своём пути в предпрениматели
- https://t.me/dumik - мысли о дизайне и IT-бизнесе от основателя сервиса чатботов
- https://t.me/daily10 - 10 идей дня о инвестициях (не всегда, но тоже любопытно часто)
- https://t.me/techsparks - канал Себранта из Яндекса: чаще просто новости, но и о трендах пишет
- https://t.me/hibrokakbiz - подкасты с интересными людьми (не прямо о бизнесе, но там всё в кучу)

🔬 Дизайн, UX/UI, фронтенд:
- https://t.me/defront - обзоры свежих статей про фронтенд
- https://t.me/vladzelyzip - наблюдения дизайнера
- https://t.me/internet9000 - пишет про разные крутые интернет-проекты, связанные с дизайном
- https://t.me/desprod - бывший дизайн-директор яндекса о дизайне
- https://t.me/uxnotes - проектировщик интерфейсов собственно о интерфейсах

🛠 Machine Learning, нейронки:
- https://t.me/machine_learning_explained - заметки о интересных ML штуках
- https://t.me/denissexy - обзоры свежих приколюх из мира ML
- https://t.me/NeuralShit - всякая разная дичь, которую генерят нейронные сети

💣 Информационная безопасность:
- https://t.me/webpwn - канал, где появляются ссылки на разные эксплоиты, которые в ближайшем будущем наделают шуму (у авторов чуйка на это)
- https://t.me/br0wsec - сплоиты и PoC'и для браузеров

📉 SEO:
- https://t.me/maxaffiliateru - продвижение под бурж и обзоры разных сервисов
- https://t.me/burzhunet - канал Шакина о продвижение в буржунете
- https://t.me/webmasterie - продвижение, огромные всеобъемлющие статьи о разных способах и методах
- https://t.me/siteclinic_doctor - полубот-полуканал, где отвечают на вопросы по SEO (1 из 10 вопросов норм)
- https://t.me/devakatalk - новости про SEO


А что читаете вы, уважаемые подписчики?
Поделитесь каналами (или пабликами в вк) в комментариях: https://vk.com/wall-43106145_1600
💪 Как-то недавно в чате скидывал способ передачи языка браузера на страницу преленда из Keitaro TDS v6, а сейчас подумал что и сюда тоже стоит запилить. Авось кому-нибудь из староверов (потому что v6) тоже пригодится и поможет чуть улучшить конверсию по другим языкам нехитрыми манипуляциями.
Смотреть как это делается здесь: https://gist.github.com/lord-alfred/e6f9fb4bebd28bd234fce684be121fa9

👳 К слову, много ли из вас юзают преленды на разных языках?
🏋️‍♀️ И кто-нибудь держит что-то кроме Keitaro, zTDS, Sutra TDS и CPA Tracker?
🏋️ Примерно месяц по паре часов в день я пилю легковесную CMS под большие нагрузки и огромное количество доменов, которые она должна обслуживать. Не буду сильно вдаваться в технические характеристики, но всё будет реализовано на php7+LMDB+nginx, что по моим нагрузочным тестам вывозит более 2.5к RPS(!) без кэша, а с кэшированием и больше 3 тысяч запросов в секунду спокойно держит на 4 CPU Cores / 4 GB RAM / SSD. Там внутри всё достаточно сильно оптимизировано, да и архитектура изначально прорабатывалась очень долгое время, чтобы избежать bottleneck'ов, но посмотрим как будут дела в продакшене 🙂 Если кому-то интересно, то могу потом подробнее написать обо всём с графиками из overload (Яндекс.Танка).

🤔 И в связи с тем, что уже скоро подходит время запуска - я озадачился выбором VPS, где это всё будет находится. На старте не хочется вкидывать деньги в топку и покупать дедик, т.к. все DCMA free варианты с SSD диском стоят как 2-4 VPS с хорошей конфигурацией. А тестовые пачки нужно запускать с наименьшими усилиями, чтоб если что - потом просто удалять сервер и забивать, а не заниматься переносом доров и подсчётом "какой домен сколько трафика даёт". Выстрелила пачка - отлично, оставляем сервер и платим за него дальше; не выстрелила - в топку его .

🔥 Многие ВМы покупают VPS и ориентируются только на заявленные характеристики, а по итогу хостер может адски оверселлить и вы по факту будете платить за худшие характеристики. И чтобы узнать не попалил ли вы на нагруженную ноду - придумали бенчмарки. Но какого-то хрена днём с огнём не сыщешь результаты из бенчей. Есть несколько сайтов, кто публиковал их у себя, но там они или устарели или нет хостеров, которые интересны.

👉 Поэтому было решено по фану сделать канал в Telegram, куда будут выкладываться ваши бенчмарки с вашими реферальными ссылками: @VPSBench
Идея донельзя простая: вы запускаете у себя бенчмарк, копируете результаты и присылаете их вместе с рефссылкой. А я публикую это в канале, сделав небольшую выжимку. Возможно, в дальнейшем эта идея перерастёт во что-то большее, но сейчас как MVP (прототип) - канал в телеге, по-моему, является идеальным решением, чтоб стартануть и проверить работоспособность идеи. Да ещё и польза всем от этого будет 🙂

👾 Сейчас там уже опубликованы несколько моих бенчмарков и бенчей от друзей, вот лучшее из того что протестировано:
Servercheap: https://t.me/VPSBench/9
DigitalOcean: https://t.me/VPSBench/6
ITLDC: https://t.me/VPSBench/7

😜 Ну что, надеюсь вас заинтересовала идея получить рефералов на халяву всего лишь пробенчив свои VPS? Тогда велкам:
Forwarded from VPS Benchmarks
Вы делаете бенч на своей VPS - мы постим вашу реферальную ссылку. Всё просто: https://bit.ly/2RrmUCW

Чтобы "пробенчить" VPS нужно всего лишь выполнить в ssh команду:
curl -LsO https://raw.githubusercontent.com/laset-com/speedtest/master/speedtest.sh; bash speedtest.sh


После окончания - скопируйте ВЕСЬ (обязательно первую строку с версией + последние строки с Share results) вывод из консоли и запосте его на pastebin.com , а затем пришлите результаты через форму: https://bit.ly/2RrmUCW
🤔 Всегда хочется получать больше профита с трафика без его увеличения. А в моменты, когда гугл «кошмарит» и срезает от 20% до 70% переходов — эта тема становится ещё более интересной и востребованной.

Именно поэтому я написал большую статью о замере и улучшении конверсии. Пересылай это сообщение коллегам, если им это пригодится! 😜

https://vk.com/@lord.alfred-conversion-improvement-metrika
💆‍♂️ Осенью на Zenno-форуме появился раздел с бесплатными шаблонами, куда команда ZL выкладывает различные полезные и простые проекты (регеры, постеры, парсеры). И там же есть запрос на создание новых шаблонов, где через голосование определяется что они выложат ещё. И как-то давно я попросил запилить парсер товаров и отзывов с Amazon (потому что самому не хотелось ковыряться, а тут такая прекрасная возможность делегировать, да ещё и без оплаты), а они взяли и сделали 😛

🤠 Правда, я был бы не я, если бы в момент допиливания того проекта не решил переделать всё практически с нуля 🙃 Когда сделал - понял, что чего зря добру пропадать - работает он стабильно, данных тащит гораздо больше чем базовый шаблон - и выложил свою реализацию в ту же ветку: https://zennolab.com/discussion/threads/parser-tovarov-i-otzyvov-s-amazon-get-post.70842/ (доступ только клиентам).

🤔 В целом есть мысли зайти в товарку с дорами и посмотреть как там. Правда, вроде понятно что лить через белый преленд на амазон скорее всего затея чреватая постоянными банами афф акка, поэтому присматриваюсь к паре других магазинов поменьше, у которых есть партнерские программы. И вот как раз в целом интересно было бы пообщаться с теми, кто уже "в теме" и пилил доры под бурж товарку. Может быть есть такие камрады у меня в подписчиках? 😉
😵 Machine Learning, 👹 Глубокое обучение, 🤕Бустинг, ☠️ Кластеризация и 🤖 Классификация. А также другие страшные слова, которые всем интересны, но так лень разбираться в сложных научных публикациях...

🤜 Наткнулся на статью, где это всё объясняется простым языком и без километровых формул:
https://vas3k.ru/blog/machine_learning/
🤕 После прихода BERT - гуглопоиск потерял часть хвостов из НЧ-запросов, но это не главная беда. Ещё одна задача, с которой успешно справляется данная нейронная сеть - это предсказание логичности текста. То есть он с высокой точностью может определить на сколько у вас согласованы предложения в тексте между собой, а не просто нахерачена мешанина сниппетов или "марковка". (Сразу сделаю тут disclaimer: значимость текста в разных нишах - различается)

☠️ Многие уже зареклись и начали уходить из дорвеев, потому что всё и идёт к тому, что Google с его TPU v3 Pod (в которой больше 100 петафлопс мощности и 32ТБ(!) оперативной памяти, а таких подов - целые фермы) тренирует какие-то дикие решения на основе ответов асессоров и рано или поздно он выкатит это в виде Core Update. Погуглите ради интереса какая мощность у вашего ПК/сервера, которым вы генерите доры и сравните во сколько раз ресурсы гугла превосходят ваши...

🎖 Думаю, в этом нет ничего страшного и оно скорее закономерно (уже десять лет твердят "в дорах денег нет"), но ведь для кого-то оно так и есть. И логично, что с каждым годом уровень входа повышается (хотя хватает и "везунчиков"), но прогнозировать масштабируемость тех или иных действий крайне сложно уже несколько лет подряд.

🏊 Поэтому те, кто ещё на плаву и пытаются бороться - ищут всё новые решения, которые помогут взобраться на вершины Google-Олимпа. И я не исключение. В связи с этим мой рисёч сейчас нацелен на готовый парсер, который сможет с очень большой вероятностью извлекать контент из html-страниц. Вроде логично, что это задача не решается с высокой точностью, но приемлимые результаты должны быть. И вот блуждая по просторам наткнулся на прекрасный доклад Михаила Коробова (автора pymorphy2, разработчика из ScrapingHub, автора множества полезных OpenSource-решений). Те, кто со мной на одной волне - оценят междустрочные идеи, которые там рассказаны:
https://www.youtube.com/watch?v=l11caoD_MFc
🌚 Решил попробовать новый формат: раз в неделю буду публиковать топ ссылок, которые могут заинтересовать мою аудиторию, то есть вас (ведь мы на одной волне? 😉). Потому что очень много всего интересного замечаю вокруг, а идеи - ничего не стоят, ими можно делиться для общего блага. Всё равно не хватит сил и времени запилить даже половину из этого. Да и сложно "рождать" крутые решения хоть в сколько-нибудь стабильном режиме, поэтому лучше годнота от меня будет не часто, а вот мысли головы постараюсь вливать в блог стабильнее. Зачем ему простаивать?)

🦄 Формат сильно экспериментальный, поэтому очень жду от вас фидбека!

📈 Наш "хитпарад" начнут несколько нововведений в выдаче Google.
Не так давно они выкатили в поиск фавиконки у сайтов, причём задизайнили это визуально так, что блоки рекламы (для выдачи на английском) не сильно отличаются от обычных результатов, поэтому народ поднял баттхёрт на этот счёт: https://vc.ru/103120 - вроде даже корпорация пообещала провести тесты и найти более оптимальный вариант. Хотя арбитражники, наверное, кайфанули от повышения CTR после выкатки этих изменений (или CTR не апнулся?).
А ещё в некоторых тематиках в выдаче адовое количество эмоджи: https://t.me/devakatalk/2032 - выглядит это дико, но каждый (даже белый сеошник) использует из всех возможностей максимум в условиях конкуренции.

🔦 Очень в тему сейчас будет перейти к Bing'у. Я вообще не видел чтоб кто-то про это писал (может про😶бал), но этот хитрый поисковик начал использовать тот самый страшный BERT ещё раньше, чем его официально выкатил гугл у себя в поиске: https://azure.microsoft.com/en-us/blog/bing-delivers-its-largest-improvement-in-search-experience-using-azure-gpus/
"Starting from April of this year, we used large transformer models to deliver the largest quality improvements to our Bing customers in the past year" - и как раз есть информация из неподтвержденных источников о том, что в бинге в апреле знатно трясло выдачу (кто в курсе, инфа достоверна? 🤔).

🏃‍♂️ Да и в целом Mircosoft, конечно, молодцы - у них очень сильный отдел по AI. На днях вышел релиз о том, что они смогли ускорить работу BERT в 17 раз (там немного читерство в цифрах, но оставим это на их совести): https://cloudblogs.microsoft.com/opensource/2020/01/21/microsoft-onnx-open-source-optimizations-transformer-inference-gpu-cpu/

🐿 А ещё оказывается, что гугл кроме разработки своих мощнейших TPUv3 - вкладывается в разработку барби-сайз TPU-чипов, которые могут решать узкоспециализированные задачи, но зато они дешёвые и их можно присрать куда-то к себе (например, в self-driving гироскутер, гг): https://coral.ai/products/

🦂 Начало 2020 года ознаменовало то, что изо всех щелей кричат про агрегаторы и статьи-обзоры. "Вон, в выдаче весь топ забит ими!11 Давайте тоже делать их или лучше соберём по 100 рублей и закажем свой агрегатор агрегаторов!!!" - как-то только упускается тот факт, что даже если и есть какой-то высокий коэффициент при ранжировании таких сайтов с самого начала, то он явно не будет длиться вечность. И пока все раскачаются - всё может сдохнуть (а может и не сдохнуть, фриномы весь 2019 год топ засоряли).

🎲 Ну да ладно, кто-то ведь пишет и годноту про агрегаторы. Например, Игорь Рудник рассказал про весьма интересную идею куда можно податься арбитражить, если есть навык и рука намётана: https://t.me/rudnyk/22
Вкратце: у некоторых крупных агрегаторов и подобных сайтов есть свой РК, где можно купить траф, который идёт с поиска и приходит уже достаточно горячим, чтоб шкворчать у вас в виде звонкой монеты.

🏆 Михаил Щербачев поделился мыслями о ранжировании внутри этих самых агрегаторов: https://t.me/mflow/306 - основной посыл в том, что сейчас там нет того самого рокет дата саенса, а алгоритмы на уровне гугла из тех самых времён, когда "доры были живы".

🇮🇳 Как складно получается переходить с темы на тему в этот дебютный пост! Недавно Google обновил свою инструкцию для асессоров: https://static.googleusercontent.com/media/guidelines.raterhub.com/en//searchqualityevaluatorguidelines.pdf
(читай далее...)