👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮
694 subscribers
226 photos
7 videos
52 links
DA + DE = AE? @ little🇫🇮startup,
Ex Product Data Analyst @ SkyEng,
Ex Data Engineer @ Starship (delivery robots),
Ex Data Analyst @ EPAM,
Я НЕ РАЗМЕЩАЮ РЕКЛАМУ,
Личка открыта https://t.me/jarikor ,
(надо нормальное название каналу придумать)
Download Telegram
Итак, функция в облаке работает исправно.

Триггер «Таймер» работает исправно.

Значит теперь заворачиваю всё это в инструкцию (поделиться не могу, это рабочий продукт, негласный NDA и т.д.)

Но, облако свою задачу выполняет. Осталось это описать, чтобы любой участник в команде смог повторить.
Forwarded from addmeto (Grigory Bakunov)
Судя по коммитам в исходный код signal причина его падения оказалась анекдотической: из-за роста числа пользователей часть серверов начала отвечать внутренней ошибкой 508. Это сообщение не обрабатывалось клиентом, и поэтому сразу после его получения клиент снова обращался к серверу (и так по кругу, без возможности выода). Сами себе устроили DDoS. https://twitter.com/NovakDaniel/status/1350471722034745348
Чтоб было смешнее — ошибка 508 имеет название loop detected.
Честно свиснул в другом канале, за контент которого не могу ручаться, поэтому не репостом, чтоб не вовлекать вас в непонятные каналы.

Цитата «🔥Первый случай применения технологии deep fake русскоязычными мошенниками.
Мошенники сделали 28-минутный видеоролик, в котором известный предприниматель, основатель Flocktory и Dbrain Дмитрий Мацкевич продвигает систему заработка на основе искусственного интеллекта.
Зацените ролик.
Но Дмитрий Мацкевич ничего подобного не делал. Видеообраз сгенерирован компьютером.
Цель мошенников — завлечь в лжеброкера Barclay Stone, где телефонные мошенники присвоят деньги, иногда очень большие.
Вот ещё один дип-фейк-ролик на 2 минуты с приглашением на мастер-класс Дмитрия Мацкевича с обещанием дохода в 360% годовых.
Раньше мошенники ограничивались тем, что меняли звук в существующих видео с известными персонами. Но технологии развиваются.»
Я не пропал. Делаю одну прикольную штуку.
Ведь для аналитики надо не только уметь обрабатывать данные, но и добывать.
Поэтому последнюю неделю я плотно изучал курс по парсингу от Молчанова.

Чтобы не сохранять на компе 5 тыс страниц, собрал парочку для изучения их строения.
И пишу сейчас функции для сбора данных прям на ходу, и сохранения в БД (пока в цсв-шку, потом хочу в скулайт загружать)

Готовлю интересный кейс по аналитике на основе этих данных

Думаю выборки в 5235 единиц данных должно хватить для неплохого исследования.
Оп. Какая клёвая идея для пет-проекта.
Forwarded from Вадим Курило
Написали бота, куда можно ввести слово, а на выходе получить график из Google Trends. Бот бесплатный, прошу только подписку на канал. Так как вы уже подписаны, то от вас ничего не нужно) Пользуйтесь @G_trendsBot
Итак. Парсер работает отлично (см. выше).
Данные спарсил, в таблицу выгрузил.
Но это ещё не все данные)))

Пока я парсил только то, что выдаётся на главной странице сайта. По 50 проституток на странице, всего страниц 104 было.

Сегодня буду обогащать собранные данные, парсингом каждой отдельной страницы проститутки. Оттуда надо достать перечень допуслуг, рейтинг и отзывы. А также имя)))

А, ещё надо разделить данные внутри двух столбцов, а то у меня «технические характеристики» слипшиеся по две характеристики в одной ячейке (издержки ранних версий функции парсинга, надо докручивать), в первую очередь этим займусь.

И ещё, надо проверить, почему собралось 4900 строк данных, а не 5300. Где-то явно ошибка, которую я не обработал.

Ну и потом буду лоск наводить, в виде дикт.компрехеншенов и прочего.

Будет рок-н-ролльная аналитика на этой неделе😏По московским проституткам🔥
Долго не писал, но были уважительные причины — я переезжал из одного города в другой. Вместе со всеми вещами, компом и т.д. Уйма времени ушло на выгрузку вещей из шкафов, сортировку (что на выброс, что оставить у родителей, что взять с собой), упаковку этого всего, отправку транспортной компанией, и т.д.

В общем, переехал, рабочее место теперь выглядит так (пикча)

По парсингу (эксперименты до переезда):
Парсинг опять стопорится в районе 100-120 спарсенной страницы.

Парсил через подключение прокси, с заменой прокси на каждом запросе, и дополнительно заменой хедера запроса, тоже на каждом запросе новый хедер.

Список прокси для подмены менялся каждые 3 запроса на страницу (каждые 10 минут).

Но всё равно парсинг блокируется.
Уточнил у коллеги, мне сказали, что всё равно есть риск засветиться, что ты с одного источника парсишь, даже если через прокси и замену хедеров работаешь.

Пока вижу решение только в парсинге через ТОР, когда изначальное подключение тоже меняется каждые Х минут.

Завтра продолжу парсинг.
Forwarded from Вастрик
Штош, как обсуждали выше, сделали чатик публичным на всех. Теперь можно звать годных (но голодных без долора) ребят извне: https://t.me/indiehackers_club
👆🏻По следам новости🔥Добавляйтесь, https://t.me/indiehackers_club сделали этот чат открытым для всех. Там мы запускаем пет-проджекты, обсуждаем идеи стартапов, делимся опытом и зарабатываем на собственных проектах (не все, 27% участников стартуют свои пет-проекты, остальные ищут идеи или тестируют ещё) и платим нологи.

Если не в курсе, чо за чат такой и вообще → наша секта → https://vas3k.club/, основатель → https://vas3k.ru. Внутри секты стопка чатов тематических. Вот это чатик про вайтишные и не очень проекты.

Админю я.

Дружно, не душно, короч збс.
🎉Ура, блин! Счастья — ВАГОН.
С 24 мая официально в EPAM'е.
Изобрели сегодня с коллегами новый антидепрессант.
УРААА!!! НАКОНЕЦ-ТО!!!
В Python 3.10 завезли аналог «switch-case»!!!


def http_error(status):
match status:
case 400:
return "Bad Request"
case 404:
return "Not Found"
case _:
return "Что-то не то"
Неистово рекомендую.
https://intuit.ru/studies/courses/599/455/info
«Проектирование хранилищ данных для приложений систем деловой осведомленности (Business Intelligence Systems)»

Да, академично, да, иногда воды больше чем в воде, т.к. см.выше «академично».

Но именно благодаря этой скучной и «водной» академичности, курс очень детально и фундаментально разбирает вопрос организации БД и ХД, в частности, для анализа данных.

Если будете изучать курс, от души прошу «купить» его официально, ибо стоит он 100 рублей.
- - - - -
В догонку к предыдущему посту про проектирование хранилищ данных.

Откуда я этот курс нарыл, зачем, и вообще с чего.

Меня тут на проект новый подключили, а там внезапно надо быстро OLAP-кубы освоить, и работа будет на «скучной» MS SQL SMSS (вместо какой-нить модной ClickHouse) и IBM TM1 (вместо модного PowerBI).

Ну и так как данных будет ТАКОЙ ВАГОН АХРЕНИТЕЛЬНОГО РАЗМЕРА, то для хорошей масштабируемости, решено было применить OLAP-кубы (я пока не вижу связи, т.к. это для меня новое явление).

Пришлось экстренно искать материалы, по этой технологии, которую везде называют «устаревшей и моветоном». При этом, все 🤡 критики🖕🏻 почему-то в упор забывают, что обычные SQL базы не скейлятся бесконечно (если не оракл) и the rule of thumb — когда за миллиард строк выходишь — становится неприятно. Обычно используют map reduce базы, типа хадупа (Hadoop, из семи залуп).

В этом проекте, видимо, Оракл по деньгам не вариант. Или ещё почему-то, я не знаю, какой бог запретил. И почему Apache Hadoop не вариант — тоже не знаю. Поэтому расово-верным решением выбрали MS SQL завёрнутый в OLAP-cubes.

Пришлось гуглить, и искать по телеграм-каналам. У коллеги https://t.me/rockyourdata нашёл в древнем-древнем посте совет про этот курс. Глянул. И не пожалел. Вот делюсь с вами теперь курсом.

Наращиваю функционал Data Engineering в придачу к Data Analysis. А скоро ещё сертификация по Amazon Data Analytics - Specialty... И ещё курс Карпова (по аналитике) не кончился. Домашки не тронутой целая поляна.

И ещё одна новость, о котрой надеюсь уже скажу на следующей неделе, жду документ один, очень глобально важный.

Эх, успеть бы всё, и не порваться)))
О, у Яндекса появился курс по своему облаку. Бесплатный.
Больше не придётся тыкаться как слепой котёнок наугад и экспериментальным путём узнавать, что да как там настраивается, чтоб «грамотно».
https://practicum.yandex.ru/profile/ycloud/
Без скрина как-то куцо смотрится пост.
На курсе у Карпова дали доступ к ВКшному облаку и накинули туда баланса.

ШТОШ, пощупаем.

Интересно, кроме как ценой — как будут биться Яндекс.Облако и VK Cloud, будут ли явные разграничения в ЦА и функционале и т.п.