Hostloc 新帖图文推送 – Telegram

Hostloc 新帖图文推送

1.76K subscribers

59.5K photos

392K links

本频道基本功能：爬取国内外有名的主机论坛Hostloc新帖，为订阅者提供一手图文资讯！

Hostloc: https://www.hostloc.com

侵删，联系 @CodyD

Download Telegram

About

Blog

Apps

Platform

Hostloc 新帖图文推送

1.76K subscribers

Hostloc 新帖图文推送

标题：1：6.2出paypal余额，长期出，有需要的老板进来看看
作者：左手写爱 #uid24325
原帖：https://hostloc.com/thread-1032716-1-1.html

摘要：三年前就开始换了，只是最近发现QQ不知道为什么别人不能直接加我了，可能有想联系的联系不上了

换的比例还是1：6.2 50刀起付

有需要的大佬留下你QQ或者微信号（已设置回复可见），或者私聊留你QQ或者微信号都行

诚信兑换，也不多，每个月也就几百，有需要的大佬留你QQ或者微信号吧

20 views09:56

Hostloc 新帖图文推送

标题：新东方才是直播带货的未来
作者：氵氵 #uid57828
原帖：https://hostloc.com/thread-1032717-1-1.html

摘要：里面主播个个都是学识惊人的高材生，不止会英语那么简单。也不会出现李家琦这种低级错误

21 views09:59

Hostloc 新帖图文推送

标题：VMware ESXi创建的端口组
作者：mryuyi #uid31824
原帖：https://hostloc.com/thread-1032718-1-1.html

摘要：VMware ESXi创建的端口组怎么虚拟机不可用，哪里有教程啊

21 views10:03

Hostloc 新帖图文推送

标题：我艹，还准备长期持有套路云传家的，看到这一出？？
作者：t9913085 #uid23080
原帖：https://hostloc.com/thread-1032719-1-1.html

摘要：https://hostloc.com/thread-1032715-1-1.html

21 views10:14

Hostloc 新帖图文推送

标题：Vue File Manager – PHP即时存储谁有
作者：小旭 #uid26008
原帖：https://hostloc.com/thread-1032720-1-1.html

摘要：Vue File Manager – PHP即时存储谁有

19 views10:16

Hostloc 新帖图文推送

标题：谁买过一人之下漫画?借我登录一下扒一下漫画
作者：hechuan #uid37193
原帖：https://hostloc.com/thread-1032722-1-1.html

摘要：谁买过一人之下漫画?借我登录一下扒一下漫画
想看,网上流传的画质都太糊了
有没有好心人
-6df66483db10406f.jpg (38.83 KB, 下载次数: 0)
下载附件
1 分钟前上传

20 views10:19

Hostloc 新帖图文推送

标题：注册的无忧行为什么老是收到这种短信
作者：ssjoy #uid34953
原帖：https://hostloc.com/thread-1032721-1-1.html

摘要：是这个号之前做过什么业务，还是纯粹就是垃圾诈骗短信

20 views10:19

Hostloc 新帖图文推送

标题：啥叫正规银行办业务，那些金融开门不是他们发的证？
作者：暗夜精灵 #uid37235
原帖：https://hostloc.com/thread-1032723-1-1.html

摘要：那些金融相关的哪个不是当地金融发的证？
他们只管发证中间从来就不管了，
就算不管，那些金融银行还是公司开门的干什么黑勾当，当地管金融都门清，他们装瞎呢

17 views10:20

Hostloc 新帖图文推送

标题：纯技术分享：关于采集和反采集的那些事
作者：委员 #uid58269
原帖：https://hostloc.com/thread-1032724-1-1.html

摘要：当今互联网一大抄，搜索引擎遍布重复内容，大站采集小站，小站苟延残喘，作为一名网站主该如何杜绝爬虫，防止内容被抓取呢？附送私家内容：采集三大绝招。

  本文来自著名MJJ论坛ID: 委员，仅供参考，本篇内容无版权，任意COPY，所引起的任何法律纠纷与本ID无关。

   防采集三大招
1、防采集三大招第一招之加钱可及

最简单直接的方法，在DNS层面过滤爬虫IP，Dnspod付费版提供了分线路解析，针对机房IP解析到127.0.0.1。很多大站采用了这种方式，可以规避大部分垃圾国内爬虫。
2、防采集三大招第二招之触不可及

通过user_agent判断特征码过滤蜘蛛，主要针对国外数据收集爬虫，有些蜘蛛真的是玩命爬，很容易造成宕机。Nginx 配置代码
set $flag 0; if ($http_user_agent ~* (spider|bot|X11|Scrapy|colly|curl|HttpClient|python|php|Java|SM-G900P)) { set $flag "${flag}1"; } if ($http_user_agent !~* (baidu|so|360|sogou|toutiao|google|bing|sm|yandex)){ set $flag "${flag}2"; } if ($flag = "012") { return 403; set $logfile  /home/wwwlogs/black.log; access_log /$logfile; }复制代码
简单说明下，一般蜘蛛都会有bot或者Spider特征码，比如Baiduspider，过滤掉不需要的非主流蜘蛛，还有些是Python和Go写的爬虫，用的默认头，也可以过滤掉。

高级玩法： Bash脚本定期分析black.log日志，提取垃圾蜘蛛IP加到Iptables，把蜘蛛拦截在防火墙外，效率更高。

当然你也可以和我抬杠说，我伪造user_agent爬不就得了，但是IP是不可能伪造的，比如百度蜘蛛就beijing和山西两个IP归属地，作为网站站长养成看日志的习惯，人工判断才是最有效的。
3、防采集三大招第三招之一触即发

在Nginx中限制Ip爬取频率，限制同一IP最大并发数和爬取速率，但这种方式有可能误伤。

在nginx.conf里的http{}里加上如下代码：
limit_conn_zone $binary_remote_addr zone=perip:10m; limit_conn_zone $server_name zone=perserver:10m;复制代码
在需要限制并发数和下载带宽的网站配置server{}里加上如下代码：
limit_conn perip 2; limit_conn perserver 20; limit_rate 100k;复制代码
补充下参数说明：
$binary_remote_addr是限制同一客户端ip地址；
$server_name是限制同一server最大并发数；
limit_conn为限制并发连接数；
limit_rate为限制下载速度；
私家内容：采集三大绝招

这里仅讨论Python采集思路，高i铁头这种门槛较低，只适合小规模爬内容。

1、Selenium WebDrive

Selenium WebDriver本用于web应用程序的自动化测试，因为是通过浏览器的驱动（web driver）来驱动操作浏览器，所以可以100%的模拟浏览器的行为，主要针对一些有交互动作的站，比如下拉才能显示内容的。因为涉及内容较多，有兴趣的可以自行Google，这里分享个自用函数。
from selenium import webdriver from selenium.webdriver.common.keys import Keys def fetch_html(url):       chrome_options = webdriver.ChromeOptions()       chrome_options.add_argument("--headless")       chrome_options.add_argument('no-sandbox')       chrome_options.add_argument(" --window-size=1920x1080")       chrome_options.add_argument('disable-dev-shm-usage')       chrome_driver = os.getcwd() +"/chromedriver"       driver = webdriver.Chrome(chrome_options=chrome_options,executable_path=chrome_driver)       driver.get(url)       elem = driver.find_element_by_tag_name("body")       no_of_pagedowns = 2       while no_of_pagedowns:          elem.send_keys(Keys.PAGE_DOWN)          time.sleep(0.2)          no_of_pagedowns-=1       html_source = driver.page_source       driver.quit()       return html_source复制代码
2、fake_useragent 伪造浏览器特征

前面也说了可以通过特征码屏蔽爬虫，反过来也可以伪造浏览器特征码，推荐fake_useragent，使用方法：
from fake_useragent import UserAgent header = { "user-agent": UserAgent().chrome }复制代码
3、无论是模拟浏览器还是随机浏览头，都容易因为爬取过多被屏蔽IP，比如百度下面的栏目，几乎都作了IP限制，最多爬个几千条就会被Ban，这时候就要用到另一神器动态IP代*理，可以自建代*理池，也可以用现成的，这里只说使用方法：
def get_proxie(random_number): ip_random = -1 url = ' '#代*理API result = requests.get(url).text ip_list = result.split() if random_number == -1:    random_number = random.randint(0, len(ip_list) - 1)    ip= ip_list[random_number].strip()    proxies = { 'https': ip} return proxies proxies = get_proxie(ip_random) requests.get(url, headers=headers,params=params,proxies=proxies,timeout=10) 复制代码
随机UserAgen+动态IP，只要池子足够大基本可以做到百战百胜，无所不能爬，如果有验证码，还要把验证码识别加进去，这就是更高级的玩法了。

17 views10:21

Hostloc 新帖图文推送

标题：I类卡银行卡不难办啊。
作者：xiaobaiyang #uid45063
原帖：https://hostloc.com/thread-1032725-1-1.html

摘要：上午去办了张邮政，到那就给开了，让签了保证书，柜员说不能用于ZP啥啥啥的，然后就给开卡了。I类卡~

19 views10:26

Hostloc 新帖图文推送

标题：大佬们这套是什么源码?挺好用的,求告知
作者：uiceo #uid33716
原帖：https://hostloc.com/thread-1032726-1-1.html

21 views10:28

Hostloc 新帖图文推送

标题：高防服务器的原理是啥
作者：窝窝头 #uid56417
原帖：https://hostloc.com/thread-1032728-1-1.html

摘要：专用通道清洗吗

19 views10:29

Hostloc 新帖图文推送

标题：今晚看超级月亮~不要错过~
作者：MSN #uid50007
原帖：https://hostloc.com/thread-1032731-1-1.html

摘要：最圆时刻出现在19时52分。

18 views10:31

Hostloc 新帖图文推送

标题：我觉得这次有必要杠一下，虽然知道赢的几率不大。
作者：螃蟹就得走直线 #uid54298
原帖：https://hostloc.com/thread-1032732-1-1.html

摘要：前文书道：一张中转卡莫名其妙被冻结，而且理由是涉案账户其他名下账户。

疑问：
1、如果涉案账户，为什么不直接问询？而且字面理解是我名下的其他卡片涉案所以导致我的农行卡被总行冻结。那么问题来了，我哪张卡涉案不是应该冻结相应的银行账户，必要时由GA机关对我提出质询吗？

2、上一贴很多朋友说应该是收到不干净的钱，所以被株连，这个理由看似合理，实则也并不合理啊，我名下还有农商行、工商银行、中国银行的卡，为什么其他那些卡都正常，单单这张就是中转一下图省事存个零钱的卡被冻结，如果银行理由成立的话，应该我名下所有银行都被冻结才对，既然涉案了要保全财产以做后期的赔付啊甚至还要追缴才对。而且我想请问在座各位，怎么区分钱干净还是不干净，这不是又是一个口袋吗？

3、快进快出触发风控，涉嫌跑分/WD，这个理由更牵强，虽然说风控是人编写的程序的，按照一定逻辑执行，但是我想请问，我的A卡秒转到B卡，这样的跑分图个啥？图转账的乐趣还是这样跑分会金额自动翻倍达到财富增长。WD可以直接排除，平时连牌都不打的人去WD，他们信不信我不知道，但是我自己都会笑。再说WD，我自己做庄自己玩嘛？A卡转B卡，B卡钱在账户里，那么按照逻辑是不是我就是那个庄？要说涉嫌套现那我承认，开店的人没有几个不套线的，那么问题来了，TX要被封掉多少卡。

目前已经投诉至总行和当地支行，查明申请冻结机构和冻结具体事由，如果后期有必要，我一定要申请行政复议，因为这不是简单事，毕竟这个口袋可以装太多了，可以装石头也能装稻米，涉案二字对于普通老百姓之后的影响没人可以估计，假设以后我孩子考公或者其他什么需要政审的时候，万一给我记录里留下一个涉案嫌疑人的头衔，对我对我小孩都不公平。
我非杞人忧天，只是看到的，听到的故事太多，所以这次绝对要杠一把，不论输赢。

19 views10:32

Hostloc 新帖图文推送

标题：能开巴西奈飞的VPS哪里有卖？
作者：403_Forbidden #uid47357
原帖：https://hostloc.com/thread-1032734-1-1.html

摘要：如题。

16 views10:37

Hostloc 新帖图文推送

标题：出甲骨文55元保首登/75元包7天（封号或无权限免费...
作者：xncxxw #uid18169
原帖：https://hostloc.com/thread-1032733-1-1.html

摘要：出甲骨文55元保首登/75元包7天（封号或无权限免费换新）。

出售甲骨文全新账号，任选区域，

新号55元，保首登账号正常无异样。

75元包7天，7天内封号或无权限免费换新（时间从账号注册创建时间开始计算）

欢迎来小组交流指导： https://t.me/Jiaguwen_tegong666

另有几个上老号
迪拜65天，160元,卖了10天，还在手里，好伤心
凤凰城70天，150元
凤凰城145天，200元

19 views10:37

Hostloc 新帖图文推送

标题：宝塔第三方云端已支持Windows面板
作者：ccclt #uid58150
原帖：https://hostloc.com/thread-1032735-1-1.html

摘要：宝塔面板第三方云端现已支持Windows版本面板
https://github.com/flucont/btcloud

19 views10:38

Hostloc 新帖图文推送

标题：吃瓜行业也太卷了
作者：kmbeer #uid10499
原帖：https://hostloc.com/thread-1032736-1-1.html

摘要：一个瓜还没结束，另一个瓜就来了，经常好几个瓜一起上市，这状况好像有些日子了。

20 views10:46

Hostloc 新帖图文推送

标题：【CXT出品必属精品】发个连接chain PVE7 链接
作者：MeowLove #uid26467
原帖：https://hostloc.com/thread-1032739-1-1.html

摘要：【CXT出品必属精品】发个连接chain PVE7链接

ODC首页 / SyStem / Proxmox-VE

https://odc.cxthhhhh.com/SyStem/Proxmox-VE
chain .......(你懂的)复制代码
https://odc.cxthhhhh.com/SyStem/Proxmox-VE/pve7-temp复制代码

18 views10:52

Hostloc 新帖图文推送

标题：CasaOS玩了一天果然不错
作者：我是坏虫 #uid26668
原帖：https://hostloc.com/thread-1032740-1-1.html

摘要：同步功能也好用
我的堪萨斯垃圾场10刀有用处了

16 views10:53

Hostloc 新帖图文推送

标题：收个彩虹发卡
作者：hyperion #uid58019
原帖：https://hostloc.com/thread-1032741-1-1.html

摘要：有卖的联系我

16 views10:58