标题:采集图片站批量调用aria2c下载图片并保持完整路径
作者:魔鬼筋肉人
原帖:https://hostloc.com/thread-835626-1-1.html
摘要:示例:
有N多条这样的链接
http://www.xxxx.cn/Uploads/editor/2015-04-17/5530b7ad82e8b.jpg
批量调用aria2c把图片下载保存到本地,保存路径像这样完整保留 ./attaches/Uploads/editor/2015-04-17/5530b7ad82e8b.jpg
-------------------------------------------------------------------------------
本人实测aria2c一次性下载几千条图片的话容易下载出错,保存不完整,有些直接没下载成功
最理想的一次下载次数就是200条左右
所以大概思路就是循环调用aria2c下载200张图片保存完整路径,直到把down.txt里的URL链接都下载完毕
工具不局限aria2c,有其他更好的办法也行
希望有采集大佬能出手相助,呜呜呜
解决的话小弟送上大礼
如果能有WIN和centos运行的代码就更好了,太复杂的话我付费也行
下面分享之前我整理的代码,但是效果不太理想,步骤繁琐
因为近期需要下载图片后按照图片的URL链接保存到完整路径
-------------------------------------方法1-----------------------------------------------------
#Aria2批量下载txt里的url
#down.txt是图片URL,格式一行一条xxxx.jpg,cd进入down.txt所在的目录然后调用aria2c批量下载,下载的目录是你自己在aria2c里配置
#缺点:只能下载保存到同一个目录里,不能按照URL路径保存完整的路径
cd /www/wwwroot/wwwroot/pic aria2c --auto-file-renaming=false down.txt 复制代码
配合下面的代码可以批量移动到原来的路径,就是URL路径是什么样这条代码就创建目录并移动进去
#注意文件权限是否是755
#如果运行不了的话在notepad++里转换为UNIX
#执行方法:
先把代码另存为1.sh再运行这两行命令
cd /www/wwwroot/pic
bash 1.sh down.txt
for line in `cat $1` do if [ ! -z "$my_var" ];then echo $line line=`echo $line | sed 's/http:\/\///' | sed 's/https:\/\///' | sed 's/\\r//g'` file_path=${line#*/} current_file=${file_path##*/} file_directory=`echo $file_path | sed "s/$current_file//"` mkdir -p $file_directory mv -u $current_file $file_directory fi done复制代码
-------------------------------------方法2----------------------------------------------------- //图片地址 $url ='http://www.xxxx.cn/Uploads/editor/2015-04-17/5530b7ad82e8b.png'; /* 保持原有路径,文件名不变。 图片将保存到本地 ./attaches/Uploads/editor/2015-04-17/5530b7ad82e8b.png */ $pathname = './attaches'.dirname( parse_url( $url , PHP_URL_PATH) ) ; $filename =basename( $url ); $data['picname'] =$pathname.'/'.$filename; getImage($url ,$save_dir=$pathname, $filename); /* *功能:php完美实现下载远程图片保存到本地 *参数:文件url,保存文件目录,保存文件名称,使用的下载方式 *当保存文件名称为空时则使用远程文件原来的名称 */ function getImage($url,$save_dir='',$filename='',$type=0){ if(trim($url)==''){ return array('file_name'=>'','save_path'=>'','error'=>1); } if(trim($save_dir)==''){ $save_dir='./'; } if(trim($filename)==''){//保存文件名 $ext=strrchr($url,'.'); if($ext!='.gif' && $ext!='.jpg' && $ext!='.jpeg' && $ext!='.png' ){ return array('file_name'=>'','save_path'=>'','error'=>3); } $filename=time().$ext; } if(0!==strrpos($save_dir,'/')){ $save_dir.='/'; } //创建保存目录 if(!file_exists($save_dir)&&!mkdir($save_dir,0777,true)){ return array('file_name'=>'','save_path'=>'','error'=>5); } if(file_exists($save_dir.$filename)) { return array('file_name'=>'','save_path'=>'','error'=>6); exit; } //获取远程文件所采用的方法 if($type){ $ch=curl_init(); $timeout=5; curl_setopt($ch,CURLOPT_URL,$url); curl_setopt($ch,CURLOPT_RETURNTRANSFER,1); curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout); $img=curl_exec($ch); curl_close($ch); }else{ ob_start(); readfile($url); $img=ob_get_contents(); ob_end_clean(); } //$size=strlen($img); //文件大小 $fp2=@fopen($save_dir.$filename,'a'); fwrite($fp2,$img); fclose($fp2); unset($img,$url); return array('file_name'=>$filename,'save_path'=>$save_dir.$filename,'error'=>0); }复制代码
作者:魔鬼筋肉人
原帖:https://hostloc.com/thread-835626-1-1.html
摘要:示例:
有N多条这样的链接
http://www.xxxx.cn/Uploads/editor/2015-04-17/5530b7ad82e8b.jpg
批量调用aria2c把图片下载保存到本地,保存路径像这样完整保留 ./attaches/Uploads/editor/2015-04-17/5530b7ad82e8b.jpg
-------------------------------------------------------------------------------
本人实测aria2c一次性下载几千条图片的话容易下载出错,保存不完整,有些直接没下载成功
最理想的一次下载次数就是200条左右
所以大概思路就是循环调用aria2c下载200张图片保存完整路径,直到把down.txt里的URL链接都下载完毕
工具不局限aria2c,有其他更好的办法也行
希望有采集大佬能出手相助,呜呜呜
解决的话小弟送上大礼
如果能有WIN和centos运行的代码就更好了,太复杂的话我付费也行
下面分享之前我整理的代码,但是效果不太理想,步骤繁琐
因为近期需要下载图片后按照图片的URL链接保存到完整路径
-------------------------------------方法1-----------------------------------------------------
#Aria2批量下载txt里的url
#down.txt是图片URL,格式一行一条xxxx.jpg,cd进入down.txt所在的目录然后调用aria2c批量下载,下载的目录是你自己在aria2c里配置
#缺点:只能下载保存到同一个目录里,不能按照URL路径保存完整的路径
cd /www/wwwroot/wwwroot/pic aria2c --auto-file-renaming=false down.txt 复制代码
配合下面的代码可以批量移动到原来的路径,就是URL路径是什么样这条代码就创建目录并移动进去
#注意文件权限是否是755
#如果运行不了的话在notepad++里转换为UNIX
#执行方法:
先把代码另存为1.sh再运行这两行命令
cd /www/wwwroot/pic
bash 1.sh down.txt
for line in `cat $1` do if [ ! -z "$my_var" ];then echo $line line=`echo $line | sed 's/http:\/\///' | sed 's/https:\/\///' | sed 's/\\r//g'` file_path=${line#*/} current_file=${file_path##*/} file_directory=`echo $file_path | sed "s/$current_file//"` mkdir -p $file_directory mv -u $current_file $file_directory fi done复制代码
-------------------------------------方法2----------------------------------------------------- //图片地址 $url ='http://www.xxxx.cn/Uploads/editor/2015-04-17/5530b7ad82e8b.png'; /* 保持原有路径,文件名不变。 图片将保存到本地 ./attaches/Uploads/editor/2015-04-17/5530b7ad82e8b.png */ $pathname = './attaches'.dirname( parse_url( $url , PHP_URL_PATH) ) ; $filename =basename( $url ); $data['picname'] =$pathname.'/'.$filename; getImage($url ,$save_dir=$pathname, $filename); /* *功能:php完美实现下载远程图片保存到本地 *参数:文件url,保存文件目录,保存文件名称,使用的下载方式 *当保存文件名称为空时则使用远程文件原来的名称 */ function getImage($url,$save_dir='',$filename='',$type=0){ if(trim($url)==''){ return array('file_name'=>'','save_path'=>'','error'=>1); } if(trim($save_dir)==''){ $save_dir='./'; } if(trim($filename)==''){//保存文件名 $ext=strrchr($url,'.'); if($ext!='.gif' && $ext!='.jpg' && $ext!='.jpeg' && $ext!='.png' ){ return array('file_name'=>'','save_path'=>'','error'=>3); } $filename=time().$ext; } if(0!==strrpos($save_dir,'/')){ $save_dir.='/'; } //创建保存目录 if(!file_exists($save_dir)&&!mkdir($save_dir,0777,true)){ return array('file_name'=>'','save_path'=>'','error'=>5); } if(file_exists($save_dir.$filename)) { return array('file_name'=>'','save_path'=>'','error'=>6); exit; } //获取远程文件所采用的方法 if($type){ $ch=curl_init(); $timeout=5; curl_setopt($ch,CURLOPT_URL,$url); curl_setopt($ch,CURLOPT_RETURNTRANSFER,1); curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout); $img=curl_exec($ch); curl_close($ch); }else{ ob_start(); readfile($url); $img=ob_get_contents(); ob_end_clean(); } //$size=strlen($img); //文件大小 $fp2=@fopen($save_dir.$filename,'a'); fwrite($fp2,$img); fclose($fp2); unset($img,$url); return array('file_name'=>$filename,'save_path'=>$save_dir.$filename,'error'=>0); }复制代码
标题:哪家的ocr识别图片表格比较高?
作者:1204927751
原帖:https://hostloc.com/thread-835634-1-1.html
摘要:主要认识别有线的表格图片,用了阿里,百度,腾讯的ocr识别,图片表格是印刷字体,正确率不高,要么是把字识别成相近字,要么就是这行的内容识到右边的格子里面,明明有线的,识别录太差了
作者:1204927751
原帖:https://hostloc.com/thread-835634-1-1.html
摘要:主要认识别有线的表格图片,用了阿里,百度,腾讯的ocr识别,图片表格是印刷字体,正确率不高,要么是把字识别成相近字,要么就是这行的内容识到右边的格子里面,明明有线的,识别录太差了
标题:PHP装什么插件才能做到性能最优?
作者:老天师
原帖:https://hostloc.com/thread-835635-1-1.html
摘要:求大佬指点性能优化方案,通过插件或者软件
记得我使用过memcached,性能提升比较明显
怎奈孤陋寡闻,有没有比较系统的优化方案,或者还有其他优秀的插件,烦请指教
作者:老天师
原帖:https://hostloc.com/thread-835635-1-1.html
摘要:求大佬指点性能优化方案,通过插件或者软件
记得我使用过memcached,性能提升比较明显
怎奈孤陋寡闻,有没有比较系统的优化方案,或者还有其他优秀的插件,烦请指教
标题:移动把 GIA 限速了?
作者:ming997hk
原帖:https://hostloc.com/thread-835636-1-1.html
摘要:北方移动,不管是瓦工 GIA 还是南非 GIA (都是三网回程GIA),移动最高只能跑到 30M 左右了。
作者:ming997hk
原帖:https://hostloc.com/thread-835636-1-1.html
摘要:北方移动,不管是瓦工 GIA 还是南非 GIA (都是三网回程GIA),移动最高只能跑到 30M 左右了。
标题:中文后缀域名过期抢注删除列表哪里有啊
作者:嗷嗷
原帖:https://hostloc.com/thread-835637-1-1.html
摘要:看了一下西部、万网都是只有英文后缀的
比如.中国、.网址这些
作者:嗷嗷
原帖:https://hostloc.com/thread-835637-1-1.html
摘要:看了一下西部、万网都是只有英文后缀的
比如.中国、.网址这些
标题:昨天领取的腾讯云2H4G 一个月的 搞没了
作者:落英缤纷
原帖:https://hostloc.com/thread-835638-1-1.html
摘要:昨天领取的腾讯云2H4G 一个月的 搞没了
领了个intel的 算力太渣渣了 双核633算力(装的centos)
我自己买的那个1核2G的AMD的 600算力(装的2012)
于是销毁了,想重新领,结果不行了
作者:落英缤纷
原帖:https://hostloc.com/thread-835638-1-1.html
摘要:昨天领取的腾讯云2H4G 一个月的 搞没了
领了个intel的 算力太渣渣了 双核633算力(装的centos)
我自己买的那个1核2G的AMD的 600算力(装的2012)
于是销毁了,想重新领,结果不行了
标题:如果绿云流量用超了,会如何?
作者:winig72
原帖:https://hostloc.com/thread-835640-1-1.html
摘要:斯巴达流量用超了。被限速5M了.如果绿云流量用超了,会如何?
作者:winig72
原帖:https://hostloc.com/thread-835640-1-1.html
摘要:斯巴达流量用超了。被限速5M了.如果绿云流量用超了,会如何?
标题:50元烟钱,请大师帮我DD个 Windows 英文版,速来。
作者:江南村
原帖:https://hostloc.com/thread-835641-1-1.html
摘要:买了个2G的 pigyun 只有debian unbuntu centos系统,想要DD个windows
只会一键操作,试了出现提示 ”Connection closing...Socket close. Connection closed by foreign host. “弄不下去了。(咨询过客服说没有技术限制dd,但不提供安装)
请论坛大神 帮我DD windows 7 或者 windows10的英文版,顺便记录个步骤给我 (系统要是重装了自己可以再来一遍)。会着不难,50元烟钱奉上
站内信PM我 谢谢哈
作者:江南村
原帖:https://hostloc.com/thread-835641-1-1.html
摘要:买了个2G的 pigyun 只有debian unbuntu centos系统,想要DD个windows
只会一键操作,试了出现提示 ”Connection closing...Socket close. Connection closed by foreign host. “弄不下去了。(咨询过客服说没有技术限制dd,但不提供安装)
请论坛大神 帮我DD windows 7 或者 windows10的英文版,顺便记录个步骤给我 (系统要是重装了自己可以再来一遍)。会着不难,50元烟钱奉上
站内信PM我 谢谢哈
标题:骗子网站,小心家里中老年人上当受骗啊。
作者:yanyuo
原帖:https://hostloc.com/thread-835644-1-1.html
摘要:手机短信收到的短链
https://0c.cn/B6bm5
这是打开的链接
https://www.cgen2.com/e_lxsttn1_4.html?gzid=kztn_0424_04_24_kztn_0424&t=B6bm5
没有在线付款,是到货付款的。
作者:yanyuo
原帖:https://hostloc.com/thread-835644-1-1.html
摘要:手机短信收到的短链
https://0c.cn/B6bm5
这是打开的链接
https://www.cgen2.com/e_lxsttn1_4.html?gzid=kztn_0424_04_24_kztn_0424&t=B6bm5
没有在线付款,是到货付款的。
标题:谁能介绍一款论坛自动发帖工具?
作者:风为裳
原帖:https://hostloc.com/thread-835645-1-1.html
摘要:刚看到一个踢楼卖天麻的帖子,那个 热心市民 mjj每五分钟发一次帖子,简直是抢楼中奖利器啊,我手上也有几个小号,打算下次碰到踢楼时也自动发帖抢个楼,有谁介绍一下?要好用不封号的,先谢谢啦!
作者:风为裳
原帖:https://hostloc.com/thread-835645-1-1.html
摘要:刚看到一个踢楼卖天麻的帖子,那个 热心市民 mjj每五分钟发一次帖子,简直是抢楼中奖利器啊,我手上也有几个小号,打算下次碰到踢楼时也自动发帖抢个楼,有谁介绍一下?要好用不封号的,先谢谢啦!
标题:求火车采集器用的正则表达式
作者:你说的都对
原帖:https://hostloc.com/thread-835646-1-1.html
摘要:我采集到的数据有可能是“广东125”也有可能是“2海南”
我想通过正则表达式,只保留数字,把所有汉字都去掉。
1.JPG (7.21 KB, 下载次数: 0)
下载附件
1 分钟前 上传
正则表达式 和 替换表达式 都怎么写啊
作者:你说的都对
原帖:https://hostloc.com/thread-835646-1-1.html
摘要:我采集到的数据有可能是“广东125”也有可能是“2海南”
我想通过正则表达式,只保留数字,把所有汉字都去掉。
1.JPG (7.21 KB, 下载次数: 0)
下载附件
1 分钟前 上传
正则表达式 和 替换表达式 都怎么写啊
标题:全球宽带论坛
作者:gordonbennett
原帖:https://hostloc.com/thread-835647-1-1.html
摘要:坐标河北,现在用的电信100M宽带,一年360。 我手机是移动的,带每个月免费200M宽带,加10块可以300M,在300M的基础上买营业厅一个200块的路由器(实际价值100)可以提速到600M,再加一百的光猫钱。 平常打游戏的时候不多,偶尔打打dota2,要不要换网呢?200
.300还是600M?
作者:gordonbennett
原帖:https://hostloc.com/thread-835647-1-1.html
摘要:坐标河北,现在用的电信100M宽带,一年360。 我手机是移动的,带每个月免费200M宽带,加10块可以300M,在300M的基础上买营业厅一个200块的路由器(实际价值100)可以提速到600M,再加一百的光猫钱。 平常打游戏的时候不多,偶尔打打dota2,要不要换网呢?200
.300还是600M?
标题:寻求如何通过Python+XMLRPC批量发布WP文章
作者:EnwenY
原帖:https://hostloc.com/thread-835649-1-1.html
摘要:之前发了个贴问如何在Modown主题下批量发布带有自定义字段+下载链接+相册模式问题,看到有个老哥是通过Python+XMLRPC批量发布的,这给了我一点思路,花了2天时间研究了一下Python,也看到别人发表的文章,通过安装wordpress-xmlrpc,在通过Python对接发布,所以现在想请教一下:
文件夹名称=文章名称
单独放置2张图片的文件夹=Modown主题相册模式缩略图
单独放置1张图片的文件夹=文章缩略图
自动统计图片数量=自定义字段“图片数量”
单独文本或者其他方式记录的下载内容=下载地址
这样的Python有老哥会写吗?一包烟钱帮帮忙?
作者:EnwenY
原帖:https://hostloc.com/thread-835649-1-1.html
摘要:之前发了个贴问如何在Modown主题下批量发布带有自定义字段+下载链接+相册模式问题,看到有个老哥是通过Python+XMLRPC批量发布的,这给了我一点思路,花了2天时间研究了一下Python,也看到别人发表的文章,通过安装wordpress-xmlrpc,在通过Python对接发布,所以现在想请教一下:
文件夹名称=文章名称
单独放置2张图片的文件夹=Modown主题相册模式缩略图
单独放置1张图片的文件夹=文章缩略图
自动统计图片数量=自定义字段“图片数量”
单独文本或者其他方式记录的下载内容=下载地址
这样的Python有老哥会写吗?一包烟钱帮帮忙?
标题:【未出掉】明盘220出斯巴达年付24刀!!!
作者:ccuu
原帖:https://hostloc.com/thread-835650-1-1.html
摘要:512MB SEABKVM DDoS Protected SSD E5 KVM VPS - Seattle
IP:45.142......
註冊日期
27th February 2021
首期付款金額
$4.00 USD
循環出帳金額
$24.00 USD
出帳循環
年繳
下次到期日
27th February 2022
付款方式
PayPal
不带邮箱,到时给账号,是直接改邮件地址,还是工单push,自己玩。
需要PM我你的TG账号。
作者:ccuu
原帖:https://hostloc.com/thread-835650-1-1.html
摘要:512MB SEABKVM DDoS Protected SSD E5 KVM VPS - Seattle
IP:45.142......
註冊日期
27th February 2021
首期付款金額
$4.00 USD
循環出帳金額
$24.00 USD
出帳循環
年繳
下次到期日
27th February 2022
付款方式
PayPal
不带邮箱,到时给账号,是直接改邮件地址,还是工单push,自己玩。
需要PM我你的TG账号。
标题:逆向破解要咋学?
作者:lj800827
原帖:https://hostloc.com/thread-835651-1-1.html
摘要:某个软件,用户名登陆【已登录】想要破解去除用户名登录,要咋弄
作者:lj800827
原帖:https://hostloc.com/thread-835651-1-1.html
摘要:某个软件,用户名登陆【已登录】想要破解去除用户名登录,要咋弄