Linux 使用 wget 命令爬取整站
wget -c -r -npH -k -nv http://www.zmide.com
参数说明
-c
:断点续传-r
:递归下载-np
:递归下载时不搜索上层目录-nv
:显示简要信息-nd
:递归下载时不创建一层一层的目录,把所有文件下载当前文件夹中-p
:下载网页所需要的所有文件(图片,样式,js文件等)-H
:当递归时是转到外部主机下载图片或链接-k
:将绝对链接转换为相对链接,这样就可以在本地脱机浏览网页了-L
:只扩展相对连接,该参数对于抓取指定站点很有用,可以避免向宿主主机
启用地址伪装( user-agent )
-U "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4482.400 QQBrowser/9.7.13001.400"
常用参数如下:
启动参数
-V,--version:显示版本号
-h,--help:查看帮助
-b,--background:启动后转入后台执行
日志记录和输入文件参数
-o,--output-file=file:把记录写到file文件中
-a,--append-output=file:把记录追加到file文件中
-i,--input-file=file:从file读取url来下载
下载参数
-bind-address=address:指定本地使用地址
-t,-tries=number:设置最大尝试连接次数
-c,-continue:接着下载没有下载完的文件
-O,-output-document=file:将下载内容写入到file文件中
-spider:不下载文件
-T,-timeout=sec:设置响应超时时间
-w,-wait=sec:两次尝试之间间隔时间
--limit-rate=rate:限制下载速率
-progress=type:设置进度条
目录参数
-P,-directory-prefix=prefix:将文件保存到指定目录
HTTP参数
-http-user=user:设置http用户名
-http-passwd=pass:设置http密码
-U,--user-agent=agent:伪装代理
-no-http-keep-alive:关闭http活动链接,变成永久链接
-cookies=off:不使用cookies
-load-cookies=file:在开始会话前从file文件加载cookies
-save-cookies=file:在会话结束将cookies保存到file文件
FTP参数
-passive-ftp:默认值,使用被动模式
-active-ftp:使用主动模式
递归下载排除参数
-A,--accept=list:分号分割被下载扩展名的列表
-R,--reject=list:分号分割不被下载扩展名的列表
-D,--domains=list:分号分割被下载域的列表
--exclude-domains=list:分号分割不被下载域的列表