用wget下载需要用户名和密码认证的网站或者ftp服务器文件 / 四六文摘

虽然我以前经常写爬虫，但毕竟是代码活，复用性非常低，每次得耗十几分钟解析网页并且写好代码。而熟悉linux的朋友都应该了解wget这个神器，有了url之后一行命令即可完成下载。

但真实的需求往往是，需要下载某个ftp服务器里面的多个文件，甚至该ftp服务器需要用户名和密码登录，比如公司给你提供的测序数据结果：

Host: sftp.biotrainee.com.cn or 123.123.123.123
Username: 80-78395743
Password: 8L5973452TJ0t4tQM
Port: 22

诚然，我们可以用winscp或者filezilla等客户端软件下载，但是更多时候我们的数据量非常大，需要直接在服务器用命令行工具下载。

这个时候，就需要学习wget的高级技巧了。

比如之前卫计委搞了一个全国范围的基因检测实验室考察活动，放出的测试数据就是这样下载的：

wget -c -r -np -k -L -p --ftp-user=NCCLBIPT --ftp-password=nccl123456 ftp://211.103.138.229/Illumina_file/Illumina_B17NC/*

再比如http服务器:

斯坦福大学的生物信息学算法课程里面推荐阅读的的所有pdf格式的paper 课程的网址是：http://ai.stanford.edu/~serafim/CS374_2011/ 可以看到，这个网站推荐的文献分成8大类，本身这个网站打开就需要登录用户名和密码： 用户名是CS374-2011加上密码AlgorithmsInBiology

每一篇文献的单独地址是http://ai.stanford.edu/~serafim/CS3742011/papers/Miscellaneoustopics/Self-assemblyofDNA/selfhealingand_proofreading.pdf 类似的格式。

wget -c -r -np -k -L -p -A.pdf --http-user=CS374-2011 --http-passwd=AlgorithmsInBiology http://ai.stanford.edu/~serafim/CS374_2011/papers/

我这里简单解释一下这些参数的意思：

-c -r -np -k -L -p -A.pdf

-c 断点续传
-r 递归下载，下载指定网页某一目录下（包括子目录）的所有文件
-nd 递归下载时不创建一层一层的目录，把所有的文件下载到当前目录（特殊要求会选择这个参数）
-np 递归下载时不搜索上层目录，如wget -c -r www.xxx.org/pub/path/
没有加参数-np，就会同时下载path的上一级目录pub下的其它文件（所以一定要加上这个参数，不然会下载太多东西的）
-k 将绝对链接转为相对链接，下载整个站点后脱机浏览网页，最好加上这个参数
-L 递归时不进入其它主机，如wget -c -r www.xxx.org/
-p 下载网页所需的所有文件，如图片等
-A 指定要下载的文件样式列表，多个样式用逗号分隔

用wget下载需要用户名和密码认证的网站或者ftp服务器文件

再比如http服务器:

相关推荐