学习的运气

有时候学习需要运气的,尤其是初学计算机某应用程序单位时候。
按说学习应该是学习实践结合,但根据之前的经验教训,这次学习scrapy采集的时候,是以书为本,扩展参考网上的实战资料,先不上机。为的是打牢基础,免得上机卡壳再翻书,更浪费时间。
这样的效果看来还不错。
周六让闲置许久的虚拟机服务器开工。先采集新浪博客的图片作为实践的第一步。本来按照计划,周六先把基础框架搭好,下周休假期间,再慢慢完善。
但这次运气太好了。运气好的我都怀疑我的智商了。前面几步都顺利完成,完成后,自己跟自己说,不用着急,慢慢来。但又忍不住再尝试下一步,结果有顺利完成。尤其是MySQL数据库接口那步,居然是一次编码就过关。那时感觉恨不得跑卫生间对着镜子鞠躬抱拳了。
但运气总有用完的时候。
下午临近吃完饭时,开始进入最关键的一步,就是批量自动采集,过不去了。总是只采集当前页面,也能自动爬取下一页的链接,但采集却无法继续。折腾了2个多小时没有进展。
准备放弃前,又对照发现书中代码与网络实例代码,操作部分不会有问题的,脑子突然一闪,忙对照配置部分。
果然问题出在那里,而且还是之前我总结的,外国作者总是想当然认为读者和他们有一样的开发系统设置,很少考虑对系统设置的注解。而这次问题就是出在系统的域名设置上。
更换采集域名设置,程序顿时高效运转,看着终端满屏的字符滚动,成就感满满。
半个多小时后,采集完成,共下载了700多M,8000多个文件。
初战告捷。

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>