经过一个暑假,学习了一部分python爬虫的知识.所以稍作总结:
在下使用的是python 3.4, 可能会和python 2有一些区别,但是相信区别也不是很大. 只是调用一些库的时候需要使用到不同.
当然,print这个对象也有使用方法不同,只是在加与不加括号之间的区别.
这里有两篇文章,相信在对比python 3和python 2之后,你会了解一些区别的.
我总结一下python的爬虫:
import urllib.request response = urllib.request.urlopen('http://www.imekaku.com/wp-content/uploads/2015/05/2.jpg') easy = response.read() with open('easy.jpg', 'wb') as f: f.write(easy)
这是非常简单的python爬虫代码.
导入urllib.request之后利用其函数打开一个链接放在response中,用二进制的方式读取出来放在easy中.最后以二进制的方式存放在easy.jpg.
完成爬去图片任务!
其他的爬取任务也无非是在上面添添减减.