python爬虫小结

经过一个暑假,学习了一部分python爬虫的知识.所以稍作总结:

在下使用的是python 3.4, 可能会和python 2有一些区别,但是相信区别也不是很大. 只是调用一些库的时候需要使用到不同.

当然,print这个对象也有使用方法不同,只是在加与不加括号之间的区别.

这里有两篇文章,相信在对比python 3和python 2之后,你会了解一些区别的.

1.使用2to3将代码移植到Python 3

2.Python3.x和Python2.x的区别

我总结一下python的爬虫:

import urllib.request

response = urllib.request.urlopen('http://www.imekaku.com/wp-content/uploads/2015/05/2.jpg')
easy = response.read()

with open('easy.jpg', 'wb') as f:
    f.write(easy)

这是非常简单的python爬虫代码.

导入urllib.request之后利用其函数打开一个链接放在response中,用二进制的方式读取出来放在easy中.最后以二进制的方式存放在easy.jpg.

完成爬去图片任务!

其他的爬取任务也无非是在上面添添减减.

 

 

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部