Python学习笔记之简单爬虫

2017-07-16 08:30:08

　　现阶段我们利用urllib模块，去做最简单的爬虫，因为比较简单，所以直接看代码就行。主要知识就是通过urllib模块的各个函数加上正则表达式去完成。

#encoding:utf-8

import re

import urllib

#利用urllib的urlopen（）函数打开一个url地址

#并读取所有的html代码，

def gethtml(url):

    content=urllib.urlopen(url)

    html=content.read()

    return html

#根据正则表达式去匹配符合规则的内容

def geturls(html):

    r=r'data-src="(http://.*?)"'

    alllist=re.findall(r,html)

    return alllist

#利用urlretrieve（）下载文件

def download(list):

    x=0

    for li in list:

        x=x+1

        urllib.urlretrieve(li,"%s.jpg"%x)

if  __name__ == '__main__':

    #内涵段子

    url = "http://neihanshequ.com/pic/"

    #获取网页源码

    html = gethtml(url)

    #根据一定规则过滤出想要的内容

    list = geturls(html)

    #下载图片

    download(list)

    print list

Python学习笔记之简单爬虫

为您推荐