当前位置 : 上海新闻网 > 金融理财 > 基金股票 > Python爬虫学习1: Requests模块的使用

Python爬虫学习1: Requests模块的使用

发布于 2017-10-24 08:07:02

Python爬虫学习1: Requests模块的使用

Requests函数库是学习Python爬虫必备之一, 能够帮助我们方便地爬取. Requests: 让HTTP服务人类. 本文主要参考了其官方文档. Requests具有完备的中英文文档, 能完全

  • 1418

Requests函数库是学习Python爬虫必备之一, 能够帮助我们方便地爬取. Requests: 让HTTP服务人类. 本文主要参考了其官方文档.

Requests具有完备的中英文文档, 能完全满足当前网络的需求, 它使用了urllib3, 拥有其所有的特性! 

Requests安装:

  requests目前的版本是v2.11.1, 在WINDOWS上可以通过命令行窗口(运行cmd命令), 利用pip进行自动地安装(很方便):

> pip install requests
Collecting requests
Downloading requests-2.11.1-py2.py3-none-any.whl <514kB>
Installing collected packages: requests
Successfully installed requests-2.11.1

向网站发送请求:requests.get(url)

>>> import requests # 请求豆瓣读书网站点 >>> r = requests.get(>>> r.status_code # 响应状态码,200表示服务器已成功处理了请求
200
>>> r.headers['content-type'] # 浏览器根据该参数决定对文档进行如何解析,text是文档类型,html则是文档子类型;
'text/html; charset=utf-8'
>>> r.encoding # 所请求网页的编码方式
'utf-8'
>>> r.text # 所请求网页的内容
...
>>> r.cookie # 网页的cookie内容
<RequestsCookieJar[Cookie(version=0,, value='mGadkt5VXtk', port=None, port_specified=False, domain='.douban.com', domain_specified=True, domain_initial_dot=True, path='/', path_specified=True, secure=False, expires=1508551773, discard=False, comment=None, comment_url=None, rest={}, rfc2109=False)]>
>>> r.headers # 网页的头
{'X-Xss-Protection': '1; mode=block', 'X-DAE-App': 'book', 'X-Content-Type-Options': 'nosniff', 'Content-Encoding': 'gzip', 'Transfer-Encoding': 'chunked', 'Set-Cookie': 'bid=mGadkt5VXtk; Expires=Sat, 21-Oct-17 02:09:33 GMT; Domain=.douban.com; Path=/', 'Expires': 'Sun, 1 Jan 2006 01:00:00 GMT', 'Vary': 'Accept-Encoding', 'Keep-Alive': 'timeout=30', 'X-DAE-Node': 'dis16', 'X-DOUBAN-NEWBID': 'mGadkt5VXtk', 'X-Douban-Mobileapp': '0', 'Connection': 'keep-alive', 'Pragma': 'no-cache', 'Cache-Control': 'must-revalidate, no-cache, private', 'Date': 'Fri, 21 Oct 2016 02:09:33 GMT', 'Strict-Transport-Security': 'max-age=15552000;', 'Server': 'dae', 'Content-Type': 'text/html; charset=utf-8'}
>>> r.url # 实际的网址
u'https://book.douban.com/'

       HTTP定义了与服务器进行交互的不同方式, 其中, 最基本的方法有四种: GET, POST, PUT, DELETE; 一个URL对应着一个网络上的资源, 这四种方法就对应着对这个资源的查询, 修改, 增加, 删除四个操作.上面的程序用到的requests.get()来读取指定网页的信息, 而不会对信息就行修改, 相当于是"只读". requests库提供了HTTP所有基本的请求方式, 都是一句话搞定: 

) ) ) ) )

向URL传递参数:requests.get(url, param=None)

  参考附录1可知,一个URL的?后面跟随的是查询(query)字符串, 现在我们手工构建URL, 向URL的后面传递查询字符串. request.get()的第二个参数允许我们使用params关键字参数,以一个字典的形式来提供参数, 比如我们想传递key1=value1,key2=value2到里面,可以这样做:

>>> param = {:, :} # 先生成一个字典 >>> param {: , : } >>> r = requests.get(, params = param) >>> r.url u

# 还可以将一个列表作为参数值传入 >>> param = {: , : [, ]} >>> param {: [, ], : } >>> r = requests.get(, params=param) >>> r.url u

响应内容:

      现在我们可以对服务器响应的内容进行读取, 响应的内容存放在了r.text里面. 

>>> r = requests.get() >>> r.status_code 200>>> r.encoding

图1 在豆瓣网上"查看源代码"得到的部分内容

图2 r.text的部分内容

图3 r.content的部分内容 

从图1,图2可以看出: 1) 网页响应的内容就是网页的源代码.2) r.text和r.content都是经过了编码的,图1和图2中红线部分为"提供图书"的编码:图1为Unicode编码16进制,图2为'ISO-8859-1'编码.

图4 "提供图书"四个汉字的编码

  • 5