`
endual
  • 浏览: 3510600 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

python httplib2与urllib2包的介绍(转)

 
阅读更多

刚刚发现了一个比urllib2更好用的库httplib2,可以比较简单的解决本文遇到的一些问题
http://code.google.com/p/httplib2/

————————————————————

最近用urllib2写了一个公司内部用的脚本

这个脚本要访问一个webservice,访问之前先要用https登陆拿到cookie再到另一个地方获取一个临时用的id

https登陆,获取cookie

首先是https登陆,这段很好写,以前写过校内网发帖机,轻车熟路,用cookielib的CookieJar加上HTTPCookieProcessor搞定,代码如下(其中那个超简单的lambda hack简直绝了:

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import urllib, urllib2, sys, cookielib, re, os, json cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
url_login = 'https://xxx.yahoo.com/login/'
body = (('username', '半瓶墨水'),
('password', '密码'),
('action', 'login'),)

print 'login to get cookies'
opener.open(url_login, urllib.urlencode(body))



处理HTTP 403/500 Exception

但是后面用cookie去拿id的时候,就老是告诉我403错误,然后opener就抛异常,想问题想到头大,后来发现这个服务访问成功不是返回200,而是403,所以看到403的时候不要管他,直接看body内容就行了,日,不知道为什么这么设计。

怎么办呢?查了一下urllib2的文档,发现可以继承一下HTTPCookieProcessor,自己做了一个 NoExceptionCookieProcesser,后来的过程中发现webservice有时候返回400和500的时候body中包含有用的信息,一并处理了:

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import urllib, urllib2, sys, cookielib, re, os, json
#suppress the 403/400/500 exception and return the body
class NoExceptionCookieProcesser(urllib2.HTTPCookieProcessor):
    def http_error_403(self, req, fp, code, msg, hdrs):
        return fp
    
    def http_error_400(self, req, fp, code, msg, hdrs):
        return fp

    def http_error_500(self, req, fp, code, msg, hdrs):
        return fp

cj = cookielib.CookieJar()
opener = urllib2.build_opener(NoExceptionCookieProcesser(cj))
url_login = 'https://xxx.yahoo.com/login/'
body = (('username', '半瓶墨水'),
('password', '密码'),
('action', 'login'),) print 'login to get cookies'
opener.open(url_login, urllib.urlencode(body))



urllib2中用PUT进行请求

然后又发现一个问题,webservice在提交的时候要求用PUT方式,并且只接受json,urllib2默认只支持GET和POST,Google了一下,发现可以创建Request对象,然后更改它的请求方法(get_method)以及header,搞定:

request = urllib2.Request(url_ws, data="blablabla")
request.add_header('Content-Type', 'application/json')
request.add_header('Accept', 'application/json')
request.get_method = lambda: 'PUT'
result = opener.open(request).read().strip()


参考:http://stackoverflow.com/questions/111945/is-there-any-way-to-do-http-put-in-python

分享到:
评论

相关推荐

    How to use httplib2 in Python 3

    httplib2的使用例子,python3的,很实用。比标准的urllib更抽象

    Python urllib、urllib2、httplib抓取网页代码实例

    主要介绍了Python urllib、urllib2、httplib抓取网页代码实例,本文直接给出demo代码,代码中包含详细注释,需要的朋友可以参考下

    M2Crypto:适用于Python的OpenSSL(2.x和3.x)(由SWIG生成)

    M2加密 维护者: ... 对Python的httplib,urllib和xmlrpclib的HTTPS扩展。 用于Web会话管理的不可伪造的HMAC'ing AuthCookies 。 FTP / TLS客户端和服务器。 S / MIME v2 。 ZServerSSL : Zope的H

    python爬虫入门教程–优雅的HTTP库requests(二)

    urllib、urllib2、urllib3、httplib、httplib2 都是和 HTTP 相关的 Python 模块,看名字就觉得很反人类,更糟糕的是这些模块在 Python2 与 Python3 中有很大的差异,如果业务代码要同时兼容 2 和 3,写起来会让人...

    Python httplib模块使用实例

    推荐用urllib, urllib2, httplib2. HTTPConnection 对象 class httplib.HTTPConnection(host[, port[, strict[, timeout[, source_address]]]]) 创建HTTPConnection对象 HTTPConnection.request(method, url[, body...

    python使用自定义user-agent抓取网页的方法

    下面python代码通过urllib2抓取指定的url的内容,并且使用自定义的user-agent,可防止网站屏蔽采集器 import urllib2 req = urllib2.Request('http://192.168.1.2/') req.add_header('User-agent', 'Mozilla 5.10')...

    Python入门网络爬虫之精华版

    首先,Python中自带urllib及urllib2这两个模块,基本上能满足一般的页面抓取。另外,requests也是非常有用的包,与此类似的,还有httplib2等等。 Requests: import requests response = requests.get(url) ...

    Python爬虫库框架学习及Python高度匿名代理IP

    8.MechanicalSoup -一个与网站自动交互Python库。 9.mechanize -有状态、可编程的Web浏览库。 10.socket – 底层网络接口(stdlib)。 11.Unirest for Python – Unirest是一套可用于多种语言的轻量级的HTTP库。 12....

    Python实现的检测web服务器健康状况的小程序

    复制代码 代码如下: ...说白了这些方式都是封装了curl库的,另外还有一些关于http的模块,例如perl的LWP,python的httplib,urllib或者urllib2 也可以去实现,今天就走的比较低级一些,就使用socket方式来进行

    restkit:用于Python的HTTP资源工具包

    它不是基于httplib或urllib2。 特征 与HTTP 1.0和1.1完全兼容的HTTP客户端 线程安全 使用纯套接字调用和它自己的HTTP解析器(它不基于httplib或urllib2) 将HTTP资源映射到Python对象 即时阅读和发送 重用连接 和...

    常用python爬虫库介绍与简要说明

    httplib2 – 网络库。 RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。 mechanize -有状态、可编程的Web浏览库。 soc

    python调用接口的4种方式代码实例

    这篇文章主要介绍了python调用接口的4种方式代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 python中调用API的几种方式: – urllib2 – httplib2 ...

    Python3编程实现获取阿里云ECS实例及监控的方法

    本文实例讲述了Python3编程实现获取阿里云ECS实例及监控的方法。分享给大家供大家参考,具体如下: #!/usr/bin/env python3.5 # -*- coding:utf8 -*- try: import httplib except ImportError: import ...

    tld算法matlab代码-python:python爬虫的工具列表

    httplib2 – 网络库。 RoboBrowser – 一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页。 MechanicalSoup -一个与网站自动交互Python库。 mechanize -有状态、可编程的Web浏览库。 socket – ...

    Python调用REST API接口的几种方式汇总

    本文主要介绍python中调用REST API的几种方式,下面是python中会用到的库。 – urllib2 – httplib2 – pycurl – requests urllib2 – Sample1 import urllib2, urllib github_url = '...

    Python实现自动登录百度空间的方法

    import urllib,urllib2,httplib,cookielib def auto_login_hi(url,name,pwd): url_hi="http://passport.baidu.com/?login" #设置cookie cookie=cookielib.CookieJar() cj=urllib2.HTTPCookieProcessor(co

    python实现多线程网页下载器

    keywords:python,http,multi-threads,thread,threading,httplib,urllib,urllib2,Queue,http pool,httppool 废话少说,上源码: # -*- coding:utf-8 -*- import urllib, httplib import thread import time fr

    Python实现HTTP协议下的文件下载方法总结

    本文介绍了几种常用的python下载文件的方法,具体使用到了htttplib2,urllib等包,希望对大家有帮忙。 1.简单文件下载 使用htttplib2,具体代码如下: h = httplib2.Http() url = '//www.jb51.net/ip.zip' resp, ...

Global site tag (gtag.js) - Google Analytics