python httplib2与urllib2包的介绍（转）

endual

浏览: 3510600 次
性别:
来自: 杭州

最近访客更多访客>>

wrgjwrrjurhj

sindyqiu

kristy_yy

whzresponse

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

python

刚刚发现了一个比urllib2更好用的库httplib2，可以比较简单的解决本文遇到的一些问题
http://code.google.com/p/httplib2/

————————————————————

最近用urllib2写了一个公司内部用的脚本

这个脚本要访问一个webservice，访问之前先要用https登陆拿到cookie再到另一个地方获取一个临时用的id

https登陆，获取cookie

首先是https登陆，这段很好写，以前写过校内网发帖机，轻车熟路，用cookielib的CookieJar加上HTTPCookieProcessor搞定，代码如下（其中那个超简单的lambda hack简直绝了：

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import urllib, urllib2, sys, cookielib, re, os, json cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
url_login = 'https://xxx.yahoo.com/login/'
body = (('username', '半瓶墨水'),
('password', '密码'),
('action', 'login'),)

print 'login to get cookies'
opener.open(url_login, urllib.urlencode(body))

处理HTTP 403/500 Exception

但是后面用cookie去拿id的时候，就老是告诉我403错误，然后opener就抛异常，想问题想到头大，后来发现这个服务访问成功不是返回200，而是403，所以看到403的时候不要管他，直接看body内容就行了，日，不知道为什么这么设计。

怎么办呢？查了一下urllib2的文档，发现可以继承一下HTTPCookieProcessor，自己做了一个 NoExceptionCookieProcesser，后来的过程中发现webservice有时候返回400和500的时候body中包含有用的信息，一并处理了：

#! /usr/bin/env python
# -*- coding: utf-8 -*-
import urllib, urllib2, sys, cookielib, re, os, json
#suppress the 403/400/500 exception and return the body
class NoExceptionCookieProcesser(urllib2.HTTPCookieProcessor):
    def http_error_403(self, req, fp, code, msg, hdrs):
        return fp

    def http_error_400(self, req, fp, code, msg, hdrs):
        return fp

    def http_error_500(self, req, fp, code, msg, hdrs):
        return fp

cj = cookielib.CookieJar()
opener = urllib2.build_opener(NoExceptionCookieProcesser(cj))
url_login = 'https://xxx.yahoo.com/login/'
body = (('username', '半瓶墨水'),
('password', '密码'),
('action', 'login'),) print 'login to get cookies'
opener.open(url_login, urllib.urlencode(body))

urllib2中用PUT进行请求

然后又发现一个问题，webservice在提交的时候要求用PUT方式，并且只接受json，urllib2默认只支持GET和POST，Google了一下，发现可以创建Request对象，然后更改它的请求方法(get_method)以及header，搞定：

request = urllib2.Request(url_ws, data="blablabla")
request.add_header('Content-Type', 'application/json')
request.add_header('Accept', 'application/json')
request.get_method = lambda: 'PUT'
result = opener.open(request).read().strip()

参考：http://stackoverflow.com/questions/111945/is-there-any-way-to-do-http-put-in-python

分享到：

python中文乱码 | 用python爬虫抓站的一些技巧总结 (转)

2012-03-20 21:58
浏览 5699
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论