python3 urllib3库

官方解释:

urllib3是一个功能强大,对SAP健全的HTTP客户端。许多Python生态系统已经使用了urllib3

通过urllib3访问一个网页,那么必须首先构造一个PoolManager对象,然后通过PooLmanager中的request方法或者urlopen()来访问一个网页,两者几乎没有任何区别

urllib3提供了很多python标准库里所没有的重要特性

  1. 线程安全
  2. 连接池
  3. 客户端SSL/TLS验证
  4. 文件分部编码上传
  5. 协助处理重复请求和HTTP重定位
  6. 支持压缩编码
  7. 支持HTTP和SOCKS代理
  8. 100%测试覆盖率

urllib3使用

生成请求(requset)get

urllib3主要使用连接池进行网络请求的访问,所有访问之前我们需要创建一个连接池对像

import urllib3 ##调用urllib3库
http = urllib3.PoolManager(); ##连接池
response = http.request('GET','http://www.baidu.com')
print(response.data.decode()) ##输出返回代码
print(response.status)  ##输出返回状态
request参数
def request(self, method, url, fields=None, headers=None, **urlopen_kw)

第一个参数method必选,指定时什么请求‘get’ ‘post’ ‘put’ ‘delete’ 不区分大小写

第二个参数url,就是网页的url 必选

第三个参数fields,请求的参数,可选

第四个headers 头部文件 可选

request请求的返回值是<urllib3.response.HTTPResponse object at 0x000001B3879440B8>

可以通过dir()查看所有的属性和方法

import urllib3
http = urllib3.PoolManager();
response = http.request('GET','http://www.baidu.com')
#print(response.data.decode())
#print(response.status)
print(dir(response))

执行

['CONTENT_DECODERS', 'DECODER_ERROR_CLASSES', 'REDIRECT_STATUSES', '__abstractmethods__', '__class__', '__del__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '_abc_cache', '_abc_negative_cache', '_abc_negative_cache_version', '_abc_registry', '_body', '_checkClosed', '_checkReadable', '_checkSeekable', '_checkWritable', '_connection', '_decode', '_decoder', '_error_catcher', '_flush_decoder', '_fp', '_fp_bytes_read', '_handle_chunk', '_init_decoder', '_init_length', '_original_response', '_pool', '_request_url', '_update_chunk_length', 'auto_close', 'chunk_left', 'chunked', 'close', 'closed', 'connection', 'data', 'decode_content', 'drain_conn', 'enforce_content_length', 'fileno', 'flush', 'from_httplib', 'get_redirect_location', 'getheader', 'getheaders', 'geturl', 'headers', 'info', 'isatty', 'isclosed', 'length_remaining', 'msg', 'read', 'read_chunked', 'readable', 'readinto', 'readline', 'readlines', 'reason', 'release_conn', 'retries', 'seek', 'seekable', 'status', 'stream', 'strict', 'supports_chunked_reads', 'tell', 'truncate', 'version', 'writable', 'writelines']

post请求

import urllib3
url = "http://httpbin.org"
data = {
'name':'tccc'
}
http = urllib3.PoolManager()
response = http.request('post',url+"/post",fields=data)
print(response.data.decode())

执行

[root@controller ~]# python3 urllib3-post.py 
{
  "args": {}, 
  "data": "", 
  "files": {},    
  "form": {
    "name": "tccc"
  }, 
  "headers": {
    "Accept-Encoding": "identity",  ##编码
    "Content-Length": "127",  ##内容长度
    "Content-Type": "multipart/form-data; boundary=bc9074f31f3225a89b9c17ab2921832a", ##内容类型
    "Host": "httpbin.org",  ##主机
    "X-Amzn-Trace-Id": "Root=1-60cb4a77-378371c9405caeba7ef5a079" ##身份id
  }, 
  "json": null, 
  "origin": "111.8.55.226",  
  "url": "http://httpbin.org/post"
}
设置headers
import urllib3
headers = {
'User-Agent':"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" ##伪装成浏览器发送的请求
} ##头文件
url = 'http://httpbin.org'
http = urllib3.PoolManager()
response = http.request('get',url+"/get",headers=headers)
print(response.data.decode())
设置代理
import urllib3
url = 'http://httpbin.org'
headers = {
'User-Agent':'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
}
proxy = urllib3.ProxyManager('http://192.168.137.123/dashboard',headers=headers) ##注意这里时proxymanager!!!
response = proxy.request('get',url+"/ip")
print(response.data.decode())
请求json

在发起请求时,可以通过定义body参数并定义headers的Content-Type参数来发送一个已经编译的Json数据

```python
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urllib.request.urlopen函数

url:网站的url

data :发送post请求时需要的参数

timeout:超时的时间

使用urlopen访问网页(get)
import urllib.request ###urllib请求
response = urllib.request.urlopen('http://www.baidu.com')
print(response.read().decode('utf-8'))
使用urlopen访问网页(post)