一、requests模塊的response.text與response.content有什么區別
1、返回的數據類型
response.text返回的是一個 unicode 型的文本數據,適用于文本數據的爬取;response.content返回的是 bytes 型的二進制數據,適用于圖片、文件的爬取。
2、數據編碼
response.text默認”iso-8859-1”編碼,服務器不指定的話是根據網頁的響應來猜測編碼;response.content 返回的是二進制響應內容。
3、數據內容
response.text返回的是Unicode型的文本數據,即服務器響應解碼后得到的字符串;而response.content返回的是bytes類型的二進制數據。
二、Requests簡介
1、requests庫簡介
Urllib 和 Requests 模塊是發起 http 請求最常見的模塊。雖然 Python 的標準庫中 urllib 模塊已經包含了平常我們使用的大多數功能,但是它的 API 使用起來讓人感覺不太好,而 Requests 自稱“http for Humans”,說明使用更簡潔方便。Requests繼承了urllib的所有特性。Requests支持http連接保持和連接池,支持使用cookie 保持會話,支持文件上傳,支持自動確定響應內容的編碼,支持國際化的 URL 和 POST 數 據自動編碼。
**requests 的底層實現其實就是 urllib3(urllib2 的升級版—python2 支持) **Requests 的文檔非常完備,中文文檔也相當不錯。Requests 能完全滿足當前網絡的需求, 支持 Python 2.6—3.6。
開源地址:http://github.com/kennethreitz/requests
中文文檔 API:http://2.python-requests.org/zh_CN/latest/
2、安裝方式
利用 pip 安裝或者利用 easy_install 都可以完成安裝:
$ pip install requests
三、Requests的簡單使用
1、Get 請求
發送無參數的get請求,嘗試獲取某個網頁。
r = requests.get('http://www.baidu.com')
發送無參數的get請求 設置超時時間 timeout 單位秒。
r = requests.get('http://www.baidu.com', timeout=1)
你也許經常想為 URL 的查詢字符串(query string) 傳遞某種數據。如果你是手工構建 URL,那么數據會以鍵/值對的形式置于 URL 中,跟在一個問號的后面。例如, www.baidu.com/?key=val。 Requests 允許你使用 params 關鍵字參數,以一個字符串字典來提供這些參數。舉例來說,如果你想傳遞 key1=value1 和 key2=value2 到 www.baidu.com/ ,那么你可以使用如下代碼:
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("https://www.baidu.com/", params=payload)
print(r.url)
https://www.baidu.com/?key2=value2&key1=value1
你還可以將一個列表作為值傳入。
payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
r = requests.get('http://www.baidu.com/', params=payload)
print(r.url)
http://www.baidu.com/?key2=value2&key2=value3&key1=value1
定制請求頭:如果你想為請求添加 HTTP 頭部,只要簡單地傳遞一個 dict 給 headers 參數就可以了。
url = 'https://www.baidu.com/s?wd=python'
headers = {
'Content-Type': 'text/html;charset=utf-8',
'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}
r = requests.get(url,headers=headers)
Response對象使用:
r.url #打印輸出該 URLr.headers #以字典對象存儲服務器響應頭,但是這個字典比較特殊,字典鍵不區分大小寫,若鍵不存在則返回Noner.status_code #返回連接狀態,200正常。r.text #默認以unicode形式返回網頁內容,也就是網頁源碼的字符串。r.content #以字節形式(二進制)返回。字節方式的響應體,會自動為你解碼 gzip 和 deflate 壓縮。r.json() #把網頁中的json數據轉成字典并將其返回。r.encoding #獲取當前的編碼r.encoding = 'ISO-8859-1' #指定編碼,r.text返回的數據類型,寫在r.text之前。
2、POST 請求
HTTP 協議規定 POST 提交的數據必須放在消息主體(entity-body)中,但協議并沒有規定數據必須使用什么編碼方式,服務端通過是根據請求頭中的Content-Type字段來獲知請求中的消息主體是用何種方式進行編碼,再對消息主體進行解析。具體的編碼方式包括:
最常見post提交數據的方式,以form表單形式提交數據。以json串提交數據。一般使用來上傳文件實例如下:
以form形式發送post請求,Reqeusts支持以form表單形式發送post請求,只需要將請求的參數構造成一個字典,然后傳給requests.post()的data參數即可。
payload = {'key1': 'value1','key2': 'value2'}r = requests.post("http://httpbin.org/post", data=payload)print(r.text)…"form": {"key1": "value1","key2": "value2"},
以json形式發送post請求,可以將一 json串傳給requests.post()的data參數。
url = 'http://httpbin.org/post'payload = {'key1': 'value1', 'key2': 'value2'}r = requests.post(url, data=json.dumps(payload))print(r.text)print(r.headers.get('Content-Type'))application/json
以multipart形式發送post請求,Requests也支持以multipart形式發送post請求,只需將一文件傳給requests.post()的files參數即可,文本文件report.txt的內容只有一行:Hello world!,從請求的響應結果可以看到數據已上傳到服務端中。
url = 'http://httpbin.org/post'files = {'file': open('report.txt', 'rb')}r = requests.post(url, files=files)print(r.text){…"files": {"file": "hello world"},"form": {},"headers": {"Content-Type": "multipart/form-data; boundary=6db46af64e694661985109da21c8fe9b",},"json": null,"origin": "223.72.217.138","url": "http://httpbin.org/post"…}
延伸閱讀1:Python簡介
Python由荷蘭數學和計算機科學研究學會的吉多·范羅蘇姆于1990年代初設計,作為一門叫做ABC語言的替代品。Python提供了高效的高級數據結構,還能簡單有效地面向對象編程。Python語法和動態類型,以及解釋型語言的本質,使它成為多數平臺上寫腳本和快速開發應用的編程語言,隨著版本的不斷更新和語言新功能的添加,逐漸被用于獨立的、大型項目的開發。