學(xué)習(xí)目標(biāo):
熟練掌握urllib.lib庫及requests庫的使用,掌握爬蟲高級技術(shù)及Scrapy分布式爬蟲開發(fā)。
學(xué)習(xí)內(nèi)容:
urllib.lib庫
Python urllib
urllib庫的操作
urllib基本get請求
urllib基本post請求
超時配置與會話對象
代理與API
requests庫
通過pip安裝requests
發(fā)送請求
Response對象
身份驗(yàn)證
Cookies
超時與異常
綜合應(yīng)用案例
Xpath
1、CSS選擇器
2、Xpath基本介紹
3、Xpath基本語法
4、XPath 軸
5、Xpath的運(yùn)算符
6、Xpath語法定位
7、反爬蟲技術(shù)
爬蟲高級技術(shù)
多線程與多進(jìn)程
代理設(shè)置
動態(tài)網(wǎng)頁內(nèi)容的抓取
Selenium
模擬表單登錄
圖片驗(yàn)證碼識別
Scrapy分布式爬蟲
創(chuàng)建項(xiàng)目與Item
命令行工具
Spiders參數(shù)
Scrapy的Feed
數(shù)據(jù)收集與終端輸出
Scrapy爬蟲問題
Scrapy爬蟲調(diào)試 |