python3:使用requests+bs4编写爬虫
requests框架
下载
1  | pip install requests  | 
查看版本
1  | print(requests.__version__)  | 
版本很重要,因为有些低版本的requests在进行https请求时无法禁用ssl验证,在请求https网站的时候会报错
更新requests
1  | pip --upgrade requests  | 
发起请求并获取结果
1  | import requests  | 
注意
- 响应结果编码格式的问题
 
1  | # requests框架会自动解析response并自动设置解码方式,可以通过如下代码查看解码方式  | 
bs4框架
下载
1  | pip install beautifulsoup4  | 
设置解析器
1  | # 此处的parser就是我们指定的解析器,bs4支持多种解析器,根据不同的需求会指定不同的解析器  | 
解析某一元素
- 解析title
 
1  | print(soup.title)  | 
注意
- 编码格式的问题
 
在使用bs4框架进行解析时框架默认解析格式是‘utf-8’,如果原文档的编码格式不是utf-8那么将出现乱码,所以在使用时一定要注意使用bs4时解码的格式要和requests解码的格式保持一致,否则将出现乱码。