python3:使用requests+bs4编写爬虫
requests框架
下载
1 | pip install requests |
查看版本
1 | print(requests.__version__) |
版本很重要,因为有些低版本的requests在进行https请求时无法禁用ssl验证,在请求https网站的时候会报错
更新requests
1 | pip --upgrade requests |
发起请求并获取结果
1 | import requests |
注意
- 响应结果编码格式的问题
1 | # requests框架会自动解析response并自动设置解码方式,可以通过如下代码查看解码方式 |
bs4框架
下载
1 | pip install beautifulsoup4 |
设置解析器
1 | # 此处的parser就是我们指定的解析器,bs4支持多种解析器,根据不同的需求会指定不同的解析器 |
解析某一元素
- 解析title
1 | print(soup.title) |
注意
- 编码格式的问题
在使用bs4框架进行解析时框架默认解析格式是‘utf-8’,如果原文档的编码格式不是utf-8那么将出现乱码,所以在使用时一定要注意使用bs4时解码的格式要和requests解码的格式保持一致,否则将出现乱码。