更新时间:2018年02月08日11时18分 来源:传智播客 浏览次数:
6节课掌握Python爬虫 | ||
爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序 模拟客户端(浏览器)发送网络请求 : 照着浏览器发送一模一样的请求…… | ||
爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序 模拟客户端(浏览器)发送网络请求 : 照着浏览器发送一模一样的请求……
1、http需要了解的知识
1、url
2、知道url地址的规律和总得页码数:构造url地址的列表
3、start_url
2、发送请求,获取响应
1、requests
3、提取数据
1、返回json字符串:json模块
2、返回的是html字符串:lxml模块配合xpath提取数据
4、阶段文件保存