python爬虫要学什么

爬虫，被称为网络机器人，在foaf社区中间，更经常的称为网页追逐者，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读，并建立相关的全文索引到数据库中，然后跳到另一个网站。传统爬虫从一个或若干初始网页的url开始，获得初始网页上的url，再不断从当前页面上抽取新的url放入队列，直到满足系统的一定停止条件。
学习之前的准备
1、一颗热爱学习
2、不屈不挠的心一台有键盘的电脑（什么系统都行。我用的os x，所以例子会以这个为准）
3、html相关的一些前段知识。不需要精通，能懂一点就够！python的基础语法知识。
具体的学习路线
总体分为三个大方面：
1、简单的定向脚本爬虫（request --- bs4 --- re）
2、大型框架式爬虫（scrapy框架为主）
3、浏览器模拟爬虫（mechanize模拟和 selenium 模拟）
具体步骤：
1、beautiful soup
requests库的安装与使用，安装beautiful soup 爬虫环境，beautiful soup 的解析器，re库正则表达式的使用，bs4 爬虫实践。获取百度贴吧的内容bs4 爬虫实践，获取双色球中奖信息bs4 爬虫实践，获取起点小说信息bs4 爬虫实践，获取电影信息bs4 爬虫实践。获取悦音台榜单
2、scrapy 爬虫框架
安装scrapy，scrapy中的选择器 xpath和cssscrapy 爬虫实践，今日影视scrapy 爬虫实践，天气预报scrapy 爬虫实践，获取代理scrapy 爬虫实践，糗事百科scrapy 爬虫实践，爬虫相关攻防（代理池相关）
3、浏览器模拟爬虫
mechanize模块的安装与使用，利用mechanize获取乐音台公告，selenium模块的安装与使用，浏览器的选择 phantomjs，selenium & phantomjs 实践，获取代理；selenium & phantomjs 实践，漫画爬虫。
以上就是python爬虫要学什么的详细内容。

python爬虫要学什么

推荐信息