Python写爬虫都用到什么库

python爬虫，全称python网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或脚本，主要用于抓取证券交易数据、天气数据、网站用户数据和图片数据等，python为支持网络爬虫正常功能实现，内置了大量的库，主要有几种类型。下面本篇文章就来给大家介绍。
一、python爬虫网络库
python爬虫网络库主要包括：urllib、requests、grab、pycurl、urllib3、httplib2、robobrowser、mechanicalsoup、mechanize、socket、unirest for python、hyper、pysocks、treq以及aiohttp等。
二、python网络爬虫框架
python网络爬虫框架主要包括：grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。
三、html/xml解析器
●　lxml：c语言编写高效html/ xml处理库。支持xpath。
●　cssselect：解析dom树和css选择器。
●　pyquery：解析dom树和jquery选择器。
●　beautifulsoup：低效html/ xml处理库，纯python实现。
●　html5lib：根据whatwg规范生成html/ xml文档的dom。该规范被用在现在所有的浏览器上。
●　feedparser：解析rss/atom feeds。
●　markupsafe：为xml/html/xhtml提供了安全转义的字符串。
●　xmltodict：一个可以让你在处理xml时感觉像在处理json一样的python模块。
●　xhtml2pdf：将html/css转换为pdf。
●　untangle：轻松实现将xml文件转换为python对象。
四、文本处理
用于解析和操作简单文本的库。
●　difflib：（python标准库）帮助进行差异化比较。
●　levenshtein：快速计算levenshtein距离和字符串相似度。
●　fuzzywuzzy：模糊字符串匹配。
●　esmre：正则表达式加速器。
●　ftfy：自动整理unicode文本，减少碎片化。
五、特定格式文件处理
解析和处理特定文本格式的库。
●　tablib：一个把数据导出为xls、csv、json、yaml等格式的模块。
●　textract：从各种文件中提取文本，比如 word、powerpoint、pdf等。
●　messytables：解析混乱的表格数据的工具。
●　rows：一个常用数据接口，支持的格式很多（目前支持csv，html，xls，txt：将来还会提供更多！）。
以上就是python写爬虫都用到什么库的详细内容。

Python写爬虫都用到什么库

推荐信息