您好,欢迎访问一九零五行业门户网

Python写爬虫都用到什么库

python爬虫,全称python网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或脚本,主要用于抓取证券交易数据、天气数据、网站用户数据和图片数据等,python为支持网络爬虫正常功能实现,内置了大量的库,主要有几种类型。下面本篇文章就来给大家介绍。
一、python爬虫网络库
python爬虫网络库主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、robobrowser、mechanicalsoup、mechanize、socket、unirest for python、hyper、pysocks、treq以及aiohttp等。
二、python网络爬虫框架
python网络爬虫框架主要包括:grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。
三、html/xml解析器 
● lxml:c语言编写高效html/ xml处理库。支持xpath。
● cssselect:解析dom树和css选择器。
● pyquery:解析dom树和jquery选择器。
● beautifulsoup:低效html/ xml处理库,纯python实现。
● html5lib:根据whatwg规范生成html/ xml文档的dom。该规范被用在现在所有的浏览器上。
● feedparser:解析rss/atom feeds。
● markupsafe:为xml/html/xhtml提供了安全转义的字符串。
● xmltodict:一个可以让你在处理xml时感觉像在处理json一样的python模块。
● xhtml2pdf:将html/css转换为pdf。
● untangle:轻松实现将xml文件转换为python对象。
四、文本处理
用于解析和操作简单文本的库。
● difflib:(python标准库)帮助进行差异化比较。
● levenshtein:快速计算levenshtein距离和字符串相似度。
● fuzzywuzzy:模糊字符串匹配。
● esmre:正则表达式加速器。
● ftfy:自动整理unicode文本,减少碎片化。
五、特定格式文件处理
解析和处理特定文本格式的库。
● tablib:一个把数据导出为xls、csv、json、yaml等格式的模块。
● textract:从各种文件中提取文本,比如 word、powerpoint、pdf等。
● messytables:解析混乱的表格数据的工具。
● rows:一个常用数据接口,支持的格式很多(目前支持csv,html,xls,txt:将来还会提供更多!)。
以上就是python写爬虫都用到什么库的详细内容。
其它类似信息

推荐信息