您好,欢迎访问一九零五行业门户网

浅析怎么使用PHP做异步爬取数据

说到爬虫,很多人就会想到python爬虫,因为它确实有很大的优点。但其实php也是可以用来做异步爬取数据的,下面就来给大家介绍一下使用php做异步爬取数据的方法。
什么是网络爬虫?
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的url开始,获得初始网页上的url,在抓取网页的过程中,不断从当前页面上抽取新的url放入队列,直到满足系统的一定停止条件。
爬虫有什么用?
做为通用搜索引擎网页收集器。(google,baidu)
做垂直搜索引擎.
科学研究:在线人类行为,在线社群演化,人类动力学研究,计量社会学,复杂网络,数据挖掘,等领域的实证研究都需要大量数据,网络爬虫是收集相关数据的利器。
偷窥,hacking,发垃圾邮件……
querylist 简介与特性
querylist是一套简洁、优雅、可扩展的php采集工具(爬虫),基于phpquery。
特性:
拥有与jquery完全相同的css3 dom选择器
拥有与jquery完全相同的dom操作api
拥有通用的列表采集方案
拥有强大的http请求套件,轻松实现如:模拟登陆、伪造浏览器、http代理等意复杂的网络请求
拥有乱码解决方案
拥有强大的内容过滤功能,可使用jquey选择器来过滤内容
拥有高度的模块化设计,扩展性强
拥有富有表现力的api
拥有高质量文档
拥有丰富的插件
拥有专业的问答社区和交流群
通过插件可以轻松实现诸如:
多线程采集
图片本地化
模拟浏览器行为,如:提交form表单
网络爬虫
环境要求
php >= 7.0
如果你的php版本还停留在php5,或者不会使用composer,你可以选择使用querylist3,querylist3支持php5.3以及手动安装。 querylist3 文档:http://v3.querylist.cc
安装
通过composer安装:
composer require jaeger/querylist
使用
元素操作
采集「昵图网」所有图片地址
querylist::get('http://www.nipic.com')->find('img')->attrs('src');
采集百度搜索结果
$ql = querylist::get('http://www.baidu.com/s?wd=querylist');$ql->find('title')->text(); // 获取网站标题$ql->find('meta[name=keywords]')->content; // 获取网站头部关键词$ql->find('h3>a')->texts(); //获取搜索结果标题列表$ql->find('h3>a')->attrs('href'); //获取搜索结果链接列表$ql->find('img')->src; //获取第一张图片的链接地址$ql->find('img:eq(1)')->src; //获取第二张图片的链接地址$ql->find('img')->eq(2)->src; //获取第三张图片的链接地址// 遍历所有图片$ql->find('img')->map(function($img){ echo $img->alt; //打印图片的alt属性});
更多用法
$ql->find('#head')->append('<div>追加内容</div>')->find('div')->htmls();$ql->find('.two')->children('img')->attrs('alt'); //获取class为two元素下的所有img孩子节点//遍历class为two元素下的所有孩子节点$data = $ql->find('.two')->children()->map(function ($item){ //用is判断节点类型 if($item->is('a')){ return $item->text(); }elseif($item->is('img')) { return $item->alt; }});$ql->find('a')->attr('href', 'newval')->removeclass('classname')->html('newhtml')->...$ql->find('div > p')->add('div > ul')->filter(':has(a)')->find('p:first')->nextall()->andself()->...$ql->find('div.old')->replacewith( $ql->find('div.new')->clone())->appendto('.trash')->prepend('deleted')->...
列表采集
采集百度搜索结果列表的标题和链接:
$data = querylist::get('http://www.baidu.com/s?wd=querylist') // 设置采集规则 ->rules([ 'title'=>array('h3','text'), 'link'=>array('h3>a','href') ]) ->query()->getdata();print_r($data->all());
采集结果:
array( [0] => array ( [title] => querylist|基于phpquery的无比强大的php采集工具 [link] => http://www.baidu.com/link?url=gu_ybdt2ihk4ns1tjg2i8_vjmh0scjeapuuzn ) [1] => array ( [title] => php 用querylist抓取网页内容 - wb145230 - 博客园 [link] => http://www.baidu.com/link?url=zn0dxbnrvif2ibrvw34kcrvfg1_bcdzvqvwihuqixas ) [2] => array ( [title] => 介绍- querylist指导文档 [link] => http://www.baidu.com/link?url=psypvmovqs4v2sweqo5fdbj4eoyhxyi0lxx ) //...)
编码转换
// 输出编码:utf-8,输入编码:gb2312querylist::get('https://top.etao.com')->encoding('utf-8','gb2312')->find('a')->texts();// 输出编码:utf-8,输入编码:自动识别querylist::get('https://top.etao.com')->encoding('utf-8')->find('a')->texts();
http网络操作
携带cookie登录新浪微博
//采集新浪微博需要登录才能访问的页面$ql = querylist::get('http://weibo.com','param1=testvalue & params2=somevalue',[ 'headers' => [ //填写从浏览器获取到的cookie 'cookie' => 'sinaglobal=546064; wb_cmtlike_2112031=1; wvr=6;....' ]]);//echo $ql->gethtml();echo $ql->find('title')->text();//输出: 我的首页 微博-随时随地发现新鲜事
使用http代理
$urlparams = ['param1' => 'testvalue','params2' => 'somevalue'];$opts = [ // 设置http代理 'proxy' => 'http://222.141.11.17:8118', //设置超时时间,单位:秒 'timeout' => 30, // 伪造http头 'headers' => [ 'referer' => 'https://querylist.cc/', 'user-agent' => 'testing/1.0', 'accept' => 'application/json', 'x-foo' => ['bar', 'baz'], 'cookie' => 'abc=111;xxx=222' ]];$ql->get('http://httpbin.org/get',$urlparams,$opts);// echo $ql->gethtml();
模拟登录
// 用post登录$ql = querylist::post('http://xxxx.com/login',[ 'username' => 'admin', 'password' => '123456'])->get('http://xxx.com/admin');//采集需要登录才能访问的页面$ql->get('http://xxx.com/admin/page');//echo $ql->gethtml();
form表单操作
模拟登陆github
// 获取querylist实例$ql = querylist::getinstance();//获取到登录表单$form = $ql->get('https://github.com/login')->find('form');//填写github用户名和密码$form->find('input[name=login]')->val('your github username or email');$form->find('input[name=password]')->val('your github password');//序列化表单数据$fromdata = $form->serializearray();$postdata = [];foreach ($fromdata as $item) { $postdata[$item['name']] = $item['value'];}//提交登录表单$actionurl = 'https://github.com'.$form->attr('action');$ql->post($actionurl,$postdata);//判断登录是否成功// echo $ql->gethtml();$username = $ql->find('.header-nav-current-user>.css-truncate-target')->text();if($username){ echo '登录成功!欢迎你:'.$username;}else{ echo '登录失败!';}
bind功能扩展
自定义扩展一个myhttp方法:
$ql = querylist::getinstance();//绑定一个myhttp方法到querylist对象$ql->bind('myhttp',function ($url){ $html = file_get_contents($url); $this->sethtml($html); return $this;});//然后就可以通过注册的名字来调用$data = $ql->myhttp('https://toutiao.io')->find('h3 a')->texts();print_r($data->all());
或者把实现体封装到class,然后这样绑定:
$ql->bind('myhttp',function ($url){ return new myhttp($this,$url);});
插件使用
使用curl多线程插件,多线程采集github排行榜:
$ql = querylist::use(curlmulti::class);$ql->curlmulti([ 'https://github.com/trending/php', 'https://github.com/trending/go', //.....more urls]) // 每个任务成功完成调用此回调 ->success(function (querylist $ql,curlmulti $curl,$r){ echo "current url:{$r['info']['url']} \r\n"; $data = $ql->find('h3 a')->texts(); print_r($data->all());}) // 每个任务失败回调->error(function ($errorinfo,curlmulti $curl){ echo "current url:{$errorinfo['info']['url']} \r\n"; print_r($errorinfo['error']);})->start([ // 最大并发数 'maxthread' => 10, // 错误重试次数 'maxtry' => 3,]);
更多详细请查看github:https://github.com/jae-jae/querylist
推荐学习:《php视频教程》
以上就是浅析怎么使用php做异步爬取数据的详细内容。
其它类似信息

推荐信息