thinkphp5 + beanbun 实现简单抓取电影网址及图片

本文主要为大家分享一篇thinkphp5 + beanbun 实现简单抓取电影网址及图片，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧，希望能帮助到大家。
先创建两个数据表分别存储第一级url表和这个url下面的图片表
dywz数据表
create table `think_dy2018` ( `id` int(7) unsigned not null auto_increment comment '主键id', `moviename` varchar(255) not null comment '电影名', `movieurl` varchar(520) not null comment '电影详情页地址', `addtime` int(11) not null comment '添加时间', primary key (`id`) ) engine=innodb auto_increment=8808 default charset=utf8 comment='dywz信息采集'
create table `think_dy2018imgs` ( `id` int(8) unsigned not null auto_increment comment '图片id', `urlid` int(7) not null comment '关联的电影id', `imgurl` varchar(520) default null comment '图片地址', `create_time` int(10) not null comment '图片添加时间', primary key (`id`), key `urlid` (`urlid`) ) engine=innodb auto_increment=1279 default charset=utf8 comment='图片地址'
接下来通过thinkphp5来写，首先还得安装扩展 beanbun，然后对电影网站进行分析，使用beanbun抓取页面后，用正则筛选出自己想要的 moviename、movieurl。
thinkphp5代码
1、执行 getlist（）可以获得一级页面moviename、movieurl
2、执行 getimage（）可以获得一级页面每一条电影url下面详细信息的大图
<?php /* +------------------------------------------------------------------------------------------- + title : 爬虫控制器 + version : v1.0.0.2 + initial-time : 2018/3/27 + sgw + last-time : 2018/3/27 + sgw + desc : 爬取网站电影信息 +------------------------------------------------------------------------------------------- */ namespace app\index\controller; use \beanbun\beanbun; use beanbun\lib\helper; use \guzzlehttp\client; use \think\controller; use \think\db; class robot extends controller{ /** * 抓取一级页面信息 */ public function getlist(){ $beanbun = new beanbun; $urllist = ['http://www.ygdy8.net/html/gndy/dyzz/index.html']; for($i=2;$i<=173;$i++ ){ $urllist[] = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_'.$i.'.html'; } $beanbun->seed = $urllist; $beanbun->afterdownloadpage = function($beanbun) { if (strlen($beanbun->page) < 100) { $beanbun->error(); } # 对抓取内容转码 $contents = mb_convert_encoding($beanbun->page,'utf8' ,'gb2312'); file_put_contents('66.html', $contents); $patter = '/<td height="26">\s*<b>\s*<a href="(.+)".*>(.*)<\/a>\s*<\/b>/su'; preg_match_all($patter, $contents, $m); # 对抓取的数据分析插入数据库 if($m[0]){ $hrefs = $m[1]; $titles = $m[2]; foreach ($hrefs as $key => $href){ $url = helper::formaturl($href, $beanbun->url); $data[] = [ 'moviename' => strip_tags($titles[$key]), 'movieurl' => $url, 'addtime' => time() ]; } db::name('dy2018')->insertall($data); } }; # 抓取页面之后回调 $beanbun->start(); } /** * 抓取改url下面相信信息的imges * 查询数据表中id，movieurl。然后根据movieurl爷们内容爬取图片（注意这里图片可能有多张，所以用循环对应同一个movieurl的urlid） * */ public function getimage(){ # 返回bool $result = db::table('think_dywz')->column('id,movieurl'); foreach ($result as $key => $value){ $result = $this->https_request($value); $pattern = '/<img border="0"\s+src="(.+)".*>/su'; preg_match_all($pattern,$result,$m); if ($m[0]) { $imgs = $m[1]; foreach ($imgs as $k=> $v) { $data = [ 'imgurl' => $v, 'urlid' => $key, 'create_time' => time(), ]; db::name('dywzimgs')->insert($data); } } } } /** * curl万能函数 * @param [string] $url [请求地址] * @param [arra] $data [post的数据] * @return mixed */ private static function https_request($url, $data = null){ # 初始化一个curl会话 $curl = curl_init(); //设置请求选项, 包括具体的url curl_setopt($curl, curlopt_url, $url); curl_setopt($curl, curlopt_ssl_verifypeer, false); //禁用后curl将终止从服务端进行验证 curl_setopt($curl, curlopt_ssl_verifyhost, false); if (!empty($data)){ curl_setopt($curl, curlopt_post, 1); //设置为post请求类型 curl_setopt($curl, curlopt_postfields, $data); //设置具体的post数据 } curl_setopt($curl, curlopt_returntransfer, 1); $response = curl_exec($curl); //执行一个curl会话并且获取相关回复 curl_close($curl); //释放curl句柄,关闭一个curl会话 return $response; } }
这就是完整的代码了，相信聪明的你已经学会了。
以上就是thinkphp5 + beanbun 实现简单抓取电影网址及图片的详细内容。

thinkphp5 + beanbun 实现简单抓取电影网址及图片

推荐信息