您好,欢迎访问一九零五行业门户网

PHP爬虫实战:抓取慕课网课程信息

随着互联网的发展,爬虫技术在现代化的数据采集、数据分析和业务决策当中已经扮演了越来越重要的角色。学会如何利用爬虫技术,将会极大的提高我们处理数据的效率和准确性。在这篇文章中,我们将使用php编写一个爬虫,用于抓取慕课网上的课程信息。
本文将使用的工具如下:
php编程语言,版本为php 7.0第三方库guzzle http client,用于发送http请求和接收http响应一个简单的mysql数据库,用于存储我们抓取到的课程信息1.准备工作
首先,我们需要在本地环境中安装php 7.0版本,安装过程略。
guzzle http client是一个常用的http客户端工具库,我们可以使用composer进行安装。在命令行中切换到一个空白目录下,然后创建一个新的composer.json文件,添加如下内容:
{
"require": { "guzzlehttp/guzzle": "^6.3"}
}
然后在同级目录下执行composer install,等待执行完成后,我们就成功安装了guzzle http client。
2.分析目标网站结构
在开始编写代码之前,我们需要对目标网站的结构进行分析。我们选择的是慕课网(www.imooc.com)的python课程,我们需要抓取的信息包括课程名称、课程编号、课程难度、课程时长和课程链接。
打开目标网站并进行一定的操作后(例如搜索“python”课程),我们可以查看到网站返回的响应内容。我们可以使用浏览器的开发工具查看响应内容和网页结构。
我们可以看到,在慕课网上python课程的列表是通过ajax进行动态加载的。为了便于爬取数据,我们可以直接去查找ajax请求的url和参数,然后构造自己的http请求来获取数据。
通过查看目标网站的xhr请求,我们可以发现python课程实际请求的url是 http://www.imooc.com/course/ajaxcoursemore?&page=1。
请求参数中的page表示当前要访问的页码。我们可以通过http get方法向该url发送请求,并根据返回结果进行解析。
3.编写爬虫程序
在上一步我们已经获取了目标网站python课程的列表url,现在我们只需要编写php代码,使用guzzle http client发送http请求,然后解析返回结果即可。
首先,我们需要引入guzzle http client库。在php文件的顶部添加如下代码:
require 'vendor/autoload.php';
然后创建一个guzzle http client对象:
$client = new guzzlehttpclient();
接下来,我们可以使用该对象发送http请求:
$response = $client->request('get', 'http://www.imooc.com/course/ajaxcoursemore?&page=1');
上述代码中,我们使用了guzzle http client对象的request()方法,指定请求的方式是get,请求的url是我们在上一步中获取到的url。
最后,我们需要从http响应中获取到我们需要的课程信息。通过检查响应内容,我们可以看到课程信息包含在一个html标签中,标签的class属性为course-card-container。
我们可以使用php的domdocument类遍历html标签,将符合条件的标签解析出来。
最终的代码实现如下:
require 'vendor/autoload.php';
use guzzlehttpclient;
$client = new client([
'base_uri' => 'http://www.imooc.com'

]);
$response = $client->request('get', '/course/ajaxcoursemore?&page=1');
if ($response->getstatuscode() == 200) {
$dom = new domdocument();@$dom->loadhtml($response->getbody());$xpath = new domxpath($dom);$items = $xpath->query("//div[@class='course-card-container']");foreach ($items as $item) { $coursename = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textcontent); $courseid = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card'], $item)->item(0)->getattribute('href')); $coursedifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textcontent); $courseduration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textcontent); $courselink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getattribute('href')); // 将抓取到的数据存储到mysql数据库中 // ... echo "课程名称:" . $coursename . "
;
echo "课程编号:" . $courseid . "
;
echo "课程难度:" . $coursedifficulty . "
;
echo "课程时长:" . $courseduration . "
;
echo "课程链接:" . $courselink . "
;
}
}
我们使用domdocument读取html响应内容,在使用domxpath遍历标签。最终,我们将抓取到的信息打印到屏幕上。
4.存储数据
现在我们已经成功的抓取到了python课程的信息,并将信息打印到了屏幕上。但是,将数据打印到屏幕上并不实用,我们需要将数据保存到数据库中。
在mysql数据库中,我们创建了一个表来存储python课程的信息。表结构如下:
create table python_courses (
id int(11) unsigned not null auto_increment,
course_name varchar(255) not null default '',
course_id varchar(255) not null default '',
course_difficulty varchar(255) not null default '',
course_duration varchar(255) not null default '',
course_link varchar(255) not null default '',
primary key (id)
) engine=innodb default charset=utf8;
在代码中,我们使用pdo连接mysql数据库,并使用prepare()方法和execute()方法执行插入操作。最终的代码如下:
require 'vendor/autoload.php';
use guzzlehttpclient;
$client = new client([
'base_uri' => 'http://www.imooc.com'

]);
$response = $client->request('get', '/course/ajaxcoursemore?&page=1');
if ($response->getstatuscode() == 200) {
$dom = new domdocument();@$dom->loadhtml($response->getbody());$xpath = new domxpath($dom);$items = $xpath->query("//div[@class='course-card-container']");$dsn = 'mysql:host=localhost;dbname=test';$username = 'root';$password = '';$pdo = new pdo($dsn, $username, $password, [pdo::attr_errmode => pdo::errmode_exception]);$stmt = $pdo->prepare("insert into `python_courses` (`course_name`, `course_id`, `course_difficulty`, `course_duration`, `course_link`) values (:course_name, :course_id, :course_difficulty, :course_duration, :course_link)");foreach ($items as $item) { $coursename = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textcontent); $courseid = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card']", $item)->item(0)->getattribute('href')); $coursedifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textcontent); $courseduration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textcontent); $courselink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getattribute('href')); $stmt->bindparam(':course_name', $coursename); $stmt->bindparam(':course_id', $courseid); $stmt->bindparam(':course_difficulty', $coursedifficulty); $stmt->bindparam(':course_duration', $courseduration); $stmt->bindparam(':course_link', $courselink); $stmt->execute();}
}
现在,我们已经成功的构建了一个简单的php爬虫,用于抓取慕课网上的python课程信息。经过这个例子的介绍,你应该可以使用php编写你自己的爬虫程序,并获取到你需要的数据了。
以上就是php爬虫实战:抓取慕课网课程信息的详细内容。
其它类似信息

推荐信息