您好,欢迎访问一九零五行业门户网

网页抓取信息(php正则表达式、php操作excel)

1.问题描述
实现对固定网页上自己需要的信息抓取,以表格形式存储。我是拿wustoj上的一个排行榜来练习的,地址:wustoj
2.思路
网页自己就简单学习了一下php,刚好用它来做点事情吧,我的想法是这样的:
(1)查看网页源代码并保存在文件中。
(2)根据需要的信息写出正则表达式,读文件,根据正则表达式来提取需要的信息。写正则表达式的时候最好分组,这样提取起来就方便了很多。
(3)对excel操作,将提取的信息以excel的形式输出。
比较好的开源php处理excel类链接:点击打开链接
3.体会
^是指要是原字符串的开头,$是指要是原字符串的结尾。
空字符不一定是空格。
用()来分组是好方法,如preg_macth_all(/$pattern/,$subject,matches)。
matches为二维数组,如果没有_all,则只会匹配第一部分,是一维数组。
$matches[0]保存完整模式的所有匹配。$matches[1]保存第一子组所有匹配,即所有匹配的第一部分。
中文匹配串我用的这个$patt_ch=chr(0x80).-.chr(0xff)。
4.代码
getproperties()->setcreator(maarten balliauw);$objphpexcel->getproperties()->setlastmodifiedby(maarten balliauw);$objphpexcel->getproperties()->settitle(office 2007 xlsx test document);$objphpexcel->getproperties()->setsubject(office 2007 xlsx test document);$objphpexcel->getproperties()->setdescription(test document for office 2007 xlsx, generated using php classes.);$objphpexcel->getproperties()->setkeywords(office 2007 openxml php);$objphpexcel->getproperties()->setcategory(test result file);$row=1;$objphpexcel->getactivesheet()->setcellvalue('a'.$row, 'rank');$objphpexcel->getactivesheet()->setcellvalue('b'.$row, 'team');$objphpexcel->getactivesheet()->setcellvalue('c'.$row, 'solved');while(!feof($file)){ //echo $row. ; $line=fgets($file); if(preg_match(/$rankpatt/,$line,$match)) { $row++; //print_r ($match); //echo $match[2]. ; //echo
; $objphpexcel->getactivesheet()->setcellvalue('a'.$row, $match[2]); $objphpexcel->getactivesheet()->getstyle('a'.$row)->getalignment()->sethorizontal(phpexcel_style_alignment::horizontal_left); } if(preg_match(/$namepatt/,$line,$match)) { //print_r ($match); //echo $match[2]. .$match[4]. ; //echo
; $objphpexcel->getactivesheet()->setcellvalue('b'.$row, $match[2].$match[4]); } if(preg_match(/$problempatt/,$line,$match)) { //print_r ($match); //echo $match[2]. ; //echo
; $objphpexcel->getactivesheet()->setcellvalue('c' . $row, $match[2]); $objphpexcel->getactivesheet()->getstyle('c'.$row)->getalignment()->sethorizontal(phpexcel_style_alignment::horizontal_left); } $objwriter = new phpexcel_writer_excel2007($objphpexcel); $objwriter->save(str_replace('.php', '.xlsx', __file__));}echo well done:);?>
5.运行结果

其它类似信息

推荐信息