您好,欢迎访问一九零五行业门户网

利用curl抓取网页数据,phantomjs..请神人解

小弟昨天有发文请教,有很多的神人给我小弟很大的帮忙,目前只剩下一小块的数据未抓到。
有大大说用 phantomjs来抓取html
目前的js如
var page = require('webpage').create();
var url = 'http://www.cbssports.com/mlb/gametracker/live/mlb_20140528_cle@chw';
page.open(url, function (status) {var js = page.evaluate(function () {return document;});console.log(js.all[0].outerhtml);phantom.exit();});
误错,显示不出正确的hmtl
另 phontomjs是一个执行档,我要怎么每秒让他自动执行,用 php ? 因为在php 里我目前只能用
exec(start d:\phantomjs script.js )
让它自动产生本文档,然后针对本文档作解析,但一直没有办法执行,求神人解
2014 05 23 更新
之前在网站上有提出,有抓到几个数据。
先看一下我的程序如下:
$url =http://www.cbssports.com/mlb/gametracker/live/mlb_20140529_sf@stl;
$ch = curl_init();
curl_setopt($ch, curlopt_header, 0);
curl_setopt($ch, curlopt_url, $url);
curl_setopt($ch, curlopt_returntransfer, 1);
curl_setopt($ch, curlopt_useragent, mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.22 (khtml, like gecko) chrome/25.0.1364.172 safari/537.22);
curl_setopt($ch, curlopt_followlocation ,1);
curl_setopt($ch, curlopt_connecttimeout, 0);
$data = curl_exec($ch);
preg_match_all('/(.?)/is',$data,$teamcity);
preg_match_all('/(.?)/is',$data,$teamname);…….以下为正规化
未抓出的资料部份如下:(红字为抓不出来的)(以下只是部份)
里面会有一个
或是
div class=”batter-pitcher fleft”>
table>里面的
的资料都抓不出来重点在于,部份的数据,不管你用什么浏览器的「另存新檔」 save as 或是 「检视原始码」,都看不到上列的这数据。 而 div class=”batter-pitcher fleft” 这部份的资料目前已知是 js 的 batter_ingame_stats function是跑「进行比赛中的」
而另一个function function() { cbsi.app.baserunners = function(args 则是跑 「谁在垒上」右下角那个 「球场的图标」的数据 ,目前只剩这几个部份抓不出。
很多神人大大说,「就抓js呀」,但是,就问不到要如何抓。
跪求各位大大给个方向。
这一个话题的 讨论在:http://segmentfault.com/q/1010000000522277
目前直播赛事:http://www.cbssports.com/mlb/gametracker/live/mlb_20140529_sf@stl
回复内容: 小弟昨天有发文请教,有很多的神人给我小弟很大的帮忙,目前只剩下一小块的数据未抓到。
有大大说用 phantomjs来抓取html
目前的js如
var page = require('webpage').create();
var url = 'http://www.cbssports.com/mlb/gametracker/live/mlb_20140528_cle@chw';
page.open(url, function (status) {var js = page.evaluate(function () {return document;});console.log(js.all[0].outerhtml);phantom.exit();});
误错,显示不出正确的hmtl
另 phontomjs是一个执行档,我要怎么每秒让他自动执行,用 php ? 因为在php 里我目前只能用
exec(start d:\phantomjs script.js )
让它自动产生本文档,然后针对本文档作解析,但一直没有办法执行,求神人解
2014 05 23 更新
之前在网站上有提出,有抓到几个数据。
先看一下我的程序如下:
$url =http://www.cbssports.com/mlb/gametracker/live/mlb_20140529_sf@stl;
$ch = curl_init();
curl_setopt($ch, curlopt_header, 0);
curl_setopt($ch, curlopt_url, $url);
curl_setopt($ch, curlopt_returntransfer, 1);
curl_setopt($ch, curlopt_useragent, mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.22 (khtml, like gecko) chrome/25.0.1364.172 safari/537.22);
curl_setopt($ch, curlopt_followlocation ,1);
curl_setopt($ch, curlopt_connecttimeout, 0);
$data = curl_exec($ch);
preg_match_all('/(.?)/is',$data,$teamcity);
preg_match_all('/(.?)/is',$data,$teamname);…….以下为正规化
未抓出的资料部份如下:(红字为抓不出来的)(以下只是部份)
里面会有一个
或是
div class=”batter-pitcher fleft”>
table>里面的
的资料都抓不出来重点在于,部份的数据,不管你用什么浏览器的「另存新檔」 save as 或是 「检视原始码」,都看不到上列的这数据。 而 div class=”batter-pitcher fleft” 这部份的资料目前已知是 js 的 batter_ingame_stats function是跑「进行比赛中的」
而另一个function function() { cbsi.app.baserunners = function(args 则是跑 「谁在垒上」右下角那个 「球场的图标」的数据 ,目前只剩这几个部份抓不出。
很多神人大大说,「就抓js呀」,但是,就问不到要如何抓。
跪求各位大大给个方向。
这一个话题的 讨论在:http://segmentfault.com/q/1010000000522277
目前直播赛事:http://www.cbssports.com/mlb/gametracker/live/mlb_20140529_sf@stl
这么写
var page = require('webpage').create();page.open('http://segmentfault.com/', function(status) { var ua = page.evaluate(function() { return document.body.outerhtml; }); console.log(ua); phantom.exit();});
其它类似信息

推荐信息