您好,欢迎访问一九零五行业门户网

curl - php 如何实现定时爬取 一个网页的新闻的时间

现在项目要求是每天凌晨去爬取一个网页的内容 求大神支招 最好有代码简述 谢谢了
回复内容: 现在项目要求是每天凌晨去爬取一个网页的内容 求大神支招 最好有代码简述 谢谢了
1.定时用linux工具crontab
2.爬取用php的file_get_contents函数足矣,不行就用php_curl扩展
3.内容用正则表达式匹配
新闻一般都写有时间的吧,你比如这个 http://news.163.com/15/0313/03/akib93gc00014aed.html,他里面就写有时间戳: 2015-03-13 03:20:29
如果没有的化,新闻网站一般都是静态页面,你可以参考他的http header,比如
curl 'http://news.163.com/15/0313/03/akib93gc00014aed.html' --head
http/1.1 200 ok
server: fscs/1.2.5
date: fri, 13 mar 2015 01:23:25 gmt
content-type: text/html; charset=gbk
content-length: 162187
connection: keep-alive
last-modified: fri, 13 mar 2015 01:18:25 gmt
vary: accept-encoding
etag: 55023ae1-2798b
......
这里面, last-modified就是可以近似当做他的时间啦.
写好抓取脚本,用linux crontab定时去执行。
其它类似信息

推荐信息