首先花个三五分钟设计一个logo=。=作为一个程序员我一直有一颗做美工的心!
好吧做的有点小凑合,就先凑合着用咯。
接下来呢,我们开始制作知乎的爬虫。
首先,确定第一个目标:编辑推荐。
网页链接:http://www.zhihu.com/explore/recommendations
我们对上次的代码稍作修改,先实现能够获取该页面内容:
import java.io.*;
import java.net.*;
import java.util.regex.*;
public class main {
static string sendget(string url) {
// 定义一个字符串用来存储网页内容
string result = "";
// 定义一个缓冲字符输入流
bufferedreader in = null;
try {
// 将string转成url对象
url realurl = new url(url);
// 初始化一个链接到那个url的连接
urlconnection connection = realurl.openconnection();
// 开始实际的连接
connection.connect();
// 初始化 bufferedreader输入流来读取url的响应
in = new bufferedreader(new inputstreamreader(
connection.getinputstream()));
// 用来临时存储抓取到的每一行的数据
string line;
while ((line = in.readline()) != null) {
// 遍历抓取到的每一行并将其存储到result里面
result += line;
}
} catch (exception e) {
system.out.println("发送get请求出现异常!" + e);
e.printstacktrace();
}
// 使用finally来关闭输入流
finally {
try {
if (in != null) {
in.close();
}
} catch (exception e2) {
e2.printstacktrace();
}
}
return result;
}
static string regexstring(string targetstr, string patternstr) {
// 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
// 相当于埋好了陷阱匹配的地方就会掉下去
pattern pattern = pattern.compile(patternstr);
// 定义一个matcher用来做匹配
matcher matcher = pattern.matcher(targetstr);
// 如果找到了
if (matcher.find()) {
// 打印出结果
return matcher.group(1);
}
return "nothing";
}
public static void main(string[] args) {
// 定义即将访问的链接
string url = "http://www.zhihu.com/explore/recommendations";
// 访问链接并获取页面内容
string result = sendget(url);
// 使用正则匹配图片的src内容
//string imgsrc = regexstring(result, "src=\"(.+?)\"");
// 打印结果
system.out.println(result);
}
}
运行一下木有问题,接下来就是一个正则匹配的问题了。
首先我们先来获取该页面的所有的问题。
右击标题,审查元素:
啊哈,可以看到标题其实是一个a标签,也就是一个超链接,而其中能够和其他超链接区分开的,应该就是那个class了,也就是类选择器。
于是我们的正则语句就出来了:question_link.+?href=\"(.+?)\"
调用regexstring函数,并给它传参:
public static void main(string[] args) {
// 定义即将访问的链接
string url = "http://www.zhihu.com/explore/recommendations";
// 访问链接并获取页面内容
string result = sendget(url);
// 使用正则匹配图片的src内容
string imgsrc = regexstring(result, "question_link.+?>(.+?)<");
// 打印结果
system.out.println(imgsrc);
}
啊哈,可以看到我们成功抓到了一个标题(注意,只是一个):
等一下啊这一大堆的乱七八糟的是什么玩意?!
别紧张=。=它只是字符乱码而已。
编码问题可以参见:html字符集
一般来说,对中文支持较好的主流编码是utf-8,gb2312和gbk编码。
以上就是零基础写java知乎爬虫之获取知乎编辑推荐内容的内容。