零基础写Java知乎爬虫之获取知乎编辑推荐内容

首先花个三五分钟设计一个logo=。=作为一个程序员我一直有一颗做美工的心！
好吧做的有点小凑合，就先凑合着用咯。
接下来呢，我们开始制作知乎的爬虫。
首先，确定第一个目标：编辑推荐。
网页链接：http://www.zhihu.com/explore/recommendations
我们对上次的代码稍作修改，先实现能够获取该页面内容：
import java.io.*; import java.net.*; import java.util.regex.*; public class main { static string sendget(string url) { // 定义一个字符串用来存储网页内容 string result = ""; // 定义一个缓冲字符输入流 bufferedreader in = null; try { // 将string转成url对象 url realurl = new url(url); // 初始化一个链接到那个url的连接 urlconnection connection = realurl.openconnection(); // 开始实际的连接 connection.connect(); // 初始化 bufferedreader输入流来读取url的响应 in = new bufferedreader(new inputstreamreader( connection.getinputstream())); // 用来临时存储抓取到的每一行的数据 string line; while ((line = in.readline()) != null) { // 遍历抓取到的每一行并将其存储到result里面 result += line; } } catch (exception e) { system.out.println("发送get请求出现异常！" + e); e.printstacktrace(); } // 使用finally来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (exception e2) { e2.printstacktrace(); } } return result; } static string regexstring(string targetstr, string patternstr) { // 定义一个样式模板，此中使用正则表达式，括号中是要抓的内容 // 相当于埋好了陷阱匹配的地方就会掉下去 pattern pattern = pattern.compile(patternstr); // 定义一个matcher用来做匹配 matcher matcher = pattern.matcher(targetstr); // 如果找到了 if (matcher.find()) { // 打印出结果 return matcher.group(1); } return "nothing"; } public static void main(string[] args) { // 定义即将访问的链接 string url = "http://www.zhihu.com/explore/recommendations"; // 访问链接并获取页面内容 string result = sendget(url); // 使用正则匹配图片的src内容 //string imgsrc = regexstring(result, "src=\"(.+?)\""); // 打印结果 system.out.println(result); } }
运行一下木有问题，接下来就是一个正则匹配的问题了。
首先我们先来获取该页面的所有的问题。
右击标题，审查元素：
啊哈，可以看到标题其实是一个a标签，也就是一个超链接，而其中能够和其他超链接区分开的，应该就是那个class了，也就是类选择器。
于是我们的正则语句就出来了：question_link.+?href=\"(.+?)\"
调用regexstring函数，并给它传参：
public static void main(string[] args) { // 定义即将访问的链接 string url = "http://www.zhihu.com/explore/recommendations"; // 访问链接并获取页面内容 string result = sendget(url); // 使用正则匹配图片的src内容 string imgsrc = regexstring(result, "question_link.+?>(.+?)<"); // 打印结果 system.out.println(imgsrc); }
啊哈，可以看到我们成功抓到了一个标题（注意，只是一个）：
等一下啊这一大堆的乱七八糟的是什么玩意？！
别紧张=。=它只是字符乱码而已。
编码问题可以参见：html字符集
一般来说，对中文支持较好的主流编码是utf-8，gb2312和gbk编码。
以上就是零基础写java知乎爬虫之获取知乎编辑推荐内容的内容。

零基础写Java知乎爬虫之获取知乎编辑推荐内容

推荐信息