您好,欢迎访问一九零五行业门户网

Hadoop-Nutch学习整理(持续更新)

nutch学习整理第一部分 单机尝试1、安装部署nutch的部署和其他hadoop生态产品的部署流程基本相:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类资料,不再赘述。nutch的配置文件主要有两个: domain-urlfilter.txt 是用来配置所爬取网站的范
nutch学习整理第一部分 单机尝试1、安装部署nutch的部署和其他hadoop生态产品的部署流程基本相似:下载软件,上传到服务器,解压文件,修改配置文件。网上有很多类似资料,不再赘述。nutch的配置文件主要有两个:domain-urlfilter.txt 是用来配置所爬取网站的范围,域名和它的子网页的正则表达式,类似于爬取规则。一般配置为: # accept hosts in my.domain.name +^http://([a-z0-9]*\.)*my.domain.name/ nutch-site.xml 这类似于对我要爬取的网站进行一下声明,不声明的话,会导致爬取失败。
2、单机主要爬取命令简单命令格式,不赘述。bin/nutch crawl [-dir d] [-threads n] [-depth i] [-topn]
3、爬取结果解析nutch爬取下来的网页信息,保存路径格式如下:主要爬取信息保存在路径segments下:
喎?http://www.2cto.com/kf/ware/vc/ target=_blank class=keylink>vcd4kphvspgo8bgk+q3jhd2xkysrhy/nt0ndo0qrxpcihtcszrmgsvdpqxc+ikltmt8xpwttytcrvukyjrlywz8lu2lxeynxg2qos08patnkzw+a4/ndcvoyy6cqxvosjrnk7sopu2sxaykhe2sjdvelo9sq9sru74dpdtb2jqtxsat5maw5rzglw0ltmt8w1xmrhy/nt0losway907ywxutdv7j2way907xewazi67xy1re6zcoqzssxvqgjpgxpplnlz21lbnrztoa3xdelykg1xnkzw+ajrnpryc/d5sg0vdpj7rbiigrlchroim/gudijrgrlchroyejoqry41plu2ibzzwdtzw50c8/cyfqzyby4upbs1mqxvotd/mp7tctx087evp680kgjz8la/b3yzbzkxwoglwrlchroptmkcjxpbwcgc3jjpq==http://www.2cto.com/uploadfile/collfiles/20141127/2014112709151123.jpg alt=\>
segments下的文件夹含义:
crawl_generate :names a set of urls to be fetchedcrawl_fetch : contains the status of fetching each urlcrawl_parse : contains the outlink urls, used to update the crawldbcontent : contains the content of each urlparse_text : contains the parsed text of each urlparse_data : contains outlinks and metadata parsed from each url
segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate最初生成(待下载url集合);crawl_fetch(每个下载url的状态)、content在抓取时生成;crawl_parse(包含用来更新crawldb的外链)、parse_data、parse_text在解析抓取的数据文件时生成。在进行爬取结果导出的时候,六个参数(-nocontent -nofetch -noparse -noparsedata -noparsetext -nogenerate)分别对应需要导出的内容。导出命令例: [root@master local]# bin/nutch readseg -dump data_1125/segments/20141125020224 data_dump -nocontent -nofetch -nogenerate -noparse -noparsedata
其它类似信息

推荐信息