mahout简介 mahout 是 apache software foundation(asf) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 mahout相关资源 mahout主页:http://mahout.apache.org/ mahout 最新版本0.8下
mahout简介mahout 是 apache software foundation(asf) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序
mahout相关资源mahout主页:http://mahout.apache.org/mahout 最新版本0.8下载:?http://mirrors.hust.edu.cn/apache/mahout/0.8/?使用mahout-distribution-0.8.tar.gz可试跑,源码在mahout-distribution-0.8-src.tar.gz中mahout 简要安装步骤:如无需修改源代码,只是试用试跑,请无需安装maven(网上许多教程会有这个弯路,请跳过),具体可以参考以下教程
http://www.hadoopor.com/thread-983-1-1.html
如果需要能修改源代码并重新编译打包,需要安装maven,请参考如下图文教程:http://wenku.baidu.com/view/dbd15bd276a20029bd642d55.html
mahout 专业教程 : mahout in action?http://yunpan.taobao.com/share/link/r56bdlh5o注: 出版时间2012年, 对应mahout版本0.5, 是目前mahout最新的书籍读物。目前只有英文版,但是翻了一下,里面词汇基本都是计算机基础词汇,且配图和源代码,是适合阅读的。
ibm mahout简介:?http://www.ibm.com/developerworks/cn/java/j-mahout/注:中文版, 更新是时间为09年,但是里面对于mahout阐述较全面,推荐阅读,特别是最后的书籍清单,适合深入了解
mahout模块详解mahout模块详解mahout目前专注于推荐(recommendations)、聚类(clustering)、分类(classification)三大部分,具体事例可见mahout in action
推荐(recommendations)
推荐算法介绍
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html
item based algothrim
https://cwiki.apache.org/confluence/display/mahout/itembased+collaborative+filtering
collaborative filtering using a parallel matrix factorization
https://cwiki.apache.org/confluence/display/mahout/collaborative+filtering+with+als-wr
注:基于矩阵因子分解的方法,由于需要不断迭代,所以在mapreduce框架下效率会受影响
non-distributed recommenders
https://cwiki.apache.org/confluence/display/mahout/recommender+documentatio
注:mahout中也提供了推荐算法的非分布式的实现,其中有代号为”taste”的开源推荐引擎
分类(clustering)
bayesian 贝叶斯分类
http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/
注:其中同时实现了naive bayes和complementary naive
bayesrandom forests 随机森林
https://cwiki.apache.org/confluence/display/mahout/random+forests
注:在公司内部,gbdt(内部称treelink)有着广泛的引用,附介绍文章
http://www.searchtb.com/2010/12/an-introduction-to-treelink.html?(tbsearch博客)
http://www.cnblogs.com/leftnoteasy/archive/2011/03/07/random-forest-and-gbdt.html?(介绍随机森林与gbdt的博客)
logistic regression(逻辑回归)
https://cwiki.apache.org/confluence/display/mahout/logistic+regression
注:是用sgd(stochastic gradient descent,随机梯度下降)的方法实现的
也可用liblinear:?http://www.csie.ntu.edu.tw/~cjlin/liblinear/?(其中支持l1&l2 regularized logistic regression)
svm(支持向量机)
目前mahout这个模块还在开发,尚未集成入发布包,如有需要,建议使用台大的libsvm包
libsvm:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/
聚类(classification)
聚类方法简述
http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/
canopy clustering模块分析
http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html?(中文博客)
https://cwiki.apache.org/confluence/display/mahout/canopy+clustering?(英文文档)
kmeans模块分析
http://www.cnblogs.com/vivounicorn/archive/2011/10/08/2201986.html?(中文博客)
https://cwiki.apache.org/confluence/display/mahout/k-means+clustering?(英文文档)
fuzz kmeans
https://cwiki.apache.org/confluence/display/mahout/fuzzy+k-means
mean shift clustering
https://cwiki.apache.org/confluence/display/mahout/mean+shift+clustering
注:目前主要用于图像分割和跟踪等计算机视觉领域
latent dirichlet allocation(lda)
https://cwiki.apache.org/confluence/display/mahout/latent+dirichlet+allocation
注:经典方法,附论文英文原著论文?http://machinelearning.wustl.edu/mlpapers/paper_files/bleinj03.pdf?(引用数:6829)
http://www.docin.com/p-413125834.html?(基于lda话题演化研究方法综述)
http://leyew.blog.51cto.com/5043877/860255?(中文博客学习笔记)
http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/?(英文入门博客)
pattern mining 模式挖掘
parallel frequent pattern mining 并行频繁模式挖掘
https://cwiki.apache.org/confluence/display/mahout/parallel+frequent+pattern+mining
论文http://wenku.baidu.com/view/9cce67ed172ded630b1cb615.html(在query推荐中的应用)
dimension reduction 降维
singular value decomposition(svd) 奇异值分解
https://cwiki.apache.org/confluence/display/mahout/dimensional+reduction
svd介绍:?http://wenku.baidu.com/view/7f483a6b561252d380eb6ea6.html
evolutionary algorithms 进化算法
进化算法框架
进化算法介绍:
http://www.geatbx.com/docu/algindex.html
框架使用方法:
https://cwiki.apache.org/confluence/display/mahout/mahout.ga.tutorial
注:目前mahout只是提供一套进化算法的并行化实现框架,但具体的进化算法,如遗传算法、模拟退火算法、蚁群算法等,还未集成到开发包中。
相关工具书统计学习书籍1. 统计学习基础 — 数据挖掘、推理与预测(中文版)
http://yunpan.taobao.com/share/link/r56beli6o
注:此书英文版每年都在更新,但是中文版只有2004年一版,而且网上纸质书早就脱销了,由于是统计学习基础,所以大多数经典内容还是可读的;
2. 统计学习基础 — 数据挖掘、推理与预测(英文版)(the elements of statistical learning)
http://yunpan.taobao.com/share/link/d56belkye
目前的最新版,第二版(09年)的的第10次印刷版本(13年)
可与中文版对照看
概率论与数理统计基础书籍1. 浙大概率论与数理统计第三版
http://yunpan.taobao.com/share/link/u56belwbt
经典的教科书
2. 统计学完全教程(中文版)
http://yunpan.taobao.com/share/link/756belyaa
统计学的百科全书
数据挖掘概述书籍1. 数据挖掘导论(中文版)
http://yunpan.taobao.com/share/link/o56belopx
2. data mining.concepts and techniques.3ed(英文版)
http://yunpan.taobao.com/share/link/256belopx
注:中文版还是2000年的老版,起不到参考作用,所以放了最新的英文版
统计学习在自然语言处理方面应用的书籍1.统计自然语言处理基础(中文版)
http://yunpan.taobao.com/share/link/25vbpl7x
其它更多更新可见wiki:?http://searchwiki.taobao.ali.com/index.php/pbaselearning/mahout