r和python是目前最流行的两款高级编程语言,被大量运用于数据科学领域。两者都是开源的,也都有非常活跃的社区来支撑。那么问题来了:r语言和python有必要都学吗
r:
r语言由新西兰奥克兰大学的ross ihaka和robert gentleman于1995设计出来(由于两人的名字均以 ‘r’ 字母开头,因此命名为r语言),现在由“r核心开发团队“负责开发。
虽然r主要用于数据分析、绘图以及数据挖掘,但也有人用作矩阵计算。其计算速度可媲美专用于矩阵计算的开源软件gnu octave和商业软件matlab。
起初r主要在学术研究中使用,但近年来在企业界也表现突出,这使得r成为企业中使用的全球发展最快的统计语言之一。对于数据科学任务,r的语法更直观形象
对于数据处理任务,很多时候r的语法会更简单。函数和参数的命名设计也更好,很容易记住和使用。
举个例子,我们将分别用r和python来删掉iris数据框中的两个变量(由于r和python都有iris数据框,因此我们使用这个数据框)。
我们来看看各自的语法:
python
import seaborn as snsimport pandas as pdiris = sns.load_dataset('iris')iris.drop(['sepal_length', 'species'], axis = 1)
r
library(dplyr)select(iris, -sepal_length, -species)
为了删除变量,python中使用了drop函数,而r中使用了select函数。我们来对比这两个函数(都在最后一行代码)的语法。
先讲python,drop函数命名得很好,容易记住。但是参数设计得很复杂。
第一个参数是包含想要删除变量的列表,python中用方括号[ ]代表列表。这里你必须要用方括号,而且变量一定要用引号' ',要不然代码会运行错误。
在数据可视化方面,r非常优秀
可视化是选择数据分析软件的一个重要的标准。
除了擅长数据分析外,r的另外一个闪光点就是它的画图能力特别强,几乎可以绘制出所有类型的图。不信的话,你可以google一下,输入 'r visualization' 关键字。
python的优势
对于数据科学初学者,尽管我强烈推荐学r,但也不是唯一的选择。
对于某些人,python可能是最好的选择。下面讲一下哪些情况下选择python更好。
如果你有软件开发或计算机科学基础,学python
如果你曾经有软件开发经验或者你是计算机科学专业的话,我认为python会更适合你。因为你已经有编程经验了,使用python会让你更舒服。
想开发软件,学python
我已经说了r更擅长数据科学。如果你想建立软件系统的话,我认为python更合适。python的闪光点就是写软件,效率很高。就像一些专家所说的那样,写python代码就如同写伪代码。
此外,python是一门通用语言,基本啥都能干。然而r比较专,只是擅长统计分析和可视化。
我想澄清一下,不是说r不能写软件。只是更多人喜欢用python去建立产品软件。因此作为数据科学家,如果你想创立软件系统,我觉得python比r更合适。
想搞机器学习,学python
如果你想长期从事机器学习方面的研究,我建议你学python。
其实r也有机器学习生态系统。特别地,r的caret 包开发得很好,它有能力完成各种机器学习任务。比如:使用caret包建立回归模型(regression model)、支持向量机(svm)、决策树(包括回归和分类)以及执行交叉验证(cross validation)等等。总之,r的机器学习生态系统发展得很好。
但是,python在机器学习方面的支持出现更早。为实现各种不同机器学习方法,python的scikit-learn库提供了一套更加简洁和易读的语法。而r中caret包的语法有时有点拙劣。尤其,caret包与tidyverse包兼容得不是很好,输出的结果有时也很难处理。相反,python的scikit-learn库与python生态环境整合得很好。
市面上有关机器学习的书籍,其算法实现很多都是用python写的。
总之,如果你想致力于机器学习,我认为python会更好。
想搞深度学习,学python
深度学习可谓是目前人工智能领域最热门的技术之一,而python是深度学习使用最热门的语言。
大多数深度学习框架都有python接口,比如:tensorflow,keras,pytorch,theano,mxnet等等。
python与各框架兼容得非常好,拥有大量贡献者、搜索结果、相关书籍和学术文章;github上的深度学习项目大多数都是用python写的。如果你是刚入门深度学习的新手,使用keras是不错的选择。
相比较,r对深度学习框架兼容方面表现不佳。因此如果你想专注深度学习,python可能更适合。
学r还是python?主要还是依耐你的背景以及你的目标。
如果你没有任何编程经验,建议你先学r;如果你想学数据可视化,我认为r的ggplot2包是最好的工具;如果你想专门从事数据分析和数据挖掘,r表现更优秀。
如果你想成为机器学习专家,python的scikit-learn库可以好好研究一下;如果你想开发软件系统,python更合适。
俗话说,技多不压身,你还有第三个选择:r和python都学。实际上很多顶尖数据科学家这两门语言都会。不过对于新手,一次只学一门。同时学两门会让你很混乱,学习周期会拉长,事倍功半。
以上就是r语言和python有必要都学吗的详细内容。