数极客,拥有16种数据分析模型的新一代用户行为分析平台!

写在前面

在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种。当然,这篇博客还会随时更新(不会另起一篇,为了方便大家索引),请大家如果有需要收藏到书签中。 如果大家还知道哪些常用的命令,也可以在评论中回复我。我可以添加进来,方便更多地人更方便的检索。也希望大家可以转载。

如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便。python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install *

安装;同理,为了方便索引,R中也以::表示了函数以及函数所在包的名字,如果不含::表示为R的默认包中就有,如含::,请使用 install.packages("*")

安装。

连接器与io

数据库 类别 Python R MySQL mysql-connector-python(官方) RMySQL

Oracle cx_Oracle ROracle

Redis redis rredis

MongoDB pymongo RMongo, rmongodb

neo4j py2neo RNeo4j

Cassandra cassandra-driver RJDBC

ODBC pyodbc RODBC

JDBC 未知[Jython Only] RJDBC

IO类 类别 Python R excel xlsxWriter, pandas.(from/to)_excel, openpyxl openxlsx::read.xlsx(2), xlsx::read.xlsx(2)

csv csv.writer read.csv(2), read.table

json json jsonlite

图片 PIL jpeg, png, tiff, bmp

统计类

描述性统计 类别 Python R 描述性统计汇总 scipy.stats.descirbe summary

均值 scipy.stats.gmean(几何平均数), scipy.stats.hmean(调和平均数), numpy.mean, numpy.nanmean, pandas.Series.mean mean

中位数 numpy.median, numpy.nanmediam, pandas.Series.median median

众数 scipy.stats.mode, pandas.Series.mode 未知

分位数 numpy.percentile, numpy.nanpercentile, pandas.Series.quantile quantile

经验累积函数(ECDF) statsmodels.tools.ECDF ecdf

标准差 scipy.stats.std, scipy.stats.nanstd, numpy.std, pandas.Series.std sd

方差 numpy.var, pandas.Series.var var

变异系数 scipy.stats.variation 未知

协方差 numpy.cov, pandas.Series.cov cov

(Pearson)相关系数 scipy.stats.pearsonr, numpy.corrcoef, pandas.Series.corr cor

峰度 scipy.stats.kurtosis, pandas.Series.kurt e1071::kurtosis

偏度 scipy.stats.skew, pandas.Series.skew e1071::skewness

直方图 numpy.histogram, numpy.histogram2d, numpy.histogramdd 未知

回归(包括统计和机器学习) 类别 Python R 普通最小二乘法回归(ols) statsmodels.ols, sklearn.linear_model.LinearRegression lm,

广义线性回归(gls) statsmodels.gls nlme::gls, MASS::gls

分位数回归(Quantile Regress) statsmodels.QuantReg quantreg::rq

岭回归 sklearn.linear_model.Ridge MASS::lm.ridge, ridge::linearRidge

LASSO sklearn.linear_model.Lasso lars::lars

最小角回归 sklearn.linear_modle.LassoLars lars::lars

稳健回归 statsmodels.RLM MASS::rlm

假设检验 类别 Python R t检验 statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_rel t.test

ks检验(检验分布) scipy.stats.kstest, scipy.stats.kstest_2samp ks.test

wilcoxon(非参检验,差异检验) scipy.stats.wilcoxon, scipy.stats.mannwhitneyu wilcox.test

Shapiro-Wilk正态性检验 scipy.stats.shapiro shapiro.test

Pearson相关系数检验 scipy.stats.pearsonr cor.test

时间序列 类别 Python R AR statsmodels.ar_model.AR ar

ARIMA statsmodels.arima_model.arima arima

VAR statsmodels.var_model.var 未知

生存分析 类别 Python R PH回归 statsmodels.formula.api.phreg 未知

机器学习类

回归

参见统计类

分类器

LDA、QDA 类别 Python R LDA sklearn.discriminant_analysis.LinearDiscriminantAnalysis MASS::lda

QDA sklearn.discriminant_analysis.QuadraticDiscriminantAnalysis MASS::qda

SVM(支持向量机) 类别 Python R 支持向量分类器(SVC) sklearn.svm.SVC e1071::svm

非支持向量分类器(nonSVC) sklearn.svm.NuSVC 未知

线性支持向量分类器(Lenear SVC) sklearn.svm.LinearSVC 未知

基于临近 类别 Python R k-临近分类器 sklearn.neighbors.KNeighborsClassifier 未知

半径临近分类器 sklearn.neighbors.RadiusNeighborsClassifier 未知

临近重心分类器(Nearest Centroid Classifier) sklearn.neighbors.NearestCentroid 未知

贝叶斯 类别 Python R 朴素贝叶斯 sklearn.naive_bayes.GaussianNB e1071::naiveBayes

多维贝叶斯(Multinomial Naive Bayes) sklearn.naive_bayes.MultinomialNB 未知

伯努利贝叶斯(Bernoulli Naive Bayes) sklearn.naive_bayes.BernoulliNB 未知

决策树 类别 Python R 决策树分类器 sklearn.tree.DecisionTreeClassifier tree::tree, party::ctree

决策树回归器 sklearn.tree.DecisionTreeRegressor tree::tree, party::tree

随机森林分类器 sklearn.ensemble.RandomForestClassifier randomForest::randomForest, party::cforest

随机森林回归器 sklearn.ensemble.RandomForestRegressor randomForest::randomForest, party::cforest

聚类 类别 Python R kmeans scipy.cluster.kmeans.kmeans kmeans::kmeans

分层聚类 scipy.cluster.hierarchy.fcluster (stats::)hclust

包聚类(Bagged Cluster) 未知 e1071::bclust

DBSCAN sklearn.cluster.DBSCAN dbscan::dbsan

Birch sklearn.cluster.Birch 未知

K-Medoids聚类 pyclust.KMedoids(可靠性未知) cluster.pam

关联规则 类别 Python R apriori算法 apriori(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) arules::apriori

FP-Growth算法 fp-growth(可靠性未知,不支持py3), PyFIM(可靠性未知,不可用pip安装) 未知

神经网络 类别 Python R 神经网络 neurolab.net, keras.* nnet::nnet, nueralnet::nueralnet

深度学习 keras.* 不可靠包居多以及未知 当然,theano模块值得一提,但本质theano包的设计并非在神经网络,所以不归于此类。

文本、NLP

基本操作 类别 Python R tokenize nltk.tokenize(英), jieba.tokenize(中) tau::tokenize

stem nltk.stem RTextTools::wordStem, SnowballC::wordStem

stopwords stop_words.get_stop_words tm::stopwords, qdap::stopwords

中文分词 jieba.cut, smallseg, Yaha, finalseg, genius jiebaR

TFIDF gensim.models.TfidfModel 未知

主题模型 类别 Python R LDA lda.LDA, gensim.models.ldamodel.LdaModel topicmodels::LDA

LSI gensim.models.lsiModel.LsiModel 未知

RP gensim.models.rpmodel.RpModel 未知

HDP gensim.models.hdpmodel.HdpModel 未知 值得留意的是python的新第三方模块,spaCy

与其他分析/可视化/挖掘/报表工具的交互 类别 Python R weka python-weka-wrapper RWeka

Tableau tableausdk Rserve(实际是R的服务包) 来源:segmentfault  作者:三次方根

链接:https://segmentfault.com/a/1190000005041649

数极客是新一代用户行为分析与数据智能平台,支持用户数据分析、运营数据分析、留存分析、路径分析、漏斗分析、用户画像、SEM数据分析等16种分析模型的数据分析产品,支持网站统计、网站分析、APP统计、APP分析等分析工具,以及会员营销系统和A/B测试工具等数据智能应用,支持SAAS和私有化部署,提升用户留存和转化率,实现数据驱动增长!

数极客是新一代用户行为分析与数据智能平台,支持用户数据分析、运营数据分析、留存分析、路径分析、漏斗分析、用户画像、SEM数据分析等16种分析模型的数据分析产品,支持网站统计、网站分析、APP统计、APP分析等分析工具,以及会员营销系统和A/B测试工具等数据智能应用,支持SAAS和私有化部署,提升用户留存和转化率,实现数据驱动增长!

【独家稿件及免责声明】本站原创文章如需转载请联系我们,未经书面许可禁止转载,本站转载文章著作权归原作者所有,如有侵权请联系:。

python r语言 数据分析统计服_【分享】Python和R语言的数据分析/挖掘工具互查相关推荐

  1. python篮球比赛预测数据分析统计服_用python基于2015-2016年的NBA常规赛及季后赛的统计数据分析...

    nba球队的Elo score计算 特征向量 逻辑回归 python2.7 Xfce终端 python2.7 Xfce终端 本次课程我们将按照下面的流程实现NBA比赛数据分析的任务: 获取比赛统计数据 ...

  2. python爬虫餐饮行业数据分析统计服_用Python分析统计必胜客餐厅

    在之前的 一篇文章100行代码爬取全国所有必胜客餐厅 信息,我讲到如何爬取必胜客官网中全国各大城市餐厅的信息.虽然餐厅数据信息被抓取下来,但是数据一直在硬盘中"躺尸".不曾记得,自 ...

  3. 如何用python做数据分析统计服_使用python实现数据分析

    1:文件内容格式为json的数据如何解析import json,os,sys current_dir=os.path.abspath(".") filename=[file for ...

  4. 基于python的气象数据分析统计服_基于Python的风向风速数据分析的设计与实现

    基于 Python 的风向风速数据分析的设计与实现 李文倩 ; 刘婕 [期刊名称] < <信息通信> > [年 ( 卷 ), 期] 2019(000)009 [摘要] Pyth ...

  5. 如何利用python进行数据分析统计服_利用Python进行数据分析

    1.排序和排名 根据条件对数据集排序(sorting)也是一种重要的内置运算.要对行或列索引进行排序(按字典顺序),可使用sort_index方法,它将返回一个已排序的新对象: In [80]: ob ...

  6. 转行学python 数据分析统计服_转行数据分析,你准备好了吗?

    前言 笔者从去年5月份下定决心离开汽车制造行业,6月份开始学习Udacity的DAND(Data Analysis Nano Degree, 数据分析纳米学位)课程至今.历经10个月挑灯苦读和1个月四 ...

  7. python软件设计数据分析统计服_Python 和 R 数据分析/挖掘工具互查

    写在前面 在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种.当然,这篇博客还会随时更新(不会另起一篇,为了方便大家索引),请大家如果有需要收藏到书签中. 如果大家还 ...

  8. python上海房价数据分析统计服_(干货)数据分析案例--以上海二手房为例

    如果你手上有一批数据,你可能应用统计学.挖掘算法.可视化方法等技术玩转你的数据,但你没有数据的时候,我该怎么玩呢?接下来就带着大家玩玩没有数据情况下的数据分析. 本文从如下几个目录详细讲解数据分析的流 ...

  9. python与金融数据分析统计服_作为一名量化金融分析师,你知道在量化金融中有多少个Python数据分析库嘛?...

    作为一名量化金融分析师,好用的工具非Python莫属了.为什么呢?Python也算得上是比较常用的编程语言,其效率和代码可读性是不容小觑的.作为一个科学数据的编程语言,Python介于R和java之间 ...

最新文章

  1. 金山发布《2006年度信息安全报告》
  2. AI高分通过美国8年级科学考试:常识题推理题都能行,不服可同台对战
  3. python爬虫软件-一些Python爬虫工具
  4. Bochs调试Linux内核6 - 启动过程调试 - 跳到bootsect引导程序执行
  5. JavaScript学习笔记(2)
  6. 计时器Chronometer和时钟(AnalogClock和DigitalClock)
  7. java bean传索引_Java如何设置bean的索引属性值?
  8. mysql导入sql脚本命令
  9. jquery.validate+jquery.form提交的三种方式
  10. php获取图片所有颜色代码,php 获取一张图片所有点的颜色值
  11. Java之数组(上)
  12. 奇怪的问题:为什么手机过一年就变得很慢?
  13. android 音视频硬编解码
  14. DNS服务器分类与bind-chroot服务配置
  15. 第二章 Silicon labs EFR32 MG21 验证蓝牙的私有Characteristic的读/写
  16. 什么是基因测序,为什么需要云计算
  17. 生产质量优化方案,助力企业搞好“质量”与“成本”关系!
  18. 基于OHCI的USB主机 —— UFI读状态代码
  19. 数字图像处理 读书笔记四 电磁波谱
  20. #Matlab#函数 计算路程和速度

热门文章

  1. 假设某袋子中装有3个红球,5个白球,6个黑球,现从该袋子中任意取出8个球,下面程序的功能是输出这8个球中至少有一个白球的所有方案。找出其中错误并改正之。
  2. 计算机一级windows多少分,计算机一本考研多少分
  3. 【兼容】微信内置浏览器兼容
  4. 【GTest】CMAKE+GTEST
  5. 利用docker搭建php7cms靶机
  6. 全网最细节的jmeter接口测试教程以及接口测试流程详解
  7. 常见文件上传漏洞利用
  8. TCP和UDP协议详解
  9. C# SHA1加密算法,并转为大写
  10. max211/max213 max232 max3232