数据科学家是21世纪的热门工作。工欲善其事必先利其器。数据分析工具何其多,究竟用哪样才合适?Lewis Chou在Medium上分析了3类6种工具的特点和适用场景,看完这篇文章,相信你就可以知道了。
说到数据分析工具,我们总是有疑问。那么多的数据分析工具,它们之间究竟有什么区别?哪个更好?我应该学习哪一个?
尽管这是一个老生常谈的话题,但它确实很重要,我一直在努力寻找这个终极问题的答案。如果你到网上搜索这个领域的相关信息的话,很难找到公正的看法。因为特定数据分析工具的评估者可能会从不同的角度出发,并带有一些个人感受。
今天,让我们撇开这些个人感受。我会尝试跟大家一起客观地谈谈我对市场上数据分析工具的个人看法,以供参考。
我总共选择了三类共6种工具。接下来我会一一进行介绍。
1. Excel工具
Excel具备多种强大功能,比如创建表单,数据透视表,VBA等,Excel的系统如此庞大,以至于没有任何一项分析工具可以超越它,确保了大家可以根据自己的需求分析数据。
但是,有些人可能以为他们非常精通计算机编程语言,然后鄙视用Excel作为工具,因为Excel无法处理大数据。但是请考虑一下,我们日常生活中使用的数据是不是超出了大数据的限制?在我看来,Excel就是一款全能型的播放器。它最适合小型数据,而且通过插件还可以处理数百万的数据。
综上所述,基于Excel的强大功能及其用户规模,我认为它是必不可少的工具。如果你想学习数据分析,Excel绝对是首选。
2. BI工具
商业智能是为数据分析而生的,它诞生的起点很高。其目的是缩短从商业数据到商业决策的时间,并利用数据来影响决策。
Excel的产品目标不是这样。Excel可以做很多事情。你可以使用Excel画课程表,制作问卷或用作计算器,甚至可以用来画画。如果你会VBA,还可以制作小型游戏。不过这些并不是真正的数据分析功能。
但是BI工具就是专门用于数据分析的。
以常见的BI工具(例如Power BI,FineReport 和Tableau)为例。你会发现它们都是按照数据分析流程设计的。先是数据处理,数据清洗,然后是数据建模,最后是数据可视化,用图表来识别问题并影响决策。
这些是数据分析的唯一方法,并且在这个过程中存在一些员工的痛点。
比方说,可以用BI工具来简化重复的低附加值的数据清洗工作。
如果数据量很大,传统工具Excel是无法完成数据透视表的。
如果我们用Excel来进行图形显示,会需要花费大量时间来编辑图表,包括颜色和字体设置等琐事。
这些痛点是BI工具可以为我们带来变化和价值的地方。
现在,让我们比较一下市场上的三种流行的BI工具:Power BI,FineReport 和Tableau。
1 )Tableau
Tableau的核心本质实际上是Excel的数据透视表和数据透视图。可以说Tableau敏锐地意识到了Excel的这一功能。它进入BI市场较早,并延续了这一核心价值。
从发展历史和当前市场反馈的角度来看,Tableau的可视化效果更好。我不认为这是因为它的图表有多酷,但是它的设计、颜色和用户界面给我们一种简单而新鲜的感觉。
确实,这就像Tableau自己的宣传一样,他们投入了大量的学术精力来研究大家喜欢哪种图表,以及如何为用户提供操作和视觉上的终极体验。
此外,Tableau还增加了数据清洗功能和更智能的分析功能。这也是Tableau可以预期的产品开发优势。
2)Power BI
Power BI的优势在于其业务模型和数据分析功能。
Power BI以前是Excel的插件,但是发展并不理想。因此它摆脱了Excel,发展成BI工具。作为后来者,Power BI每个月都有迭代更新,并且跟进的速度很快。
Power BI当前具有三种授权方式:Power BI Free、Power BI Pro以及Power BI Premium。与Tableau一样,免费版的功能也不完整。但是给个人用几乎已经足够。而且Power BI的数据分析功能强大。它的PowerPivot 和DAX语言让我能够以类似在Excel中编写公式的方式来进行复杂的高级分析。
3)FineReport应用
FineReport之所以独特在于它的自助服务数据分析非常适合企业用户。只需简单的拖放操作,你就可以使用FineReport 设计各种样式的报告,并轻松构建数据决策分析系统。
FineReport 可以直接连接到各种数据库,并且方便快捷地自定义各种样式,从而制作周报、月报和季报、年报。其格式类似于Excel的界面。功能包括报告创建,报告权限分配,报告管理,数据输入等。
此外,FineReport 的可视化功能也非常突出,它提供了多种仪表板模板和许多自行开发的可视插件库。
在价格方面,FineReport 的个人版本是完全免费的,并且所有功能都是开放的。
3. R&Python语言
R和Python是我要讨论的第三类工具。尽管像Excel和BI工具这样的软件已尽最大努力考虑到数据分析的大多数应用场景,但其实它们基本上都是定制化的。如果软件没有设计某项功能或替某功能开发按钮,那很可能你就没法用它们来完成工作。
在这一点上面,编程语言是不一样的。它非常强大和灵活。你可以编写代码来执行所需的任何操作。比方说,R和Python是数据科学家必不可少的工具。从专业的角度来看,它们绝对比Excel和BI工具强大。
那么,R和Python可以实现哪些Excel和BI工具难以实现的应用场景呢?
1)专业统计分析
就R语言而言,它最擅长的是统计分析,例如正态分布,使用算法对聚类进行分类和回归分析等。这种分析就像用数据作实验一样。它可以帮助我们回答以下问题。
比方说,数据的分布是正态分布、三角分布还是其他类型的分布?离散情况如何?它是否在我们想要达到的统计可控范围内?不同参数对结果的影响的大小是多少?还有假设仿真分析。如果某个参数发生变化,会带来多大影响?
2)独立预测分析
比方说,我们打算预测消费者的行为。他会在我们的商店停留多长时间?他会花多少钱?我们可以找出他的个人信用情况,并根据他的在线消费记录确定贷款金额。或者,我们可以根据他在网页上的浏览历史推送不同的物品。这也涉及当前流行的机器学习和人工智能概念。
结论
以上比较说明了几种软件之间的区别。我想概括的要点的是,存在就是合理。Excel,BI工具或编程语言存在部分功能重叠,但它们也是互补的工具。每个应用的价值取决于要开发的应用的类型和当时的情况。
在选择数据分析工具之前,你必须首先了解自己的工作:你会不会用到我刚刚提到的应用场景。或考虑一下你的职业方向:你是面向数据科学还是业务分析的。
【责任编辑:华轩 TEL:(010)68476606】