@数据可视化概述
目标: 系统的梳理在进行数据分析的时候,如何进行数据可视化。具体操作的时候以python的seaborn包为主。
在进行数据分析的时候,经常需要进行数据可视化。俗话说一图胜千言,如何将从数据中发现的结论以一种简单易懂、形象化的方式展现出来,是很考验数据分析人员的能力的。
1 方法部分#
数据可视化,首先是要有数据,即我们的研究对象,而可视化的功能就是将数据中蕴含的关系或规律以图形的形式展示出来。 因此在进行数据可视化之前,一定要搞清楚的两件事:
- 数据类型, 即我们要研究的实体是什么类型的
- 数据要传递的信息以及要展示的关系
(1) 数据类型
不同的数据类型适合的图形表现是不同的,随着现在数据分析应用的越来越广泛,数据类型随着其应用的场景不同也是越来越多。统计学传统意义上的数据类型主要是:
- 分类型变量:比如性别
- 连续型变量:比如年龄
除了传统的这种之外,还有比如轨迹数据,视频数据等其他的结构化的、非结构化的数据
(2) 数据之间的关系
| 关系 | 示例图形 |
|---|---|
| 比较大小,包括不同个体或者分组之间 | 常用的比如将面积、尺寸进行可视化。条形图、面积图 |
| 数据的集中程度 | 一般是热力图,比如地图上交通的拥挤程度 |
| 地理信息 | 地理位置数据 |
https://zhuanlan.zhihu.com/p/25632363
2 工具部分#
在实际操作中可能会涉及的使用工具有如下几种
Excel#
excel作为微软office的办公软件,适合一些相对简单的数据分析,其本身包含的绘图功能基本上可以覆盖一些常用的需求。比如一些基本的绘图、数据分析功能。
除此之外,excel还可以自己增加一些插件,比如功能强大的 power Map https://support.office.com/zh-cn/article/power-map-%E5%85%A5%E9%97%A8-88a28df6-8258-40aa-b5cc-577873fb0f4a
适合展示一些需要进行地图可视化的数据,比如分省份的销售额,
其还可以制作随时间变化的动态小视频,比如人的轨迹变化等等。
BI -Tableau/power BI/FineBI#
比如Tableau, power BI, FineBI等常见的一些可视化软件
python & R的package#
R的ggplot应该是多数统计学家们使用的绘图工具,python中常用的基础绘图pacakge是matplotlib,以及在其基础上衍生出来的比较炫酷的 seaborn,其操作命令比较简单。有点类似R中的ggplot.
python版本的echarts包:http://pyecharts.org/#/zh-cn/intro
python-matplotlib
python-seaborn
R-可视化
echarts#
百度的echarts
pyecharts https://pyecharts.org/#/zh-cn/intro
pyecharts https://github.com/pyecharts/pyecharts
dash#
使用教程: https://dash.plotly.com/installation
Python Dash Gallery: https://dash-gallery.plotly.host/Portal/
其对应的案例 code在 https://github.com/plotly/dash-sample-apps/tree/master/apps/
github上找的一些案例:
https://github.com/christianwbsn/ml-pipelining
bokeh#
superset#
其他#
蚂蚁金服 https://antv.alipay.com/zh-cn/vis/chart/color-map.html
汇总对比
| 分类 | ||
|---|---|---|
| 以可视化为主 | powerBI,Tableau | |
| FineBI | ||
| 侧重分析 | Rshiny | |
| dash, bokeh |
参考资料#
https://blog.csdn.net/suzyu12345/article/details/69029106
https://pbpython.com/wine_visualization.html
https://www.youtube.com/watch?v=4L568emKOvs
https://medium.com/@plotlygraphs/introducing-dash-5ecf7191b503
dash: https://www.jianshu.com/p/0aaafaa33bb1
bokeh
pyxley