众所周知,金融的背后是海量的数据与有时间顺序的信息,而信息技术处理的是数据与信息,因此金融与信息技术有着天然的联系。
那么,金融数据分析,具体是什么样的呢?首先我们需要了解数据分析的基本流程。
通过上面这张图,我们会发现,当我们获取到数据源(即原始数据)后,并不是直接便进入数据分析阶段,而是需要依次进行“数据探索-数据预处理”两阶段。
所谓的数据探索,就是要解决数据有哪些特点、遵循哪些规则、集中在那个区间等问题,帮助数据分析师了解数据的情况,为后续的分析做充足的准备。
这张看似普通的再普通不过的界面,将A股市场每日能产生一百万条左右的原始数据(按分钟线计算),进行了可视化处理,让我们在进行股票分析时,并不需要盯着原始的一条条数据去进行比较分析,而是可以直观地从K线图,以及常规的统计数据中,了解到市场的走势,帮助我们掌握股票交易的趋势及方向。而这,正是数据探索所能为我们带来的帮助。
除了在数据探索的过程中,我们需要借助可视化的工具,在海量数据分析的时候,我们分析后的结果也有可能是复杂的,这个时候,我们也会借助到可视化工具去直观地表现我们分析后的结果,如用热力图反映两两股票间的相关性。
对于时间序列数据的处理,可以说是金融数据分析中的特色项目。由于时间序列的数据很多特性都是围绕着时间展开,因此涉及到大量对时间处理的操作,如对周期数据的探索、对阶梯性数据的探索、对数据的重采样(将日数据转化为月等)、对特定时期的采样等。