加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【交易技术前沿】以史为鉴”行情大数据分析探索 \/ 尹卓

发布时间:2020-12-14 01:27:28 所属栏目:大数据 来源:网络整理
导读:? 本文选自 《交易技术前沿》 第十四期 (2014年3月)。 尹卓 上海证券交易所.通信公司.200120 E-mail:zyin@stocom.net 摘要: 本文简述了目前利用行情分析股票交易的现状,结合目前大数据的概念,提出了利用大数据行情分析股票买卖的方法,对输入、模型与输
?

本文选自《交易技术前沿》第十四期 (2014年3月)。

尹卓
上海证券交易所.通信公司.200120
E-mail:zyin@stocom.net

摘要:本文简述了目前利用行情分析股票交易的现状,结合目前大数据的概念,提出了利用大数据行情分析股票买卖的方法,对输入、模型与输出进行了探讨。对其中的关键指标进行了界定,最后对应用前景进行了展望。
关键词:股票交易;大数据;行情分析

1 行情分析现状

???????“该操作哪只股票?”
???????“啥时候该买,啥时候该卖?”
???????这是证券行业中永远难以准确回答的问题,为了能够寻求出相对准确的答案,诞生了各种各样的分析方法和衍生工具,也产生了各种各样的流派。在众多股市分析理论中,有两大主要流派,即基本分析与技术分析。

  • 基本分析

???????基本分析,是指分析人员根据经济学、金融学、财务管理学及投资学等基本原理,对决定股票价格的基本要素,如宏观环境、经济政策、行业发展状况、上市公司的业绩、前景等进行分析,评估股票的投资价值,判断股票的合理价位,提出相应的投资建议的一种分析方法。
???????基本分析希望回答的是“该操作哪只股票?”的问题,是对影响股票市场价格走势的经济因素的研究。它具有以下几个特点:

  • 分析价格变动的长期趋势
    投资者利用基本分析法主要分析的是股票的长期价格走势,即我们常说的大势,并以此为依据长期持有股票,不注意短线价格的频繁波动;
  • 研究价格变动的根本原因
    相对技术分析法而言,基本分析法更关注股票市场价格变动的根本原因,它通过分析一些能在实质上能影响股票市场价格的因素来判断股票价格的走势;
  • 对象是宏观性的因素
    基本分析法分析的是一些较为宏观性的因素,比如国民生产总值、经济周期、国家政策取向、通货膨胀、利率等。
  • 技术分析

???????技术分析,是指仅从股票的市场行为来分析股票价格未来变化趋势的方法,即将股票价格每日、历史涨跌的变化情况,通过特定的分析方法和分析指标,以判断股票价格的变化趋势,从而决定买卖的最佳时机。
???????技术分析希望回答的是“啥时候该买,啥时候该卖?”的问题。
???????目前的行情分析方法中,不管是基本分析还是技术分析,其注重的是对样本股个体的情况分析,以时间作为基本的维度,通过研究其历史情况,或者与之相关的经济信息,试图实现对未来走势的预测。因此用下面的一段话概括说明:以样本股自身为核心,通过各种不同的分析和手段,力求寻找到相对确定的“因果关系”,从而实现对个股行情的走势预测。

2 大数据概念

???????大数据是近年来被炒得非常火热的一个词,什么是大数据?
???????百度百科中,大数据是这样的定义:“指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。”
???????在维克托 ?迈尔-舍恩伯格及肯尼斯?库克耶编写的《大数据时代》中,大数据是这样定义:“大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法”。
???????对于大数据的要素,由许多不同的分类。我更倾向认同《大数据时代》中的要素分类,即全体、混杂和相关关系。

  • 全体,即研究目标数据的全部;
    数据的绝对体量大小并不重要,重要的是研究目标的数据全部在考虑范围之内。
  • 混杂,即允许数据的“不干净”;
    不用特定的技术手段对原始数据进行过滤、抽样,尽可能的保存数据的原始状态,允许数据的不干净,为可能的各种分析提供素材。同时由于分析的结果是概率性数据,因此“不干净”数据对期望结果的影响随着关注点不同而不同。
  • 相关关系,即展现数据自身因果关系转为展现数据间的相关关系;
    因为是数据全体,因为数据混杂,因此大数据分析更容易展现的是数据之间的相互关系,也就是能方便的知道问题是什么的概率,而不能知道为什么是这样。
3 行情大数据分析

3.1 概述

???????行情大数据分析,是应用大数据理论,对于针对样本股的任何分析模型,提供横向的历史统计,得出该模型发展趋势的概率统计数据。
???????其核心为以下三点:

  • 抛弃“因果关系”;
    不研究样本股股为什么会涨或者会跌。因为抛开所有相关因素来看,涨/跌是一个随机发生的事件,完全取决于众多投资者个体投资意愿的集中体现。更何况现有分析方法中,也已经对“因果关系”研究的比较透彻,因此没必要再次发明轮子。
  • 寻求“分析模型”;
    俗语说“历史总是惊人的相似”,或者说“历史终会重演,只是主角可能不同”,这是一个人们无法证伪的命题,因此也将成为行情大数据分析法的基本理论依据。我们力图寻找、假设、猜想一个个分析模型,在所有的历史数据中,寻找相似之处,从而得到对未来趋势的预测。
  • 提供统计概率结果
    行情大数据分析法的结果,不是规律而是设想结果发生的统计概率。简单说就是行情大数据分析法的结论不能告诉你样本股下一秒钟会涨还是会跌,但是可以告诉你,根据样本股指标的某一个模型,历史上类似情况中,样本股行情未来上涨或者下跌的概率是多少。借用、修改古人的一句话,行情大数据分析就是“以史为鉴,可以知涨跌”。

3.2 术语

???????为了能更清晰的表达行情大数据分析的方法,先就一些本文中需要用到的特定概念,借用一些数学术语做一些特定的定义。

术语 定义/说明 备注
特指分析模型中,需要考虑的样本股的数量 如果模型只需要对一个样本股进行分析,则其阶数为1
特指分析模型中,对样本股需要研究、取样的指标。元分为三类:
A类元:只与单点维度相关的指标;
B类元:与多点维度相关的指标;
C类元:不能直接数学表达的指标;
A类元:涨幅、振幅、股本总量、买卖盘等;
B类元:均线斜率等;
C类元:政策等(本文暂不考虑本类元)。
维度 特指分析模型中,元指标变化的相关性因素 本文讨论的维度目前只有时间,其实还包括板块等。

表1 术语表

???????用以上的术语,对行情分析的定义可以表述为:

  • 现有的行情分析,“对于样本股,在时间维度中的一阶多元规律性分析”其特点是关注样本股的特定指标,研究其在不同时间维度的展现,力求发现其内在规律。
  • 行情大数据分析,“对于样本股的假设多阶/多元模型,在时间维度中的历史相似性统计”其特点是根据样本股的现状,假设多阶/多元模型,在数据全体中寻求相似性,并给出统计结果。

3.3 核心——数据集

???????数据集是行情大数据分析的核心,数据集自身的完整性对行情大数据分析结果的有效性,有着至关重要的影响。
???????在大数据理论中,数据集的要求是全体,即研究目标的全部。对于行情大数据分析所要求的数据集,其全体性需要一个即绝对又相对的理解。

  • 绝对性

???????绝对体现在必须是行情的全体原始信息完整集合。原则上只要是行情数据生成的一刻,所有行情数据本身就必须纳入数据集中,如果有可能,与之相关的周边信息也应该纳入数据集中。
???????比如,交易所公布的每一条行情数据都应纳入数据集,同时相关的资讯、经济、民生等信息,有可能的话,也应纳入数据集中。

  • 相对性

???????相对体现在对于不同的模型,其对数据全体的要求可能仅仅是绝对全体中的部分集合。
???????比如,如果模型需要研究的是股价大于30的股票,则对于该模型所需要的数据集全体就只有股价曾经超过30的股票。
???????数据集的绝对性全体是根本要求,只有满足了绝对性要求,才能准确满足相对性全体要求。
???????最基础的行情大数据分析所需数据集的绝对全体,是所有交易日中,每交易日中所有股票的实时行情数 据总集合。

3.4 输入——模型

???????传统行情分析方法中,以时间为维度的数据是输入,模型(或者是规律)是分析结果的输出,通过对输出结果的再次套用,获得趋势预测的分析。而在行情大数据分析中,模型是被应用于数据集中进行分析的输入。
???????行情大数据分析中的模型,其本质是大数据理论的相关关系的体现。其表现为样本股现状中,假设阶数、维度和元存在一定的相关关系,并将这种关系用类数学的语言进行表述。
???????比如:
???????A股票现状:在9:50时,涨幅是8%,振幅是15%,1分钟均线斜率是1。
???????可能的模型为:
???????模型一:开盘20分钟,涨幅8%且振幅15%的股票;
???????模型二:开盘20分钟,1分钟均线斜率为1的股票;
???????……
???????模型n
???????模型有三个关键要素:

  • 现状
    现状是用元的数字,实现对样本股现状的精确描述。现状既包括本时间点的描述(A 类元),也包括部分时间段内已有现状的描述(B类元)。
    本例中,涨幅、振幅就是 A类元,1 分钟均线斜率就是B类元。
  • 抽象
    抽象就是抛弃样本股本身,仅仅使用指定元的数字形成约束条件。一般来说,一个模型至少需要2个A类元或者是1个B类元才具有统计意义。
  • 假设
    行情大数据分析不需要知道为什么,只是根据模型“傻傻的”统计,因此对模型本身来说,不需要具有真实的意义,因此模型可以假设。
    模型可以假设,是行情大数据分析中的精华所在。传统分析方法核心是寻找规律,因此尽可能的要求模型是可以重演的。但是行情大数据分析中,最注重的是统计概率的输出,因此模型可以是一次性的、无任何实际意义的。

3.5 处理——类比

???????类比,就是以假设的模型作为输入,在数据集的绝对全体中,进行模型符合性的筛选,从而确定与模型具有相似性的相对全体,为后续的处理做好数据准备。
???????以上一节中的例子,行情大数据分析的类比处理为:

  • 模型一,开盘20分钟,涨幅8%,振幅15%的股票在所有的交易日中,在开盘 20分钟时,所有股票的涨幅、振幅进行计算,找出符合涨幅=8%,振幅=15%的股票。
  • 模型二,开盘20分钟,1 分钟均线斜率为1的股票在所有的交易日中,在开盘20分钟时,对所有股票的1分钟均线斜率进行计算,找出符合斜率=1的股票。

???????类比是行情大数据分析中,运算量最为巨大的部分,其运算量与A类元的数量成线性增长关系,与 B类元的数量和模型的阶数成几何级数增长关系。

3.6 输出——统计概率

???????输出,是对符合模型的数据集相对全体,依据用户的要求,进行后续趋势的统计,提供给用户统计概率数据。
???????用户的需求不同,统计的运算量也不相同。用户的统计需求主要分为以下两类:

  • 简单统计

???????对符合条件的数据集,完成某个 A类元指标的统计。
???????比如,模型一股票第二天上涨的概率,或者模型二股票下午上涨的概率等。

  • 复合统计

???????对统计方法有特定需求的统计。本为统计一般可以化解为几个A类元的符合模型后的简单统计。
???????比如,模型一股票且第二天上涨的5%的概率,等同于建立模型三:符合模型一,且第二天涨幅>=5%的股票,然后进行模型三的占比统计。

4.关键点

???????行情大数据分析,是一个基于大数据理论而产生的新的行情分析方法,其能否获得市场以及投资者认可,取决于以下几个关键因素。

4.1实时性

???????行情数据本身具有极强的实效性,投资者需要行情分析的结果,是为了实施下一步的买卖操作,因此有对于行情分析来说,有两个时间指标至关重要:

  • 行情发布间隔——T1

???????目前沪深交易所均采用的是“切片式”行情发布,因此行情发布间隔就是两幅行情数据之间的时间间隔。目前上海证券交易所的T1为5秒,深圳证券交易所的T1为3秒。
???????大数据行情分析结果如果不能再一个行情发布间隔中生成,其统计概率就缺失了一幅或者数幅最新的“历史”数据,从而成为了“不完整”的统计结论。

  • 计划操作实施间隔——T0

???????特指投资者研究行情分析结论后,心里计划实施操作的时间间隔。如果投资者计划今天研究,明天实施操作,则T0为24小时。T0具有极大的不确定性,对于不同的服务对象,其对T0的要求会有极大的不同,比如一个普通的投资者,其 T0要求一般以天或者小时计算,即便是具有很强的操作欲望,可能也只需要分钟计算的T0就可以基本满足其的需求。而一个算法交易的需求方,则T0的需求可能是毫秒甚至是微秒级。
???????大数据行情分析结果的实时性,一定要满足T0的需求。首先,因为T0是使用者最直接的心里感受,如果超出心理承受范围,其直观有效性作用会大大降低;其次,如果满足了T0需求,即使超出了T1,使用者在心理上也会自动忽略数据的微小“不完整”性。
???????大数据行情分析结果的最佳状态,是生成时间小于min(T0,T1),也就是说能满足T0和T1中最小的那个时间间隔需求。

4.2计算量

样本股的元的类别,具有不同的计算复杂度:

  • A类元

???????每个A类元,只需要一次计算就可完成。比如涨幅、振幅、成交量等,其特点是计算量为常数;

  • B类元

???????每个 B类元,均需要维度多点数据参与运算才能完成。比如斜率、均线等,其特点是计算复杂度与维度、密度相关;
???????大数据行情分析的模型中,元的类别与模型本身的阶数不同,类比分析的计算量有巨大的差别。
???????以前文的例子,说明如下:

  • 前提:

???????假设上交所目前共有4000只股票,共有10000个交易日实时数据。

  • 样本股现状:

???????A股票9:50时,涨幅是8%,振幅是15%,1分钟均线斜率是1。

  • 模型一:

???????开盘20分钟,涨幅8%,振幅15%的股票
???????该模型是一阶二A类元模型,模型自身的计算量为2,类比分析计算量上限为: 2*4000*10000=80,000,000

  • 模型二:

???????开盘20分钟,1分钟均线斜率为 1的股票,上涨的概率是多少?
???????该模型是一阶一B类元模型,其自身计算量为20*5+2=102,类 比分析计算量上限为:102*4000*10000=1,020,000。

  • 实际计算量远小于理论计算,因为不是每交易日均有4000只股票,也不是每只股票每交易日均有变化。

???????如果两只股票联合计算,也就是2阶分析,则计算量还需乘以 ,因此计算量更加恐怖。

4.3正确性

???????行情大数据分析法,统计分析数据的正确性是前提,但是由于数据量的巨大,使得部分个体数据的参与,对于全体数据统计结果的影响甚微。因此行情大数据分析法的结果与传统行情分析法结果之间,对于数据正确性的精度要求,有着本质的差别,即行情大数据分析法可以容忍结果具有一定程度的模糊性。
???????但是需要注意的是,行情大数据分析承担着统计概率“量变到质变”的变换,即随着行情数据的不断增加,相同的输入模型,在不同时间的应用得到的统计概率可能会有差别的累加,当差别达到一定程度时,将直接体现在最终的统计数据上。
???????正如我们看到一条微博时,对于其被转发的次数:

  • 首先是关注的是被转发的量级,而不是细节的具体数字;如更关心的是5000次还是6000次,而不是关心是不是5104等具体次数。
  • 其次不同时间看到这条微博时,关注的是转发次数的量级变化。

???????由于行情大数据分析输出的统计概率数据,以百分比的形式输出。因此不同位置的数据重要性相去甚远,正如用户对 89%和90%的感觉完全不一样不同位置数据,对于用户来说的重要性相去甚远,可以简单粗暴的认为,万分位以后的数据几乎不用考虑。

4.4自定义

???????自定义模型,是行情大数据分析最大的特色。即使用者不需要具备任何的专业知识,只需要有想象力,就可以设置自己的模型,然后进行统计分析。
???????举例如下:
???????600600上涨1元时,600602会上涨吗?
???????传统的分析法无法回答,但是行情大数据分析法就可以回答!
???????“历史中,600600 上涨1元时,600602有78%的概率上涨”(纯属杜撰)

5.市场分析

5.1.现状

???????目前市场上以传统方式的行情分析方法、理论为主,尚未有基于类似的行情大数据分析方法,个人分析主要原因为以下几点:

  1. 缺乏数据集
    行情分析厂商虽然有日 K线的历史数据,但是绝大多数均丢弃了实时行情数据,因此行情数据资源出现巨大的“空洞”,难以实现行情的大数据分析法中的完整数据集。
  2. 已知规律、模型为核心
    目前行情分析厂商均以公开或者自行研究出的规律、模型为核心竞争力,相关技术系统以实现模型为根本,并以技术系统的使用权作为主要的营收手段。而行情大数据分析中,技术系统只是平台,关键的是模型在数据集中的类比统计才是核心,两者关注的重点不一样。
  3. 注重“因果关系”的重演
    传统分析方法中,样本股现状指标,力求套用已知的固化“因果关系”模型,从而实现对趋势的预测。行情大数据分析是通过对假设模型的统计结果,实现对趋势的预测,两者的分析方法有着天壤之别。
  4. 大数据理解与应用不足
    大数据理论目前还属于新兴事物,证券行业中如何应用尚缺乏理论依据,因此尚未有企业实践或者实验。

5.2 市场前景

???????根据不完全统计,目前证券市场中行情分析服务的相关产值巨大。目前会员公司、技术厂商、互联网厂商均提供传统行情分析方法系统或者服务,一套传统行情分析系统软件的单价在9000元左右,可以服务3000-5000左右的投资者,以目前 1亿股民,8千万活跃用户计算,单一技术系统的年产值约为10亿左右,同时投资者对行情分析方法 /系统虽然有使用方面的粘性,但是其并不特别排斥其他系统的使用,所以一个会员公司均会购买 2-3家行情分析厂商的技术系统,因此可以粗略估算,行情分析服务的产值规模至少在百亿以上。
???????行情大数据分析,是基于大数据、云计算、极简化设计理念提出的一种分析方法,它的实现是基于交易数据的历史,通过建设云计算平台,实现模型的自定义输入,通过后台超大数据量的计算,提供给用户简单到极致的概率数据输出。这个模式既符合目前云计算的热潮,又符合移动互联网的本质。
???????行情分析服务市场需求中,最根本的是是否能为用户提供较高的参考价值,用户的忠诚度首先建立在预测准确度的前提下。正是因为目前行情分析方法的同质性特点,才使得行情分析厂商在技术亲民化的方面追求极致,力求黏住客户。
???????因此行情大数据分析,可能存在巨大的市场价值,主要体现在:

  • 创造需求,切分蛋糕

???????行情大数据分析创造出用户模型验证的需求,面对用户对样本股趋势发展不确定性的彷徨,创造出历史趋势验证的需求。从而从行情分析服务的市场中切出一片蛋糕。

  • 结果导向,蛋糕做大

???????行情大数据分析的结果,如果在实时性上能够满足用户T0需求,且分析结果的统计概率,的确具备较高的可参考性,则可能重塑用户行情分析的习惯,使得模型类比验证成为标准行情分析的必经环节,从而使得蛋糕的份额变大。

  • 殊途同归,联合创新

???????行情传统分析与大数据分析,在提供给用户结果的层面,是一致的的,都是对价格走势的预期判断,因此虽然行情大数据分析是一种颠覆性的创新,但是它对传统分析方法并不排斥,可以将传统分析方法所发现的模型作为输入,为其模型的有效性提供验证的手段。因此两个可以相辅相成,联合创新,提升行情分析服务的性质。

  • 调整架构,降低成本

???????由于行情大数据分析所需要的计算量巨大,难以再通过传统分析方法的“单一技术系统实现,逐套卖钱”的商业模式营销,势必要通过云计算、集合数据中心的方式实现统一市场的服务,因此从架构上来说,可能将引领行情服务向技术集约化、云服务的模式挺近,从而减少现有行情服务中重复建设的可能性,实现降低整体行业运行成本。

5.3.娱乐性

???????“炫耀”是人的一种本能,“保护隐私”也是一种本能,行情大数据分析的模型可以被任意假设,因此能提供一种两种本能完美结合的娱乐性玩法。
???????投资者、用户可以不需要任何的专业背景,就提出一个假设的模型,经行情大数据分析,得到模型的统计概率,通过对统计概率数值的比拼,获得娱乐性的目的,满足人类“炫耀”的本能。
???????用户不需要产生实际操作,就通过模型实现假想模型的历史准确性统计,因此没有真实用户的隐私被泄露,同时如果假想模型的历史统计概率相当高,就能极大满足用户的虚荣心,使得用户出现炫耀的可能。
???????举一个简单的例子:
???????大家通过微信斗地主,如果获得了本周最高倍,都会有冲动在朋友圈炫耀一把。同理,如果您设计的无厘头模型,比如“600601上涨1元”得到的“600506”同时上涨的概率为 100%时,您是不是也有冲动在朋友圈炫耀一把呢?
???????行情大数据分析的娱乐性,如果通过适当的组织与推广,可以迅速实现大数据分析理念深入人心,从而快速走完传统分析方法的用户认同过程。
???????正如微信红包让微信一夜之间,实现了大量的用户认同了微信支付理念一样,行情大数据分析的娱乐性,也有可能让用户在认同理念的同时,认同全新的云服务模式,从而用户的重新塑造行情分析的使用习惯。

?
?
免责声明


本公众号内容仅供参考。对任何因直接或间接使用本公众号内容而造成的损失,包括但不限于因有关内容不准确、不完整而导致的损失,本公众号不承担任何法律责任。如有问题请反馈至tech_support@sse.com.cn。

-------------------------- 上海证券交易所为证券公司、基金管理公司等市场参与者及相关行业机构提供交易技术支持与服务,包括日常交易技术支持、技术交流研讨、市场调查反馈、证券信息技术知识库、测试等服务。

点击"阅读全文"了解详情

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读