· 返回首页 · 联系我们 · English
 
 
     
 
课外天地
 专业园地
 它山之石
 史海钩沉
 下载园地
 
20世纪统计学的回顾与展望 2003-1-1

20世纪统计学的回顾与展望

张 南

  关键词:统计学;信息科学;金融工程;极值统计学

  一、20世纪统计学的发展

  按照统计学科体系的基本原理与应用的不同,统计学可分为理论统计学与应用统计学两大类。理论统计学指的是统计学的数学性原理,也就是数理统计学,具有通用方法论的理学性质。应用统计学指的是基于理论统计学的基本原理,应用于各个领域的数据处理方法,统计解析方法及统计推测方法。其特征有二:一是其数理性原理为各研究领域通用;二是具有对应于某特定领域的特有的分析方法。比如经济统计学中的指数分析法,医药统计学中的生存解析法等。

  理论统计学的基础理论在20世纪的20-30年代已经基本完成。其中由英国统计学家费舍(R.A.Fisher,1890-1962)所确立的统计推测理论,样本分布理论,试验计划法及F分布理论对奠定20世纪统计学的基础理论作出了很大的贡献。

  40-50年代对统计学来说是分布理论的时代。以概率分布的形式成功地将各种随机现象的数量特征、性质加以归纳、描述。

  60年代是分布偏差有效(Robust)推定理论盛行的时代。即采用古典的方法论成功地解决了概率分布的假定与实际数据分布偏离的问题。但是,其研究所假定的概率模型侧重于数学形式的完整可能,而对数据所遵从的概率分布的拟合准确性的考虑尚有欠缺。在以后的系统控制论中,分布偏差有效理论起到了很大的作用。

  70年代可以认为是规范化线性模型的时代。自德国统计学家高斯(C.F.Gauss,1777一1855)创立误差与正态分布理论及最小二乘法以来,在70年代,从正态分布的假定,发展到将共变量的条件分布线性模型化。其方法论的核心是剔除正态性的假定,实现了包括从二项分布到咖码分布的规范线性化。此理论与概率随机过程理论相结合,促成了对医学数据可进行深入考察的生存解析法的产生。从分布的假定与数据的偏差这种关系来看,规范化线性模型理论与60年代的分布偏差有效理论是从不同的角度对推定统计量进行的研究。

  80年代的前期侧重于渐进理论的研究,高次渐进性理论运用高等数学公式推导出了复杂的展开式,对高次渐进的有效性与充分性进行了探讨。以往很多都是固定模型的次元,在样本容量极限的条件下研究其确定的变动,结果失去了许多有用的信息。之后作为改进,在决定理论的结构中用有限的样本进行更为严密的考察。但由于理论设计忽视了分布模型与数据的吻合,出现了即使模型与实际的拟合受到影响也要一味追求模型近似的精确度等问题,使得为此所进行的较严密的计算并没有多大的实际意义。由此可见,如果数据的分布是在模型之外,单纯依靠数学性的推导是不能指望这种理论会有何应用价值的。在这一方面理论统计学有它的局限性,数理统计学所具有的本质弱点也正在于此。80年代后期统计学对计算机的利用引人瞩目,如数据模拟(Bootstrap),回归变量的推定等非参数估计的方法应运而生。与此同期可称为统计学一大成果的,还有通过运用在70年代开发出来的标准信息量,交差检验法,缩小法等,使得平滑化法的拟合有了很大的改进。

  90年代对"复杂性"研究较为瞩目。这对90年代的一些技术性方法的研究起到了理论先导的作用。其中,特别是对马尔可夫链蒙特卡尔理论(Markov chain Monte Carlo:MCMC)的研究对建立可实际应用的统计模型开辟了广阔的前景。90年代以来,很多应用问题都存在着分析对象比较复杂与正确识别模型结构的困难。现在根据MCMC理论,通过使用专用统计软件进行MCMC模拟,可解决许多复杂性问题。此外,得益于MCMC理论的运用,使得贝叶斯(Bayes)统计得到了再度复兴,以往被认为不可能实施计算的统计方法变得是很轻而易举了。

  另外,按照统计数据整理分析的不同阶段,统计学还区分为记述统计学(descriptive statistics)与推测统计学(inferential statistics)。从统计数据的收集整理这一统计记述过程来看,20世纪中记述统计学的最大功绩首推1953年创立的国际通用的国民收入帐户(A System of National Accounts and Supporting Tables,国民帐户体系及辅助表),及1968年的以国民收入帐户为主,包括了投入产出表,资金循环表,国民资产负债表,国际收支表的新SNA体系,以及1993年的更新概念,扩大兼容性,完善记述功能的改订SNA体系。作为统计学源流的17世纪德国国势学及英国政治算术的统计学思想在20世纪得到了极大的发展。

  在20世纪,如同经济统计学中产生了罗伦斯(Lorenz)曲线的计测方法,经济的时间序列分析方法,经济预测方法一样,应用于各个领域的应用统计学也有了长足的发展。但是,自90年代以来,随着信息科学的发展,统计学的应用环境发生了很大的变化,统计学受到了信息科学发展的影响,出现了许多依靠以往的统计学的理论所不能解决的新问题。比如,与遗传基因,环境,气象,金融等相关联的庞大数据的处理(将庞大数据压缩收集后取出有用信息的方法);信息社会中有关个人隐私的数据收集与个人隐私保护;计算机互连网的使用使得数据取得方式的改变;统计软件的普及所带来的对数据含意的不求甚解,导致脱离现实的统计模型的滥用等。

  值得注意的是这些新出现的问题都是统计学外部环境发生了变化所带来的问题。这些问题并不能通过以往的统计学的理论框架解决,并不能通过单纯地设定数学假定,修改概率模型就可以得到数学性的解决。因此,20世纪以来基本成型的统计学的理论框架受到了新的挑战。

  二、统计学与信息科学

  统计学是处理数据的科学。教科书中的记述统计侧重数据的收集加工整理,而数理统计侧重数据处理的"科学性"。一般而言"科学"要求有客观性,再观性,普遍性。为表现这种科学性,研究者常喜欢用数学模型。因为数学比较简明,严谨,比较抽象。数理统计就运用数学工具,记述数据产生的过程,描述概率分布,进行推定,作假定检验,形成了一个比较完整的理论体系。

  但是如上所述,数理统计学的基本理论框架产生于20世纪的20-30年代。当时所处理的数据也就是一张统计表上的少量数据。其目的在于如何从较少的数据中得到反映现象的数量特征。其后数理统计学急速发展,愈加严谨系统,愈加数学化了。但主要的作用还是处理数据。

  计算机的发展使得比较复杂的数据计算变的简便了,成为统计计算的重要工具。当今,微机的普及,英特网的使用,使社会产生了很大的变革,使信息传递的质和量都发生了飞跃的变化。同时,由英特网所联接起来的微机,使得个人也能处理以往仅由国家和企业所控制的信息。计算机的功能已经大大超出了计算,更重要的是可以广泛大量地进行各种数据信息的检索处理。

  在这种状况下对统计学的应用而言,一个常见的问题就是可利用数据量的显著增大。在有自动计测的计算机的地方,从工场的流水线到超级市场的收款机,都是直接连续地记录数据,数据的单位有时会超过兆亿,甚至兆兆亿。这与费舍时代的数据处理量相比较,原有统计学教科书的理论框架就不太适用了。比如在固定的模型中对超大样本条件下所进行的假设检验,都会得出被拒绝的结果。

  从计算机中出现的大量数据中取得有用的信息被称之为数据挖掘(data mining)。在数据采集挖掘阶段,具有尽可能简捷地记述现象本质这种功能的模型还尚未被开发。更多的则是使用计算机运用各种手段进行大量的数据计算,从而取得有价值的信息。但是按照计算机的信息处理能力,除去计算功能之外,应该是可以将各种信息进行再分类的。这将是一个还有待开发的领域。

  数据挖掘可认为是对迄今为止的非常精确化的统计模型的一个启示。作为一种语言,数学语言的缺陷在于过于抽象,很难记述比较复杂的社会现象。对用数学公式可以简捷地记述物理性的规律来说,处理人类社会这种较复杂的社会科学则多使用带有丰富含意的自然语言来记述。现在我们看到的社会经济现象的复杂性的因素越多,越是难以用数学模型近似描述,数学的用途是广泛有效的,但绝不是万能的。

  因此,数据挖掘既然也是数据处理,统计学也就应该积极借鉴。借鉴的形式之一就是将以往的统计学数据处理的经验方法与数据采集挖掘相结合;另一种形式就是将计算机作为统计学的新的工具来使用,象在统计学中使用数学一样,要将以往只作为超级算盘使用的计算机,更加注意发挥其作为模式化(modeling)工具的作用。

  最近一些统计方法及数据挖掘的手法以算法(algorithm)形式明确得以表现,具备客观性,再现性的特点。但还存在着普遍性的问题,以往的计算机程序并未考虑到这一点。在最近的软件设计工程学中已经考虑到将文字信息与数据处理一体化(object oriented),力图使其具有普遍性的模式。通过这些新方法的研究使用,计算机在统计学中将成为仅次于数学的基本工具。

  在以计算机为主体的信息产业发展中特别值得统计学注目的方法技术有,图形,画像的操作及人机对话(user interface),专家咨询系统(expert system),英特网的使用等。这些与统计学的研究有着密切的联系,具有未来科学的普遍性。其中,特别是英特网的使用。在以往的统计软件包中,数据解析的程序,执行程序的控制装置(CPU),解析的数据都是在同一计算机上实行。但现在由于英特网的使用,这些都是在不同的计算机上实行,而且有时它们散布在世界各个地方。在这种环境下,统计解析的软件包也要与英特网的使用相适应,要创造出积极利用英特网的统计解析环境。在21世纪的信息社会中,统计学将以新的形式得到更广泛的应用,而作为与信息社会相适应的统计解析环境的研究,将以"数据处理科学"的形式成为统计学的一个新的领域。

  三、统计学与金融工程

  金融工程属于交叉性学科,包括以下3个领域:(1)投资分析;(2)风险管理;(3)期货交易。

  其中投资分析与风险管理两个领域直接涉及到统计数据描述及推测统计学,期货交易部分主要是与数学有关的应用概率过程,应用概率微分方程式的研究领域,有时被称为数理金融,不论哪个领域,对各种分析对象都需要有与之相应的理论框架。从这种意义说,金融工程还需要经济学,传统的金融理论,金融制度的知识。

  1.投资分析

  投资分析的目的在于尽可能地提高投资收益,为此从可选择的投资资产中(股票,债权,包括外汇在内的外国证券),进行资产选择操作,在控制风险的同时追求收益的最大化。因此要用到运筹学中的最优化理论。在股价,汇率,利息等金融资产的变动现象大多是多次元的,统计学的方法应用很重要,其要点是:

  ①大量经过分组的数据;

  ②反复试验,寻找数据出现的频率。

  但股价,汇率等的变动结构,由于追求收益及经济紧缩的变化,在分析期间一般都是不稳定的。

  2.风险管理

  风险管理的领域正是基于统计学的质量管理的思想建立起来的。企业或银行的财务结构受汇率,利息,股价的变动其资产价值也在不断变化,这就构成了市场风险。为了根据市场风险考察企业资产的价值变化,将企业的价值变化看作风险要素股价,汇率等变化的函数,描述其概率样本分布,推定其下限5%损失可能的金额。其中,即可用有关股价,汇率变化的模型,也可考虑因素相关的变化。最近,最大亏损值的概率分布研究受到关注,其中也在应用极端价格分布理论(extreme value)。有关银行的不良债权问题经常涉及到的BIS(国际结算银行)规定中,也要求按照上述方法计算企业资产价值变化下限5%的金额,规定企业要保留一定程度的自有资本。从这种意义而言,BIS的规定非常依赖于模型。由于企业资产价值的评估也必须以现价评估,所以不带价格的资产也要依靠模型评估。模型的应用越来越具有现实性,今后会计审计也要求助于统计学的知识。

  最近,包括作为价格变动风险的市场风险在内,对信用风险的研究很活跃。其中,不仅是破产风险,由于信用降级变化所引起的债权等的价格变化或信贷利息的变化也成为分析的对象。

  上述的投资分析及风险管理的统计性特点可概括为:

  第一,将价格,利息等不确定因素数理模型化,这可使用伊藤的概率微分建立微分方程式求解。

  第二,上述数理模型是概率随机过程,所以从数学角度作严密论证,且对金融的数理性结构加以数学性的整理(mathematical finance)。这与统计决策论相似。

  第三,市场风险与信用风险的预测及管理。预测的结果不仅用来管理市场,而且用于投资的战略选择。为此需要建立数据库,数据取得的时效也变得很重要。这与统计的质量管理有相同点。

  3.期货交易

  期货交易的领域是理论水平较高并富于挑战性的领域,它包括金融资产组合理论与资产组合的实践(financial engineering)。许多问题常被从数学角度程序化。其领域的数学结构包括连续时间的马琴戈尔(Martinggales)概率过程,概率微分方程式,概率测度的变换公式,马琴戈尔(Martinggales)的表现定理等。其核心概念为无风险即无收益的所谓的无裁定性理论(nofreGlunch)。期货交易理论以1973年发表的布拉克与舒尔斯(Black=Scholes)的论文与莫顿(Merton)的论文为基础发展起来,以1981年的哈理荪与皮莱斯卡(Harrison=pliska)的概率程序理论得以规范,以1994年的斯卡舍米叶与德巴思(Scachermeiyer=Debbaen)的论文完成了其基础理论。在1997年莫顿(Merton)与舒尔斯(Scholes)获得诺贝尔经济学奖。在此领域中也有实用模型的规范化,假定模型的检验,参数推定等统计问题。

  现在金融工程对统计学提出了许多新的问题。大量的数据解析,数据采集挖掘,风险预测及决策分析会成为统计学的新的领域。统计学者观察数据,建立概率统计模型,推导出统计量,求出统计量的概率分布。这些方法应用到金融资产交易的操作中,则构成了金融工程方法论的基础。

  四、极值统计学

  统计学者中有研究总体中心分布(middle man)与边缘分布(tail man)这两类研究者。通常,统计学者主要研究母总体分布的中心部分。但极值统计学研究其分布两侧的山脚处(tail),只研究数据分布较少的上位与下位,探讨边缘分布向某点收敛的速度(heavy tail)。所涉及到的典型问题主要有:例如要建设较强固的防坡堤,为此从可利用的过去百年间的潮位观测数据,推测今后1万年间的最高潮位。还有要建造6米高的防坡堤时,需推测发生超过其高度的大潮的概率,根据其结果决定防坡堤的高度等。此类问题就是使用被给定数据的一部分,预测全体或某范围的数据的最大值。在工程学方面还可举出如下的例子。在水文学中预测今后100年最大的降水量;在腐蚀工程学中机器整体有可能发生的最大腐蚀程度;建筑工程学中的今后50年中的最大的风速,最大的地震强度。在保险学方面有预测发生支付最大的保险金额;环境问题中的污染物质的集中程度;从证券,汇率,利息的时间序列的变化进行分析平均收益及风险的金融工程等等。在欧美日有许多出色的学者在从事这方面的研究。这些问题用统计学的语言表述即为:从未知母总体中抽取部分数据推测其母总体分布非常接近1的概率分位点(quantile)。而要推定这个概率分位点必须进行数据的外插计算,这将是较困难的。为了解决这个问题,在极值统计学中设定了未知母总体分布属于某极值分布的吸引区域。

  在20世纪30年代由费舍与逛皮特(Tippett,1928年)曾对独立同分布概率变量的最大值(极值统计量)的渐近分布(极值分布)进行过理论研究,发现了在极值分布中有逆威布尔分布(Weibull distribution,逆正态函数分布,常用于拟合机器及系统的寿命分布①),康拜尔分布(Gumbel distribution,双重指数分布,遵从于同一分布的n个独立连续概率变量中最大值x的极限公布①),及弗来舍分布(Frecher distribution,连续变量在某点收敛的分布②)这三种等形式,以及观察到了属于正态分布的极值统计量向极值分布的收敛相当缓慢。其后由von Mises(1936)给出了分布函数属于极值分布吸引区域的充分条件。由此得知统计学教科书中常出现的连续型分布几乎都属于极值分布的吸引区域。比如均匀分布,贝塔分布属于逆威布尔分布的吸引区域;正态分布,威布尔分布,咖码分布,对数正态分布等属于康拜尔分布的吸引区域;而t分布,帕热图分布(Vilfredo Pareto,法国经济学家,提出极限收入分布)等则属于弗来舍分布吸引区域。

  50年代极值理论的研究有了很大的进展。通常是选取一年中某时期或某领域的最大值进行研究,将取得的极值数据按照上述三种极值分布模式拟合,推测其参数。但极值数据适合于何种形式的极值分布事先很难确定,因此在1950年以英国的统计学者为主展开了以一种形式表现三种类型极值分布的一般极值分布的数据解析研究。60年代开始了2变量的极值分布研究以及对具有从属性概率过程的极值统计量的渐进分布研究。

  但是,从大量数据中仅选用极值会舍弃掉其他数据所具有的有价值的信息。因此,在水文学中出现了不是使用极值而是选取某界限以上的数据分析的方法。此方法称为POT(peaks over threshold)手法。根据指数分布可近似知道某界限值以上的数据分布。对此加以理论证明的是由巴克曼与哈曼(Balkeman=Haan,1974),还有皮堪德(Pickands,1975)所发现的一般帕热图分布。即分布函数之所以属于一般极值分布(逆威布尔分布,康拜尔分布,弗来舍分布)的吸引区域,就在于分布两侧的山脚部分的数值可用一般帕热图分布(贝塔分布,指数分布,帕热图分布)近似取得。以后,根据一般帕热图分布所进行的数据解析就成为极值理论的主流。在70年代末期至80年代中期,一般多变量极值分布的结构也得以明确。另外,由Galambos(1978,1987)与Leadbetter等(1983)的著作对极值理论的概率论方面作了介绍,理论方面的研究引人注目。

  但遗憾的是,由于大多数统计学者的注意力集中在对研究总体中央分布的研究,以及少数统计学者往往侧重在对极值统计学的理论研究,所以极值理论在应用方面的研究还是很不够的。目前以欧美的学者为主组成各个研究小组,正在运用极值理论对水文学,环境保护,自然灾害,异常气象,可靠性工程,保险数学,金融工程等有特色的应用领域展开研究。

  五、对21世纪统计学的展望

  面向21世纪的信息社会,仅有理学性质的理论研究是不能解决实际问题的。应用于经济管理中的统计学,与以往被按照研究对象或研究方法分门别类的经济学,管理学,计算机科学互相渗透,互相结合。特别是随着信息科学的进步,统计应用的范围越来越广。统计数据的计算变的简单了,但根据研究对象的不同,数据处理及数据采集挖掘的方法呈现出多样化,统计分析方法也相对复杂化,专业化。统计学的应用不仅要不断提高理论统计学的基本素质,还要注重掌握经济学的理论,金融交易制度及金融理论,管理科学的理论与计算机的技术方法。统计理论与应用的紧密结合显得比以往任何一个时期都更为迫切,更加重要。

  原美国统计学会会长伯克斯(G.E.P.Box)在他的学术报告(JASA,1979,Vol.74)中曾经指出:以往统计学者的分布表现为一边是以研究统计理论为主的统计学者,另一边是以研究统计应用为主的统计学者,即呈现出中间结合部分偏低较薄弱的双峰分布。但理想的分布应是中央部分较高较宽厚的分布,即以统计理论与统计应用相结合为主所构成的单峰分布。此话可谓较精辟地概括了20世纪统计学的现状及问题,值得统计学者的深思。

  纵观20世纪统计学的发展,统计数据收集与使用的客观环境发生了很大的变化,特别是通过计算机与英特网的使用,数据的收集存储,信息交换的客观条件有了质的变化,现代社会所表现出的数据在它的容量规模,次元,对时空的依存性,不完全性,不均一性,复杂性及相关性等等,均与以往完全不同。社会经济的多元化,金融交易的多样化,国际市场间资本移动的迅猛,以及电子商务的出现,甚至对我们的日常生活产生影响。在这种变化中,21世纪的统计学理论应怎样更新?统计学的应用应该如何发展?统计理论的基本框架已经形成的时代背景与当今计算机大量普及的现实落差如何调和?这些应该是21世纪统计理论研究与应用的一个重大的课题。

 
     
 
 
  数字资源 | 友情链接 | 联系我们
 
COPYRIGHT © 2006-2010 第二军医大学卫生统计学教研室 hejia@smmu.edu.cn
地址:上海市翔殷路800号 邮编:200433 电话:021-81871441
 
技术支持:网络信息中心