大道至简之大数据和模型评估新系统CCHZ-DISO

  大数据精度和多模型综合定量评估一直是学科研究的重点和难点,且在科学的发展中占据核心地位。现有统计指标只评估模型单方面的精度,缺少对数据或模型的整体评估,因此亟需发展新的评估系统。 

  为解决上述问题,中国科学院新疆生态与地理研究所陈曦研究员团队联合瑞典哥德堡大学陈德亮院士团队和香港浸会大学周启鸣教授等团队原创性构建了CCHZ-DISO系统。其中,CCHZ来自主要贡献者姓氏首字母:C来自陈曦研究员,C 来自陈德亮院士,H来自胡增运研究员,Z来自周启鸣教授,DISO Distance between Indices of Simulation and Observation的缩写。 

  CCHZ-DISO系统的指导思想是大道至简,理论基础是欧式距离,维数从一维到无穷维,可成功解决不同统计指标评估矛盾时,如何综合定量评估大数据和模型的科学问题。系统的主要步骤如下: 

  1)根据“相似指标取其一,矛盾指标不同选”原则,确定统计指标; 

  2)对统计指标进行计算及归一化; 

  3)计算不同模型统计指标与观测数据统计指标的欧式距离; 

  4)统计指标的权重可以通过横向加权和纵向加权得到。 

  DISO的应用案例:以1961-2012年中国年降水数据集CN05.1为观测数据,ERA-20C, ERA-20CM, CERA-20C为模型数据集,选取相关系数(CC: correlation coefficient),偏差(AE: absolute error)和均方根误差(RMSE: root mean square error)分别构建CCHZ-DISO的一维、二维和三维评估系统:DISO-1, DISO-2DISO-3. CC构建的一维DISO-1作为评估标准的话,CERA-20C的模拟精度最好;以CCAE构建的二维DISO-2及三维DISO-3为评估标准的话,ERA-20C的精度均最好。这表明选取不同的统计指标构建DISO空间,不同模型的精度排名结果变化是正常的;同时,对于部分模型(最优模型)排名不变是合理的。该成果最新发表在GRLGeophysical Research Letters)。 

  CCHZ-DISO的原创性特色在于:(1)现有的所有统计指标均为CCHZ-DIO系统的一维特例;(2)其中统计指标种类和数目选取可完全根据研究者自身研究需求决定;(3)针对不同统计指标的权重可提供相应的计算方案;(4CCHZ-DISO可应用到设计数据或模型比较的所有学科、所有领域。与广泛应用于地学领域的Taylor图(泰勒图)相比,CCHZ-DISO的普适性更强、应用性更广泛,泰勒图只是CCHZ-DISO的二维特例,仅限于特定统计指标且无法延拓。 

  DISO 1.0版本和2.0版本分别于2019年和2021年发表在International Journal of Climatology。目前,DISO的工作已得到国内外专家高度认可。文章链接https://doi.org/10.1029/2022GL100681  

1维、2维和3维的CCHZ-DISO评估结果