中心博士生陈远星论文发表于Journal of Multivariate Analysis

作者: 时间:2021-11-10 点击数:


近日,由经济学院统计学和数据科学系2018级在读博士生陈远星与其导师组导师方匡南教授、张庆昭副教授以及耶鲁大学马双鸽教授合作完成的论文“Biclustering analysis of functionals via penalized fusion”被Journal of Multivariate Analysis正式接受并在线发表。Journal of Multivariate Analysis创立于1971年,是学界公认的统计学国际权威期刊,也是我校认定的统计学国际A-期刊。

聚类分析作为无监督学习中的一类重要方法,已在生物医学、经济学、商业管理等领域的研究中得到广泛应用。近几年随着高维大数据的发展,在生物基因分析、文本分析、电商推荐分析等领域对聚类的要求越来越精细,双向聚类方法得到了快速发展,双向聚类是同时对样本维度和变量维度进行聚类,从而可以更全面更精细地描述数据的异质性。现存的大多数双向聚类方法主要考虑标量数据,在实际研究中,受时间过程基因表达数据的启发,本文提出了函数型数据双向聚类方法,利用双重的惩罚融合法来对样本和变量同时进行聚类,从而形成多个矩阵块的聚类结构,每个矩阵块对应部分样本和部分变量,进而刻画这些样本在这些变量上共有的函数轨迹。通过分析不同块的函数轨迹的差异,可以探究相同变量上不同样本的异质性差异,以及相同样本上不同变量间的协同作用。该论文提出的方法相比于与现存的函数数据双向聚类方法有较大改进:首先,该方法无需事先设定聚类的个数,而是通过自适应的方式来自发确定聚类的个数;其次,现存方法通常具有严格的模型假设(例如高斯分布),而该方法基于非参的基本框架无需进行分布假设;最后,该论文在提出方法论的同时,建立了严格的理论性质,证明了该方法的聚类一致性。该方法除了应用于生物基因的函数数据外,还可以应用于金融函数型数据、商业函数型等,具有广泛的应用前景。

 


陈远星,厦门大学经济学院统计学与数据科学系2018级博士研究生,目前已在Journal of Multivariate Analysis, Journal of Statistical Computation and Simulation以及《数理统计与管理》等期刊发表(含正式接收)论文3篇,并且还有多篇论文在审稿中。


Copyright© 2021 All Rights Reserved