分类:Simultaneous and selective inference: Current successes and future challenges
Benjamini, Y. (2010), Simultaneous and selective inference: Current successes and future challenges. Biom. J., 52: 708-721. doi:10.1002/bimj.200900299
Abstract
The previous decade can be viewed as a second golden for era Multiple Comparisons research. I argue that much of the success stems from our being able to address real current needs. At the same time, this success generated a plethora of concepts for error rate and power, as well as multiplicity of methods for addressing them. These confuse the users of our methodology and pose a threat. To avoid the threat, it is our responsibility to match our theoretical goals to the goals of the users of statistics. Only then should we match the methods to the theoretical goals. Considerations related to such needs are discussed: simultaneous inference or selective inference, testing or estimation, decision making or scientific reporting. I then further argue that the vitality of our field in the future – as a research area – depends upon our ability to continue and address the real needs of statistical analyses in current problems. Two application areas offering new challenges have received less attention in our community to date are discussed. Safety analysis in clinical trials, where I offer an aggregated safety assessment methodology and functional Magnetic Resonance Imaging.
总结和评论
这个工作基于论文之间的引用网络做了论文主题发现(聚类)的研究。其主要思想就是通过调整网络的集团结构的方式来优化网路集团结构的模块度[1],实现模块度的最大值。具体实现这个优化的算法有很多种。Waltman这篇文章用的哪一种方法,还需要再看一看。这里有他的源程序。得到聚类结果之后,文章还对每一个类以词的频率为基础(TF-IDF)做了类标签。接着讨论了这个聚类的表现。在表现上,选择了几个领域几个期刊来当例子,讨论了优点和不足。但是,文章没有对比他们的聚类结果和其他聚类结果,以及和现有的作者或者编辑部标记的分类。由于这个算法能够处理比较大的引用网络,现在有不少研究者,例如Boyack在使用这样的分类方法。
实际上,从这个工作本身的细节的角度来说,具体优化方法,甚至聚类方法,还都有可能可以继续提高的地方,标签处理也没有考虑词语之间的语义联系。这些都是有可能可以开展工作的点。
但是,对于我们来说,主要的不是这些小的地方,而是这个文章解决了一个什么问题——提出一个基于论文引用网络的聚类算法,以及这样的一个问题的解决,和我们自己在研究的文章主题识别在思考上有什么异同。第二,还有这个文章的写作,因为以后我们自己的方法的结果也要写出来的,对于我们有什么参考价值,尤其是在对结果合理性和不足的说明方式这一点上。
具体来说,问题是相同的:文章聚类算法。但是,思路上不一样。第一、数据上,我们考虑引用网络和文本相似性的结合。第二、在分析思想上,在引用网路上甚至在文本相似性上,我们在计算相似度的时候就希望考虑直接和间接联系,而不仅仅是直接联系。也就是这篇文章中的相似度直接基于邻接矩阵做的归一化,而我们希望相似度本身的计算需要考虑例如邻接矩阵的平方之类的影响。第三、分析方法不一样,我们希望运用word2vec[2][3]来计算在引用网络和文本两个方面上文章的矢量表示,并且在得到矢量表示之后可以通过LDA[4][5]这样的方法,或者仍然采用相似性聚类的方法来做聚类。
参考文献
引用错误:在<references>中以“Benjamini:MultipleComparison”名字定义的<ref>标签没有在先前的文字中使用。
引用错误:在<references>中以“Aickin:MultipleComparison”名字定义的<ref>标签没有在先前的文字中使用。
本分类目前不含有任何页面或媒体文件。