近日,信息科学与工程学院王志军教授农业系统集成团队孙博老师作为第一作者在《NEUROCOMPUTING》上在线发表题为“Radial-based undersampling approach with adaptive undersampling ratio determination”的研究论文。
类不平衡问题是机器学习领域中的一项重要挑战,指在收集到的训练数据集中某一类别的样例数量明显少于其他类别的样例数量,从而影响常见分类学习算法的泛化性能,特别是对携带重要信息的少数类不能很好地进行分类。例如,农业病虫害数据中描述某种特殊病害的样例(少数类样例)通常显著少于描述普通病害的样例(多数类样例),但若对少数类样例错误分类将耽误病虫害的最佳治疗时机并导致作物产量和质量的明显降低。
为了有效改善分类算法在不平衡数据上的学习性能,团队提出一种具有自适应欠采样比例的径向欠采样方法RBU-AR。RBU-AR的主要创新之处在于根据数据的类重叠复杂性来确定合适的欠采样比例,而不像大多现有欠采样方法那样采用默认值1或使用经验试错策略进行确定;此外,RBU-AR采用“相对类间势”概念来客观评估每个多数类样例的效用,解决了“应该删除哪些多数类样例”的问题,进而降低了因去除有用多数类样例而引起的信息丢失风险。在40个不平衡数据集上进行的实验和相应的统计检验表明,类重叠度对学习算法的分类性能有很大影响,通常比类不平衡比例IR更为重要,并且RBU-AR算法表现出了较好的分类性能;此外,这项工作为利用类重叠数据复杂性信息来确定合适欠采样数量也提供了一定的理论指导。
该研究得到了国家自然科学基金、山东省重大科技创新项目、山东省自然科学基金的资助。
论文链接:https://www.sciencedirect.com/science/article/pii/S0925231223006677
编 辑:万 千
审 核:贾 波