1689015930731

本次竞赛的数据集(训练和测试)是从在酶底物的多标签分类的一部分上训练的深度学习模型生成的。此数据集仅使用原始要素的子集(信号最多的要素)。特征分布与原始分布接近,但不完全相同。随意使用原始数据集作为本次竞赛的一部分,既可以探索差异,也可以了解在训练中合并原始数据集是否可以提高模型性能。

注意:对于此挑战,在训练数据中为您提供 6 个特征,但仅要求您预测前两个特征 ( 和 )。EC1EC2

文件

  • 训练.csv - 训练数据集; 是(二进制)目标,尽管只要求您预测和 。[EC1 - EC6]EC1EC2
  • 测试.csv - 测试数据集;您的目标是预测两个目标的概率和EC1EC2
  • sample_submission.csv - 正确格式的示例提交文件

背景

已知酶作用于与其底物具有结构相似的分子。这种行为称为滥交。从事药物发现的科学家利用这种行为来靶向/设计药物,以阻止或促进生物作用。但是,正确预测与酶相关的底物的EC类别一直是生物学中的一个挑战。由于不乏数据,因此可以采用ML技术来解决上述问题。

要记住的要点

  1. 底物分子可以同时属于多个EC类,因为相同的分子参与生物学中不同类型的反应
  2. 数据集在标签中高度不平衡
  • 需要一种可以解决标签不平衡的算法
  • 最小标签计数为 1,最高标签计数为 248

内容

有 3 个文件名mixed_(desc、ecfp、fcfp).csv包含化学、结构、连接信息。

But排名嗨菜800多名 , 成绩: 0.55691

分类: ,

更新时序:

笺評 (issue)