[AI]Kaggle.UTC+8h压哨完成
本次竞赛的数据集(训练和测试)是从在酶底物的多标签分类的一部分上训练的深度学习模型生成的。此数据集仅使用原始要素的子集(信号最多的要素)。特征分布与原始分布接近,但不完全相同。随意使用原始数据集作为本次竞赛的一部分,既可以探索差异,也可以了解在训练中合并原始数据集是否可以提高模型性能。
注意:对于此挑战,在训练数据中为您提供 6 个特征,但仅要求您预测前两个特征 ( 和 )。EC1
EC2
文件
- 训练.csv - 训练数据集; 是(二进制)目标,尽管只要求您预测和 。
[EC1 - EC6]
EC1
EC2
- 测试.csv - 测试数据集;您的目标是预测两个目标的概率和
EC1
EC2
- sample_submission.csv - 正确格式的示例提交文件
背景
已知酶作用于与其底物具有结构相似的分子。这种行为称为滥交。从事药物发现的科学家利用这种行为来靶向/设计药物,以阻止或促进生物作用。但是,正确预测与酶相关的底物的EC类别一直是生物学中的一个挑战。由于不乏数据,因此可以采用ML技术来解决上述问题。
要记住的要点
- 底物分子可以同时属于多个EC类,因为相同的分子参与生物学中不同类型的反应
- 数据集在标签中高度不平衡
- 需要一种可以解决标签不平衡的算法
- 最小标签计数为 1,最高标签计数为 248
内容
有 3 个文件名mixed_(desc、ecfp、fcfp).csv包含化学、结构、连接信息。
But排名嗨菜800多名 , 成绩: 0.55691
笺評 (issue)