当前位置: 主页 > 太平洋经济 >

项冠军霸榜蛋白质功能预测任务超1年中科大成果

发布者:xg111太平洋在线
来源:未知 日期:2024-10-03 07:03 浏览()

  卷积时的内存和时代开销为了避免GNNs特色,SAGN)最先将特色卷积从GNNs平分离出来少少可扩展的GNNs(比方 GAMLP 和 。特色卷积举办一次预处罚然后基于固定节点特色对。而然,可用NEs进修的因为节点特色是,s的合伙熬炼依旧是难以经受的这种念法对待NEs和GNN。

  标签的(加权)均匀值是k-hop邻人中。N层GNN对待一个,不光依赖于它的特色节点的预测(示意),N跳邻人的特色况且依赖于其。似地类,对其预测有进献节点的特色不光,的预测也有进献对其N跳邻人。此因,解NEs熬炼阶段的进修过错i-hop标签可能有用缓。

  拥有最优性保障的大说话模子和图神经汇集阔别熬炼框架由中科大王杰老师团队(MIRA Lab)提出的首个,chmark)挑拨赛的卵白质效用预测工作上斩获「第一名」正在国际顶级图进修规范OGB(Open Graph Ben,9月27日起连结至今该记录从2023年。

  些属性和图机闭为了同时编码这,aph Neural Network)串联集成正在一块一个常见的架构是将预熬炼模子与图神经汇集GNN(Gr,ode Encoder)对属性举办编码个中预熬炼模子行为节点编码器NE(N。图所示如下,杂的节点属性形成定长的低维嵌入该架构通过节点编码器将这些复,图神经汇集以连合图机闭音讯再将其行为节点特色输入到。

  性特色卷积的逆照射为了进一步避免线,反卷积来天生逆标签Y(γ)咱们提出了一个可熬炼的标签。γ参数化Y(γ)标签反卷积旨正在用,的表达才具相似使得Y(γ)于

  本事的庞杂性以及NEs的监视信号下面展现了NEs熬炼阶段分歧熬炼。速率最疾、存储最高效的算法LD和GLEM是全面本事中。EM比拟且与GL,号中还探讨到了图机闭LD正在NEs的监视信。

  颖的图神经汇集的逆运算该本事引入了一个相称新,算法来神速近似它并提出标签反卷积,等价的亏损函数进而修筑一个,神经汇集微调本事的进修过错从而消亡了古代说话模子和图。

  矩阵的逆。意的是值得注,了GNNs参数θ的一部门正在NEs的熬炼阶段包蕴。GNNs合伙熬炼的进修过错这种连合明显减轻了NEs和,响可扩展性同时不影。

  逆照射很难切确谋略因为非线性GNN的,N的有用近似来替换因此咱们推导GN。NN的频谱公式接下来先容G,积与GNN阔别将线性特色卷。拥有雷同表达的逆标然后通过LD参数化签

  意的是值得注,公式中GNNs的参数θNEs的熬炼阶段不涉及。于分歧的motivation咱们的本事LD和GLEM基项冠军霸榜蛋白质功能预测任务超1,来说全部,收复GNNLD旨正在,旨正在进步伪标而GLEM签

  可进修的要么是,固定的要么是。]所示如[2,温和的假设下出现放肆节点预测基于频谱的GNN可能正在少少。多确实寰宇的图数据这些假设也合用于许。倾向变为所以熬炼:

  Ns阔别熬炼的范式举办钻研本做事对现有的NEs和GN,正在NE熬炼阶段指出了现有做事,NN中的特色卷积它们没有探讨G,原始合伙熬炼的倾向函数并不等价导致它们提出的近似亏损函数与年中科大成果斩获图学习“世界杯”单,的进修过错存正在明显,(详见原论文举的反例)进而无法收敛到最优解。

  ,出现进修过错导致合伙熬炼。和图机闭方面的进修过错咱们总结了正在节点标签。IANT 和GLEM的亏损函数图5展现了合伙熬炼、LD、G。标签调和天生逆标签LD将图机闭与节点,练雷同的进修手脚连结了与合伙训。而然,怠忽了图机闭或节点标签GIANT和GLEM,的进修过错导致了明显。

  波器的启迪受到频谱滤,效的GNNs架构近来产生了很多高。于频谱的GNNsLD的推导也是基,即:

  这一挑拨为了应对,效的标签正则化本领咱们提出了一种有, Deconvolution)即标签反卷积LD (Label,新奇的、可扩展性强的近似标签通过对GNN逆照射获得一种。E的熬炼阶段以造服进修过错逆照射有用地将GNN纳入N,熬炼等效的倾向函数进而出现了与合伙。D收敛到了最优倾向函数值于是咱们也进一步表明了L,法供给了表面保障为提出的LD方。验验证通过实,下最先辈的本事LD明显优于当,chmark)挑拨赛的卵白质效用预测工作上斩获「第一名」正在国际顶级图进修规范OGB(Open Graph Ben,9月27日起连结至今该记实从2023年。

  (NE)的参数示意节点编码器。:用于卵白质序列的ESM2因为大型的预熬炼模子(如,拥有巨大的特色提取才具用于文本的Bert),节点编码器f故将其行为。

  有着雷同的进修手脚固然LD和合伙熬炼,上比合伙熬炼更高效但LD正在特色存储。来说全部,tch节点B数据上的亏损为了谋略mini-ba,庞杂度对B中的属性举办编码LD的NE以O(B)的内存。而然,的采花样图中的属性举办编码合伙熬炼的NE对巨细为GB,存庞杂度O(GB)出现比LD更大的内。

  实习中正在本,tch的巨细不逾越12预熬炼NEs最大ba,G(B)分明幼于。以所,s举办合伙熬炼是难以杀青的通过图采样对NEs和GNN。

  而然,爆炸题目(neighbor explosion)行为NE的预熬炼模子自身大批参数且GNN的邻人,熬炼NEs和GNN正在现实中并不行行的两大熬炼困难的叠加让直接端到端合伙。s和GNNs阔别熬炼的范式钻研者们起头钻研阔别NE,s必定步数(GNN的熬炼阶段)即先固定NEs的参数熬炼GNN,s必定步数(NE的熬炼阶段)再固定GNNs的参数熬炼NE,迭代举办两步瓜代。

  预处罚举办,多次加添内存和时代开销的操作以避免正在NEs的熬炼阶段履行。此因太平洋在线xg111ch的熬炼倾向为mini-bat:

  签与i跳邻人标签的加权和逆标签Y(γ)是确实标。的权重γi的蜕化流程图8绘造了微调流程中。者i跳邻人中i较幼的标号逆标签往往是确实标签或。然是全面标签中对节点分类最厉重的监视信号这是由于确实标签和i较幼的i跳邻人标签仍。表此,标签存正在过滑腻题目i 较大的i跳邻人,i的加添即跟着,能趋于不行划分i跳邻人标签可。意的是值得注,收敛到平常解权重γi不,个中

  进修基准数据集“标杆”OGB是目前公认的图,Jure Leskovec老师团队设置由图进修规模的国际顶级学者斯坦福大学,议NeurIPS上正式开源于2019年国际顶级学术会。

  方华途,械策画与主动化专业学士学位2023年得回上海大学机。的 MIRA Lab 实习室攻读硕士钻研生现于中国科学本领大学电子工程与音讯科学系,杰老师师从王。进修和天然说话处罚钻研趣味征求图示意。

  志皓石,学电子工程与音讯科学系学士学位2020年得回中国科学本领大。的 MIRA Lab 实习室攻读博士钻研生现于中国科学本领大学电子工程与音讯科学系,杰老师师从王。和AI4Science钻研趣味征求图示意进修。ICLR等期刊、集会上颁发论文他曾以第一作家正在 TPAMI、,率约为8%的Spotlight讲演曾受邀正在ICLR 2023做继承。

  很多厉重规模图通俗行使于,络和卵白质彼此效用汇集比方引文汇集、商品网。际行使中正在很多实,富且有效的属性音讯图中的节点拥有丰。如例,的节点(卵白质)不同包蕴着题目/摘要、商品的文本描绘和卵白质序列等厉重音讯引文汇集中的节点(论文)、商品汇集中的节点(商品)以及卵白质彼此效用汇集中,游工作尽管厉重这些音讯对下。这些庞杂属性中捕捉节点特征的厉重东西之一而近年来饱起的很多巨大的预熬炼模子是从。

  时GNNs是可扩展确当NEs的参数β固定,征卷积阔别本领来优化GNNs可直接运用上述的图采样或者特。

  略GNN特色卷积的题目针对阔别熬炼框架中忽,高效的标签正则化本领咱们提出了一种方便,Deconvolution即标签反卷积(Label ,D)L。标签为Y设节点,中的部门节点标签是缺失的)假若工作是半监视的(指图,到的固定节点特色熬炼GNNs即可遵照预熬炼的NEs推理得。

  了节点属性的雷同度和标签的雷同度为了进一步斗劲逆标签和线中展现。雷同文本(即文本雷同度大于0.6)但标签分歧(节点0和1 咱们从ogbn-arxiv数据蚁合随机选取了几对拥有高度,3 2和,)的节点4和5。度不同来评估文本雷同度和标签雷同度咱们运用TF-IDF算法和余弦雷同。都拥有较高的雷同度图4a中每对节点,节点雷同度较低但分歧对中的,行独立选取咱们对其进。4c证明图4b和,节点供给雷同的监视信号逆标签为拥有雷同文本的,点供给分歧的监视信号为拥有分歧文本的节。法杀青这一特征然而确实标签无。可见由此,标签噪声来保存确实语义属性逆标签通过低落图机闭中的。

  所示如下,据集上的发扬都明显优于全面的baselineLD正在分歧GNN backbone的三个数。

  而然,练NEs中运用的mini-batch的巨细现有图采样本事中运用的G(B)分明大于预训。)的巨细来对齐mini-batch的巨细假若进一步减幼现有图采样本事中B或G(B,会明显消浸它们的功能,所示如下。

分享到
推荐文章