首页 > 编程语言 >问鼎CodeXGLUE榜单,华为云UniXcoder-VESO-v1算法取得突破

问鼎CodeXGLUE榜单,华为云UniXcoder-VESO-v1算法取得突破

时间:2023-05-15 15:14:30浏览次数:50  
标签:代码 v1 华为 搜索 VESO UniXcoder 自然语言 CodeXGLUE

摘要:华为云PaaS技术创新团队基于UniXcoder模型,在公开测试数据集(CodeXGLUE)上的代码搜索任务评测结果上取得突破,在CodeXGLUE榜单上排名中第一。

本文分享自华为云社区《代码语义搜索算法哪家强?华为云UniXcoder-VESO-v1算法取得突破,问鼎CodeXGLUE榜单第一名》,作者:华为云软件分析Lab 。

按照查询语句的类型,代码搜索可以分为代码关键字搜索和代码语义搜索。代码关键字搜索主要通过索引代码实体(如类、方法、变量等),查询定位代码实体的定义及引用;代码语义搜索的目标是支持开发人员基于自然语言方式来描述代码特性,从而进行相关代码的推荐与搜索。在开发人员编程过程中帮助其查找最佳代码示例实践和库使用示例,从而开发者可以通过功能描述搜索到代码。

目前,大多数代码搜索引擎仅支持代码关键字搜索,这需要开发者了解他们正在搜索的代码,例如类名、函数名、API调用等等,这具有很大的局限性。多数用户通常通过搜索代码示例来指导他们完成特定的编码任务,他们更倾向于使用自然语言来描述待编码实现的功能,从而借鉴开源社区中已存在的相关代码片段。代码语义搜索可以支持开发人员在不知道类或函数名称的情况下使用自然语言方式来描述所需的代码功能。借助于语言模型及不同自然语言之间的映射关系,开发者甚至可以基于中文描述搜索出包含英文功能描述的代码片段。

随着语言大模型(Large Language Model, LLM)技术的发展,一系列语言大模型(如BERT [1]、XLNet [2]、GPT [3]、RoBERTa [4]等)在自然语言处理任务上取得了巨大的成功,为源代码处理任务提供了技术基础。这些模型已经应用于代码摘要和代码语义搜索,打败了以前的最先进方法。语义搜索背后的想法是将语料库中的所有条目,无论是句子、段落还是文档,都编码到向量空间中。在搜索时,查询被编码到相同的向量空间中,并找到语料库中最近的向量。这些条目应与查询具有高度的语义重叠。代码语义搜索使用编码大模型将查询及代码片段编码成向量,使得语义相关或相近的代码片段和查询在向量空间内落在相近的位置。如下图所示:

有很多算法使用不同的编码器对代码片段和查询进行编码,最新和最有希望的研究集中在通用编码器和解码器上,这些编码器和解码器使用相同的神经网络来编码所有编程语言代码片段和文本。

Salza等人 [5]基于原始BERT[1]模型,用多种编程语言代码预训练一个新的BERT模型,并用两个编码器(一个处理自然语言,另一个处理代码片段)精调该模型,首先证明了处理自然语言的基于Transformer架构的模型可以被直接应用到代码搜索任务中。

CodeBERT [6]是在自然语言和编程语言序列数据上进行训练的大型语言模型之一,它在代码搜索方面表现较为出色。此外,还发展演化出RoBERTa [4]、TreeBERT [7]、GraphCodeBERT [8]、UniXcoder [9]等在代码搜索方面表现出色的自然语言与编程语言结合训练的模型。

华为云PaaS技术创新团队基于UniXcoder模型,通过混淆代码片段、增加海量开源代码作为训练集、提高批尺寸等精调方法,实现了UniXcoder-VESO-v1算法,该算法在公开测试数据集(CodeXGLUE [10])上的代码搜索任务评测结果上取得突破:平均倒数排序值(MRR)达到0.58,CodeXGLUE榜单上排名中第一(如下图所示: UniXcoder-VESO-v1, 详见https://microsoft.github.io/CodeXGLUE/)。  我们将持续推进该工作的技术创新与突破,会选择合适方式披露内部技术细节,如感兴趣,欢迎持续关注我们的订阅号文章。

文章来自:PaaS技术创新Lab,PaaS技术创新Lab隶属于华为云,致力于综合利用软件分析、数据挖掘、机器学习等技术,为软件研发人员提供下一代智能研发工具服务的核心引擎和智慧大脑。我们将聚焦软件工程领域硬核能力,不断构筑研发利器,持续交付高价值商业特性!加入我们,一起开创研发新“境界”!(详情欢迎联系 [email protected][email protected])

PaaS技术创新Lab主页链接:https://www.huaweicloud.com/lab/paas/home.html

参考文献

  • [1]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186
  • [2]. Zhilin Yang, Zihang Dai, Yiming Yang, Jaime G. Carbonell, Ruslan Salakhutdinov, Quoc V. Le: XLNet: Generalized Autoregressive Pretraining for Language Understanding. NeurIPS 2019: 5754-5764
  • [3]. Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei: Language Models are Few-Shot Learners. NeurIPS 2020
  • [4]. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov: RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs/1907.11692 (2019)
  • [5]. Pasquale Salza, Christoph Schwizer, Jian Gu, Harald C. Gall: On the Effectiveness of Transfer Learning for Code Search. IEEE Trans. Software Eng. 49(4): 1804-1822 (2023)
  • [6]. Zhangyin Feng, Daya Guo, Duyu Tang, Nan Duan, Xiaocheng Feng, Ming Gong, Linjun Shou, Bing Qin, Ting Liu, Daxin Jiang, Ming Zhou: CodeBERT: A Pre-Trained Model for Programming and Natural Languages. EMNLP (Findings) 2020: 1536-1547
  • [7]. Xue Jiang, Zhuoran Zheng, Chen Lyu, Liang Li, Lei Lyu: TreeBERT: A tree-based pre-trained model for programming language. UAI 2021: 54-63
  • [8]. Daya Guo, Shuo Ren, Shuai Lu, Zhangyin Feng, Duyu Tang, Shujie Liu, Long Zhou, Nan Duan, Alexey Svyatkovskiy, Shengyu Fu, Michele Tufano, Shao Kun Deng, Colin B. Clement, Dawn Drain, Neel Sundaresan, Jian Yin, Daxin Jiang, Ming Zhou: GraphCodeBERT: Pre-training Code Representations with Data Flow. ICLR 2021
  • [9]. Daya Guo, Shuai Lu, Nan Duan, Yanlin Wang, Ming Zhou, Jian Yin: UniXcoder: Unified Cross-Modal Pre-training for Code Representation. ACL (1) 2022: 7212-7225
  • [10]. https://microsoft.github.io/CodeXGLUE/

 

点击关注,第一时间了解华为云新鲜技术~

标签:代码,v1,华为,搜索,VESO,UniXcoder,自然语言,CodeXGLUE
From: https://www.cnblogs.com/huaweiyun/p/17401916.html

相关文章

  • 关于Kubernetes-v1.23.6-网络组件-calico的安装部署...
    当2个workernodes节点加入到 Kubernetes/k8s集群后,我们去master节点、执行kubectlgetnodes命令就可以看到worker节点了但是我们会看到无论是master节点、还是worker节点,STATUS都会是  NotReady,如下[root@k8s-masterqq-5201351]#kubectlgetnodesNAME......
  • 解决docker search influxdb 报错Error response from daemon: Get "https://index.do
    解决dockersearchinfluxdb报错Errorresponsefromdaemon:Get"https://index.docker.io/v1/search?q=influxdb&n=25":dialtcp:lookupindex.docker.ioon192.168.12.2:53:readudp192.168.12.128:39189->192.168.12.2:53:i/otimeoutdockerpull&......
  • 三菱FX3U与3台施耐德ATV12变频器通讯程序三菱FX3U与3台施耐德ATV12变频器通讯案例程序
    三菱FX3U与3台施耐德ATV12变频器通讯程序三菱FX3U与3台施耐德ATV12变频器通讯案例程序,有注释。并附送程序,有接线方式,设置。同时解决施耐德ATV变频器断电重启后,自准备工作,程序稳定可靠。器件:三菱FX3U的PLC,3台施耐德ATV12系列变频器,昆仑通态功能:实现频率设定,启停控制,实际频率读取等,......
  • 欧姆龙CP1H+CIF11与3台施耐德ATV12变频器通讯 功能:原创程序,可直接
    欧姆龙CP1H+CIF11与3台施耐德ATV12变频器通讯功能:原创程序,可直接用于现场程序。欧姆龙CP1H的CIF11通讯板,实现对3台施耐德ATV12变频器设定频率,读取实际频率,变频器状态功能。反应灵敏,通讯稳定可靠。后续可根据需要扩展台数时,非常灵活方便。器件:欧姆龙CP1H,CP1WCIF11串口网关......
  • 信捷XC PLC与施耐德ATV12变频器通讯程序 程序可靠稳定,变
    信捷XCPLC与施耐德ATV12变频器通讯程序程序可靠稳定,变频器上电自动走完DRIVECOM流程,同时解决施耐德ATV12变频器断电重启后,自准备工作,无需人为准备。器件:信捷XC324TPLC,昆仑通态TPC7062KD的触摸屏,威纶通MT6070ih,1台施耐德ATV12系列变频器,附送接线说明和设置说明,昆仑通......
  • 西门子s7 200smart与3台施耐德ATV12变频器通讯 可靠稳定,同时解决施
    西门子s7200smart与3台施耐德ATV12变频器通讯可靠稳定,同时解决施耐德ATV12变频器断电重启后,自准备工作,无需人为准备。器件:西门子s7-200smartPLC,昆仑通态带以太网通讯的触摸屏,3台施耐德ATV12系列变频器,附送接线说明和设置说明,昆仑通态MCGS程序功能:实现变频器的频率设定,启停......
  • 台达DVP PLC与3台施耐德ATV12变频器通讯程序 程序有注释。 并
    台达DVPPLC与3台施耐德ATV12变频器通讯程序程序有注释。并附送程序,有接线方式,设置。同时自动走完变频器DRIVECOM流程,解决施耐德ATV变频器断电重启后,自准备工作,程序稳定可靠。器件:台达DVPES系列PLC,3台施耐德ATV12系列变频器,昆仑通态,威纶通触摸屏程序功能:实现频率设定,启停......
  • 昆仑通态MCGS与施耐德ATV变频器通讯程序 实现昆仑通态触摸屏与施耐德ATV12变频器通讯,
    昆仑通态MCGS与施耐德ATV变频器通讯程序实现昆仑通态触摸屏与施耐德ATV12变频器通讯,程序稳定可靠,同时解决了施耐德ATV变频器断电重启后,自准备过程。无需人为再准备。器件:昆仑通态TPC7062KD触摸屏,施耐德ATV12变频器,附送接线说明和设置说明功能:实现频率设定,启停控制,实际频率读取等,......
  • 昆仑通态MCGS与3台施耐德ATV12变频器通讯程序 实现昆仑通态触摸屏与3台施耐德ATV12变
    昆仑通态MCGS与3台施耐德ATV12变频器通讯程序实现昆仑通态触摸屏与3台施耐德ATV12变频器通讯,程序稳定可靠,同时解决了施耐德ATV变频器断电重启后,自准备过程。无需人为再准备。器件:昆仑通态TPC7062KD触摸屏,3台施耐德ATV12变频器,附送接线说明和设置说明功能:实现频率设定,启停控制,实际......
  • 西门子200smart与施耐德ATV变频器modbus通讯 西门子s7-200smart与施耐德ATV12变频器通
    西门子200smart与施耐德ATV变频器modbus通讯西门子s7-200smart与施耐德ATV12变频器通讯,可靠稳定,同时解决施耐德ATV变频器断电重启后,自准备工作,无需人为准备。器件:西门子s7-200smartPLC,昆仑通态带以太网通讯的触摸屏,1台施耐德ATV12系列变频器,附送接线说明和设置说明,昆仑通态MCGS......