今日论文领英基于BERT的通用排名框架
8月7日人工智能领域新增论文篇,AI日读精选其中48篇推荐给大家。这些论文主要来自ECCV,AAAI,IJCNN,CIKM,INTERSPEECH,DAS,ICECCS,ACMMM等会议与期刊。其中包含计算机视觉论文13篇[1-13],自然语言处理论文5篇[14-18],方法论论文4篇[20-23],神经网络原理论文1篇[24],语音技术论文10篇[27-36],知识图谱论文1篇[37],强化学习论文3篇[38-40],推荐系统论文4篇[41-44],医疗与健康论文1篇[45],应用论文3篇[46-48],点击文末阅读原文即可下载。首先来看计算机视觉论文:-可以通过无条件GAN(如StyleGAN)生成高质量、多样化和逼真的图像。然而,在使用语义属性控制生成过程的同时,仍然保持输出质量的模型非常有限。此外,由于GAN潜在空间的纠缠性质,沿着一个属性执行编辑很容易导致沿着其他属性的不必要变化。[3]研究在纠缠潜空间的条件探索中属性条件采样(Attribute-ConditionedSampling)和属性控制编辑(Attribute-ControlledEditing)这两个子问题。文章提出了一个简单、有效、稳健的模型StyleFlow,通过将条件探索问题转化为GAN潜空间中受属性特征制约的条件连续归一化流问题,来解决这两个子问题。文章使用StyleGAN的人脸和汽车潜在空间来评估其提出的方法,并在真实照片和StyleGAN生成的图像上展示了沿各种属性的细粒度离散编辑操作。例如,对于人脸,文章改变了相机姿势、照明变化、表情、面部头发、性别和年龄。文章展示了在合成生成以及投射的真实图像上的编辑。最后,通过大量的定性和定量比较,文章展示了StyleFlow比其他同时进行的工作的优越性。-这是一篇来自英特尔和华威大学的联合研究。从言语和非言语行为线索分析情感对于许多智能的以人为中心的系统至关重要。可以使用音频、视频、运动捕捉或其他方式来获得情绪暗示。[1]提出一种用于情感识别的通用图方法,该方法可以采用任何时变(动态)数据形式作为输入。为减轻最优图构造问题,研究者将此作为联合图学习和分类任务。为此提出了可学习图起始网络(LearnableGraphInceptionNetwork,L-GrIN),该网络共同学习识别情绪并识别数据中的基础图形结构。所提架构包含多个新组件:新的图卷积运算、图初始层、可学习的邻接关系以及可生成图级嵌入的可学习池化功能。研究者在跨越三种不同模式(视频、音频、运动捕捉)的四个基准情感识别数据库上评估了所提架构,其中每个数据库都捕获了以下情感线索之一:面部表情、语音、身体手势。所提方案在所有数据库上均拥有当前最佳性能,其性能优于几个竞争基准和相关的现有方法。-由于缺乏丰富的标签训练数据,从野外视频中识别面部表情是一项艰巨任务。大型深度神经网络(DNN)架构和集成方法带来更好的性能,但由于数据不足,很快就达到饱和。[2]使用一种自训练方法,该方法利用标记数据集和未标记数据集的组合(BodyLanguageDataset-BoLD)。实验分析表明,迭代地训练有噪音的学生网络有助于获得明显更好的结果。此外,所提模型隔离了面部的不同区域,并使用多级注意力机制独立处理它们,从而进一步提高了性能。结果表明,与其他单个模型相比,该方法在基准数据集CK+和AFEW8.0上具有当前最佳性能。自然语言处理方面:-[16]提出一种使用数据嵌入的数据驱动方法,以在讨论平台Reddit上发现和分类语言偏见。作为隔离用户社区的空间,Reddit之类的平台越来越与种族主义、性别歧视和其他形式的歧视问题联系在一起。因此需要监视这些类型的语言。跟踪大型文本数据集中的语言偏见最有前途的AI方法之一是词嵌入,将文本转换为高维密集向量并捕获单词之间的语义关系。然而,先前的研究需要预定义的潜在偏倚集来进行研究,例如性别是否与特定类型的工作或多或少相关。这使得这些方法不适合处理较小的和以社区为中心的数据集,例如Reddit上的数据集,其中包含较小的词汇和语法,以及该社区可能特有的偏见。基于此,研究者提出一种数据驱动方法来自动发现Reddit上在线话语社区词汇中编码的语言偏见。在该方法中,受保护的属性与数据中找到的评估词相关联,然后通过语义分析系统对其进行分类。研究者通过将在Google新闻数据集中发现的偏见与以前文献中发现的偏见进行比较,验证了所提方法的有效性,然后成功发现不同Reddit社区中的性别偏见、宗教偏见和种族偏见。研究者通过讨论潜在的应用场景和这种数据驱动的偏差发现方法的局限性来得出结论。-医疗保健答题助手旨在为客户提供保健信息,广泛出现在网络和移动互联网上。这些问题通常需要辅助人员具备熟练的医疗背景知识以及对知识的推理能力。最近有研究人员提出了一个涉及复杂医疗推理的挑战:HeadQA数据集,该数据集包含公共医疗卫生专业考试授权的选择题。与其他大多数QA任务侧重于语言理解不同,HeadQA需要进行更深层次的推理,不仅涉及到知识的提取,还涉及到医疗保健知识的复杂推理。这些问题对于目前的QA系统来说是最具挑战性的,目前最先进的方法的性能比随机猜测略好。为了解决这个具有挑战性的任务,[17]提出了一个多步推理与知识提取框架(MurKe)。文章所提出的框架首先从庞大的语料库中提取医疗知识作为支持文档。为了找到推理链并选择正确的答案,MurKe在选择支持性文档、使用支持性文档重构查询表征和使用蕴含模型获得每个选择的蕴含得分之间进行迭代。重构模块利用所选文档进行缺失证据的重构,保证了模型的可解释性。从实验结果和消融研究来看,文章提出的系统在HeadQA数据集上能够优于多个强基线模型。-像BERT及其变体这样经过预训练的语言模型最近在各种自然语言理解任务中取得了令人印象深刻的性能。但是,BERT严重依赖于全局自注意模块,因此会产生较大的内存占用和计算成本。尽管其所有注意力头都在整个输入序列上进行查询以从全局角度生成注意力图,但观察到有些头只需学习局部依赖关系,这意味着存在计算冗余。因此,[18]提出一种新的基于跨度的动态卷积,以取代这些自注意力头部以直接对局部依赖性进行建模。新的卷积头与其余的自注意头一起,形成了一个新的混合注意块,在全局和局部上下文学习中都更加有效。研究者为BERT配备了这种混合注意力设计,并构建ConvBERT模型。实验表明,ConvBERT在各种下游任务中显著优于BERT及其变体,具有较低的训练成本和较少的模型参数。值得注意的是,ConvBERTbase模型的GLUE得分达到86.4,比ELECTRAbase高0.7,而训练成本不到1/4。-理想情况下,开放域问答模型应具有多种能力,范围从简单地记住在训练时看到的问题到用训练中看到的答案回答新的问题提法,再到具有新答案的全新问题。但是,单个汇总的测试集分数不能完整显示功能模型真正具备的功能。[15]针对这些能力对三个流行的开放域基准数据集的测试集进行详细研究。研究者发现,在测试集中的某处也存在60-70%的测试时间答案。研究者还发现30%的测试集问题在其相应的训练集中具有近乎重复的释义。利用这些发现,研究者评估了各种流行的开放域模型,以更深入地了解其可以实际推广到什么程度,以及推动它们的整体性能的因素。研究发现,在无法从训练集中记住的问题上,所有模型的表现都非常差,重复和未重复数据之间的平均绝对性能差异为63%。最后,研究者还证明简单的最近邻模型优于BART封闭式QA模型,进一步强调了训练集记忆在这些基准中的作用-这项研究工作来自领英。排名是搜索系统中最重要的组成部分。大多数搜索系统处理大量的自然语言数据,因此,有效的排名系统需要对文本语义有深刻的理解。最近,基于深度学习的自然语言处理(deepNLP)模型在排名系统上产生了可喜结果。BERT是学习上下文嵌入的最成功模型之一,已被用于捕获复杂的查询句-文档关系以进行搜索排名。但是,这通常是通过将每个查询词与每个文档词进行详尽的交互来完成的,这对于搜索产品系统中的在线服务效率低下。[14]研究如何为行业用例建立有效的基于BERT的排名模型。该解决方案进一步扩展到通用排名框架DeText,该框架是开源的,可以应用于各种排名产品。在三个现实世界的搜索系统上进行DeText的离线和在线实验,与当前最佳方法相比,性能有明显提升。除此之外,本期还有如下看点:-[19]引入一个新数据集,用于在业务文档(尤其是年度报告)中检测图形对象。该数据集IIIT-AR-13k是通过在公开的年度报告中手动标注图形或页面对象的边界框而创建的。该数据集总共包含张带标注的页面图像,这些对象具有五种不同的流行类别:表格、图形、自然图像、徽标和签名。这是用于图形对象检测的最大的手动标注数据集。由多家公司以多种语言编写的多年年度报告使该数据集具有很高的多样性。研究者使用FasterR-CNN和MaskR-CNN两种先进的图形对象检测技术对IIIT-AR-13K数据集进行基准测试,并建立了较高的基线以进行进一步的研究。该数据集作为训练数据非常有效,可以为商业文档和技术文章中的图形对象检测开发实用的解决方案。通过使用IIIT-AR-13K进行训练,研究者证明与使用大量数据进行训练的等效解决方案相比,单个解决方案可以得到更高性能。-近几十年来,人们已看到机器学习的跨越式发展。机器可学习性的核心思想在于构建可以从从好的数据中进行学习的算法。近年来,越来越多的数据公开也加速了人工智能的发展。在计算机视觉领域,图像标注的准确性决定着图像数据的质量。标记大量的图像数据是一项艰巨而乏味的任务。[20]提供了一个用于对象标注和识别的端到端Pipeline工具,旨在实现快速的图像标注。文章开发了一个模块化的图像标注平台,将辅助图像标注(标注辅助)、主动学习、模型训练和评估无缝结合在一起。与当前的图像注释工具相比,文章的方法有许多优点。首先,标注辅助利用参考层次结构和参考图像来定位图像中的对象,从而减少了对整个对象的标注。其次,可以使用多边形点对图像进行注释,允许对任何形状的对象进行注释。第三,它还可以跨多个图像模型进行互操作,该工具提供了一个跨一系列预训练模型进行对象模型训练和评估的接口。文章已经测试了模型并嵌入了几个基准深度学习模型,达到的最高精度是74%。-[21]提出了一种模型保护方法,首次使用带秘钥的块状像素洗牌(Shuffle)操作作为输入图像的预处理技术。通过对这种预处理后的图像进行训练,建立受保护的模型。实验结果表明,当密钥正确时,受保护模型的性能与非保护模型的性能接近,而当给定错误的密钥时,准确率会严重下降,文章所提出的模型保护不仅可以抵御蛮力攻击,而且可以抵御微调攻击,同时保持与使用非保护模型几乎相同的性能准确率。-端到端神经网络模型(E2E)在不同的INTERSPEECHComParE任务上显示出显著性能优势。先前工作已为任务应用了E2E模型的单个实例,或者为不同任务应用了相同的E2E架构。但是,应用单模型是不稳定的,或者使用相同的架构未充分利用特定于任务的信息。在ComParE任务上,[27]研究应用E2E模型集成以实现稳定性能,并为每个任务开发针对特定任务的微调。ComParE引入三个子挑战:呼吸挑战是预测戴着呼吸带(respiratorybelt)的患者的讲话内容;高龄挑战是评估老年人说话者的唤醒和价水平(valencelevels);面罩挑战是判断说话人是否带了面罩。在所有这些任务中,所提整体模型表现都优于单一E2E模型。在呼吸挑战中,参赛团队研究了多损失策略对任务绩效的影响。在高龄挑战中,预测效价和唤醒水平会促使研究多任务训练并实施数据采样策略以解决类不平衡问题。在面具挑战中,研究者使用不带特征工程的端到端系统要比特征工程基线更具竞争优势,并且与特征工程基线结合使用时可以大大提高收益。最后,本期还包含1个新构造的数据集[19],2篇综述[25-26],以及其他技术。计算机视觉ComputerVision[1]LearnableGraphInceptionNetworkforEmotionRecognitionA.Shirian,S.Tripathi,T.Guha摘 要:
上一篇文章: 脑性瘫痪的评估与康复 下一篇文章: 痉挛性斜颈怎样解决能够标本兼治
原 文:
转载请注明:http://www.iogko.com/wazz/8225.html