字节跳动最新新闻中文，字节跳动检索工作好干吗

来源：网络浏览：12 2022-11-10 10:21:02

智东西(公号( zhidxcom ) ) )。

编辑| ZeR0

据智东西6月1日报道，近日，字节跳动火山语音团队最新音乐检索系统ByteCover2入选国际语音技术领域顶级会议ICASSP 2022。

该系统主要面向音乐信息检索( MIR )领域的重要任务之一——覆盖识别( CSI )，具有通过特征学习方法提取音乐中心特征的能力，且该特征对多种音乐的再演绎具有较强的鲁棒性

通过在Da-Tacos数据集上的评估，其准确率远远超过其他方案的SoTA性能。

除ByteCover2外，字节跳动火山语音团队还有多篇收录在ICASSP 2022中的论文，涵盖了智能音乐、语音合成、语音理解、超级大脑等多个方向。

另一方面，盖识别：设计隐式嵌入的低维化方法的盖识别通常需要对于音乐中一些常见变化具有鲁棒性，从而确保系统集中于音乐旋律方向的建模。在设计翻盖识别系统时，通常重点考虑三种类型的音乐变化：音调偏差、音乐结构变化、音乐节奏变化。

此外，每天都有千万量级的用户在抖音平台上发帖，如何快速响应海量查询需求，提高整个识别系统的吞吐量，同时确保识别的准确性也是亟待解决的问题。

在内部开发回厂识别时，字节跳动面临着另一个挑战，在设计特征时，如何在保障其他性质的前提下，尽量减小特征的大小，从而减少存储空间，降低系统的复杂度和成本。

在ByteCover2系统中，字节跳动火山语音团队通过多任务学习范式结合ResNet-IBN模型，实现从语音输入中提取鲁棒且有区别的矢量表示。针对效率优化问题，团队还提出了PCA-FC模块，实践证明该模块可以在一定程度上提高ByteCover2模型性能的基础上，将矢量大小压缩到ByteCover1的1/8。

Bytecover模型的结构和训练过程

1、多任务学习提高音乐检索能力

覆盖识别领域通常存在多分类学习和度量学习两种训练范式。

前者视为每道独立类别，在特征层后加入全连通层，通过交叉熵等分类损失对模型进行训练，训练完成后去除全连通层，使用特征层的输出作为歌曲特征；后者在特征层上直接使用triplet loss等度量学习丢失训练网络。

总体来看，两种训练范式各有优劣。团队通过实验发现，分类损失可以提高同一首歌不同风格版本的模型检索能力，精细设计的测量学习损失可以提高覆盖网络对相似风格不同歌曲音乐的区分能力。

因此，ByteCover系列模型将这两种学习范式结合起来，通过引入BNNeck模块，提高了两种损失的兼容性。

2、ResNet网络和IBN正则化方法( resnet instance-batch normalization ) )。

为了简化音乐特征提取流程，加快特征提取速度，团队使用CQT谱图作为模型输入，不使用同步其他覆盖识别方法中常用的cremaPCP和其他更复杂的特征，但这种设计自然在输入特征水平上抵御了模型声音的频繁移动

为此，团队选择卷积神经网络作为音乐特征提取网络，期望利用卷积网络的平移不变性实现模型相对于频移的不变性。

实验证明，CQT谱的一般ResNet组合在效率和性能上已经超过了CremaPCP CNN的设计。

进一步探索，团队引入了即时归一化，从网络隐性表达的层面出发，将与风格无关的音乐特征(即特征图上不同声道之间的均值方差等统计量)与输入的风格化特征相关联IN通过对特征图的通道维数进行归一化，在一定程度上实现了对隐藏特征层次上的风格化信息的去除，提高了覆盖识别模型对音色变化的鲁棒性。

3、特征降维模块( PCA-FC ) ) ) ) ) ) ) ) ) )。

据测算，团队发现工业级覆盖系统大部分集中在特征检索阶段，但该阶段的时间消耗基本与曲库大小和特征向量大小呈线性相关。由于曲库内的歌曲数量随着业务的发展而增加，所以缩小特征向量的大小是优化整个检索系统需要花费时间的必由之路，但是在缩小同期其他覆盖向量特征的工作中，为了将高维向量投影到更低维度的空间中，采用了全连接层

实验结果表明，单纯使用全连结层降维会显著降低系统的检索能力。小组认为，这种现象不仅是由于更小的尺寸限制了向量的表达能力，性能的损失也是由于随机初始化的所有连接层对特征各向同性的破坏。

随后对数据进行可视化，结果表明降维后特征分布在圆锥空间，表现出明显的各向异性，不利于以余弦距离为度量的矢量检索。

为此，团队使用PCA对特征向量进行降维操作，然后使用PCA的变换矩阵对所有连接层进行初始化，将该层与特征提取网络连接，进行协同训练，将模块称为PCA-FC。

实验结果表明，PCA-FC能显著提高降维模型的检索性能，在保持检索性能的前提下将向量大小压缩8倍。

比较结果

从结果来看，Da-Tacos一直是评估覆盖识别的标准测试数据集，该数据集使用1536维ByteCover2模型远远超出了其他方案的SoTA性能，全类别平均正确率指标[map]

有趣的是，128维的ByteCover2模型超过了2048维的ByteCover1和Re-MOVE方法。

此外，ByteCover1系统还参加了2020年国际音频检索评测大会MIREX，大幅刷新了覆盖识别课程的历史最高纪录。 mAP指标达到84%，是同年参加的其他程序性能的1.4倍。

二、智能音乐：提高音乐碎片筛选效率，创新的自监控音乐预训练算法是智能音乐方向，基于字节跳动火山语音团队Transformer的语音事件检测模型HTS-AT、分层Transformer的自监控音乐预训练算法S3T

1、HTS-AT )语音分类与检测的分层标记语义语音

HTS-AT针对音频任务的特性，该结构能有效提高音频频谱信息在深度Transformer网络中的流动效率，提高模型对语音事件的判别能力，并且通过降低输出特性图的大小，显著降低模型的计算量和内存消耗HTS-AT还引入了Token Semantic模块，该模块具有预测语音时间起点和终点的能力，无需使用附加注释数据进行训练。

HTS-AT模型的结构

综合以上技术，HTS-AT标准数据集AudioSet下的mAP指标达到0.471，是当前该数据集的最佳水平，参数和计算量比以前的最佳方法小；另外，在语音事件定位任务中，HTS-AT无需额外标注数据，达到了监控定位模型的性能水平。

在音乐识别场景中，语音事件检测模型选取包含音乐的片段发送到音乐检索系统，以提高整个系统的效率和准确性。

2、S3T )针对音乐分类的基于Swin Transformer的自我监控预训练

该文提出了一种创新的基于分层Transformer的自我监控音乐预训练算法S3T。

S3T通过大规模音乐预训练和配合少量标签数据微调的范式，充分利用大量无标签音乐数据，挖掘时域和频域信息，学习具有较强泛化性的通用音乐特征。 S3T在许多下游任务中取得了很好的效果，特别是只需使用10%的标记数据进行微调，就可以超过传统的全量标记数据训练的模型，大大降低了人工数据标记的成本。

S3T模型的结构和训练流程

音乐自我监控学习可以在不使用大量人工标签的情况下利用大量音乐数据充分挖掘自身特征，而且具有很强的通用性。本论文提出的音乐表达是自我监督学习，为理解音乐奠定了基础。

S3T目前已应用于音乐标签、音乐指纹等场景，微调后的S3T可以为音乐添加风格、语言、情绪等标签，可信的音乐标签还服务于音乐推荐系统，适合来自不同地区的用户

三、语音合成：在实现数字人个性化穿搭和场景自由的语音合成方向上，字节跳动火山语音团队基于服装风格变迁实现场景识别的人物视频生成论文收录于ICASSP 2022。

该方向致力于解决视频中人物的个性化穿着和背景场景的自由选择问题，设计了多个encoder学习人物的不同属性(身份、衣服、姿势)，通过共享decoder融合多层信息。

与图像任务不同，视频需要学习帧之间的变化，因此团队设计了帧间鉴别器( Inner-frame Discriminator )来大幅提高稳定性。具体而言，可以对模型生成的结果应用蒙版，将人物切换到任意场景。

公共数据集TEDXPeople显著改善了baseline系统( CVPR2021 )视频中许多衣服个性化的客观指标，并获得了SOTA效果。 SSIM 0.047、PSNR 4.6、FID (越小越好)-0.4、FVD ) )越小越好)-0 ) 0

场景感知的服装风格转移模型框架

在数字人多模式生成的场景和业务中，数字人主播衣服的个性化穿搭和场景的自由选择，为用户提供了自主可控的个性化能力，可以大大提高数字生活的多样性。

四.语音理解：提升语音识别定制性能，在语音理解方向优化数据标注质量。字节跳动火山语音团队基于细粒度语境知识选择的端到端(语境)语音识别提升方法、非自回归Transformer自动语音识别的最小单词误差训练、利用梯度屏蔽改进端到端语音识别的伪标签训练论文收录在ICASSP 2022中。

另外，针对会议场景，火山语音团队在ICASSP 2022多方会议转录挑战( M2MeT )的两个限定训练数据子课程中获得了第二名和第四名。

1 .基于细粒度语境知识选择的端到端(语境)语音识别增强方法

该工作基于被称为合作解码、编码EC (语音识别定制/个性化方法)的细分语境知识选择机制在以前试图加强该方法的大热语工作中，被称为Collaborative Decoding的语音识别定制化技术有效地提高了定制化的识别性能。

本文针对热门词列表和多种干扰热门词情况下的性能衰减问题，提出了细粒度上下文知识选择机制，进一步增强了定制场景下协同解码技术的能力。

在公共数据集Librispeech中，该方法基于基础CIF语音识别模型的test-clean 2.12%的WER，并基于导致WER的相对降低约5%的内部16w时间工业级ASR数据集训练的语音识别模型，该方法实际上基于

a .协同解码b .细粒度语境知识选择

在应用场景中，该方法可用于语音识别定制。例如，在智能语音助手和在线视频会议等应用场景中，很难识别与背景相关的关键短语、个性化信息、热词等多项内容。

它还可用于移动终端智能语音助手APP场景中的个性化信息，如联系人列表中的联系人姓名、频繁出没的位置等；在线会议场景中，这些客户包括参与者姓名、会议主题术语等

2、非自回归Transformer自动语音识别的最小词误差训练

这篇论文是由字节跳动和南洋理工大学( NTU )共同完成的。近年来，基于非自回归transformer(NAT )的自动语音识别( ASR )框架的以下优点在于“当前输出与历史输出无关”和“其推理速度非常快”，因此越来越受到业界的重视。

与此相对，团队期待着在语言代码转换语音识别任务( CSSR )中的性能。另外，虽然不完全清楚，但似乎没有将最小单词错误率( MWER )准则应用于NAT模型的例子，所以这项工作在一定程度上填补了这个空白，并在SEAME语码转换数据集上进行了验证。

本文的贡献主要是两个方面： (1)提出了在语码转换场景下，采用多种CTC屏蔽方式训练NAT模型； )2)在MWER训练准则下，提出了几种N-best假设的生成方法。

其发现和结论如下： (1)无论是单一语言还是不同语言，上下文相关的场景信息都非常重要，但NAT中没有历史信息，NAT模型得到了比自回归的transformer(at )一致性更差的结果。 )2)严重受限于N-best假设的生成方法，在NAT模型中进行基于N-best的MWER训练只能得到很小的提高，因此如何生成更丰富的N-best还有待进一步研究。

3、使用梯度屏蔽改进端到端语音识别的伪标签训练

传统上，伪标签是自监控学习中最重要的方法，最近在语音识别领域也表现出了很好的效果，但自监控学习对伪标签的质量极为敏感，主要是由于伪标签的错误和噪声导致模型训练不稳定，最终收敛到非最优状态特别是e2e的模型，例如RNNT。

为了处理这些问题，这篇论文提出了Gradient-mask的方法。该方法在训练过程中消除了encoder可见input的相应梯度，鼓励从模型的不可见部分进行估计，可以有效降低模型对corrupted label的overfit。

在应用场景中，该方法可以有效应对模型overfit到corrupted label，提高模型训练的效果。例如，在半监督自学习中，已知由于domain不是match等原因导致仿真标签的质量太差，或者部分数据标记的质量太差。

4、ICASSP 2022多边会议转录挑战的火山语音系统

会议场景是语音识别和说话人日志技术应用中最有价值和挑战的场景之一，会议场景包含丰富的说话风格和复杂的声学条件，需要考虑重复语音、未知数量的说话人、远程信号、噪声、混响等挑战。

icassp 2022多通道交换通道( m2met )提供实际记录的中文会议数据达120小时。这包括8通道麦克风的远程现场数据和通过相应的耳机麦克风收集的近距离现场数据。 M2MeT挑战赛包括多说话者语音识别和说话者日志两个课程，团队在限定训练数据的子课程中分别获得了第二名和第四名。

针对多话者语音识别课程，团队提出了神经网络前端模块和语音识别模块的端到端协同训练方法，输入8通道语音输出多话者识别文本，除此之外加入丰富的8通道数据仿真

在说话人日志课程中，结合前端信号处理技术，团队提出了融合声源定位信息的说话人日志方法，提高了识别精度，并针对竞赛数据中存在的说话人重复问题，提出了减少重复部分说话人漏检的多通道融合算法。使用最后修改的DOVER-Lap算法融合多个系统，最终测试集中的DER (说话者日志错误率)比官方基线降低了53.7%。

该技术可以用于在会议室的多声道麦克风场景中生成包含说话者信息的多说话者语音转录结果。

五.超脑方向：单模型支持跨语言语音识别，在超脑方向降低部署维护成本。火山语音团队基于稀疏共享子网的跨语言语音表达学习论文收录在ICASSP 2022中。

在该工作中，提出了一种基于稀疏共享结构的多语言语音表达学习方法，通过从模型中分割多个稀疏子网分别对不同的语言进行建模，实现语言自适应训练，每个语言的子网通过裁剪提取不重要的参数。

在此基础上，本文探索了一种基于彩票假说的提取方法和另一种基于一阶泰勒展开的快速提取方法。在下游多语言语音识别任务中，提出的方法可以大大降低基线XLSR模型的错误率，超过Gating Network、Adapter等其他自适应训练方法。

基于稀疏共享结构的多语言预训练过程

在国际化背景下，为了满足不同语言的字幕、审核、翻译等需求，有必要针对各种语言建立语音识别系统。多语言语音识别的目标是通过一个模型支持多种语言的语音识别，关键是有效降低部署和维护的成本，在低资源场景下提高识别效果。

结语： AI语音在业务场景中发挥更大价值的字节跳动火山语音团队是原字节跳动的AI Lab Speech Audio智能语音和语音团队，致力于为公司各项业务提供语音理解、语音合成、会话交互、音乐搜索和智能教学等AI能力和方案。

自2017年成立以来，字节跳动火山语音团队开发的AI智能语音技术，为今日头条、嘀嗒、剪彩、西瓜视频(西瓜视频)、西红柿小说、飞书工具包等字节跳动重量级产品提供各种AI解决方案

目前，该团队正在为数百个商业伙伴提供服务。随着字节跳动业务的快速发展，其语音识别和语音合成覆盖多种语言和方言，已有多篇论文入选各类AI高层会议，我们希望今后继续发展70种语言和20种方言以满足内容创建和交流平台的需要随着字节跳动火山语音团队不断探索AI与业务场景的有效结合，我们期待智能语音技术实现更大的用户价值。