北京自主可控语音关键事件检测服务标准

来源：发布时间：2024年01月10日

将w2与w4进行横向拼接得到终的语义表示w3，w3的维度可以为[n,2*d1]。在本申请的示例性实施例中，自注意力机制计算具体可以包括：将w2分别进行多次(如三次)线性变换得到w21、w22、w23,然后可以执行矩阵相乘运算得到w4＝(w22*w23t)*w21，w3＝w2||w4。s105、对所述新的语义表示w3进行span分类，确定每个span是否为一个事件的触发词或事件主体。在本申请的示例性实施例中，所述对所述新的语义表示w3进行span分类可以包括：使用两层全连接神经网络和softmax层对每个span进行分类；其中，在训练阶段，将分类结果与带有标记的span进行误差计算和反向传播。在本申请的示例性实施例中，得到步骤s104的span的表示w3后，可以使用两层全连接神经网络和softmax层对span进行分类。在本申请的示例性实施例中，如果如步骤s101中所述，预先对数据进行了预处理，即预先对数据进行了span分类和标记，则在训练阶段，可以将分类结果与预处理过程所得的带有标记的span进行误差计算和反向传播，并进行参数更新操作完成训练过程。在本申请的示例性实施例中，在预测阶段，根据分类的结果即可得到每个span的类型。softmax的输出是每个span所属对应类型(预处理过程获得的带类型标记的span)的概率。语音关键事件检测和摄像头有联系吗?北京自主可控语音关键事件检测服务标准

第二类图像中各个图像均为：基于每两帧连续的关于目标防护舱且包括目标对象的图像获取的光流图。具体的，在本实现方式中，第二类图像为：包括光流图和光流图之前的连续n帧光流图的多张图像；其中，n为正整数；或者，第二类图像为：光流图。也就是说，在本实现方式中，电子设备可以将所获得的光流图确定为待分析图像；此外，在获取到光流图后，电子设备可以判断光流图之前的连续n帧光流图是否均是基于每两帧连续的关于目标防护舱且包括目标对象的图像获取的，当判断结果为是时，电子设备也可以将包括光流图和该连续n帧光流图的多张图像确定为待分析图像。这样，用于确定当前时刻，关于目标防护舱的事件检测结果的待分析图像为多张，可以更充分地反映目标防护舱中用户的运动变化情况，进而提高事件检测的准确率。其中，n可以为任一正整数，例如，5，10等。基于上述对步骤s304中的说明中，对检测模型模型的描述内容，可以确定不同类型和数量的待分析图像，所利用的检测模型不同。进一步的，针对不同的待分析图像，则上述步骤s304的实现方式不同。下面，针对不同类型和数量的待分析图像，对上述步骤s304的具体执行方式，以及待分析图像与检测模型之间的对应关系进行举例说明。海南无限语音关键事件检测设计语音关键事件检测在国际上的运用如何？欢迎咨询！

比如人名、地名、组织机构名、时间等。4、事件检测与主体抽取：事件检测与主体抽取即为同时抽取事件的触发词和事件的主体。5、注意力机制：注意力机制的本质来自于人类视觉注意力机制。当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。在计算某一序列表示时，注意力机制可以获得权重和序列位置的相关性。6、自注意力机制：自注意力机制是对注意力机制的改进，减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性，无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构。7、span：span可认为是“一段区域，每个span具有一定的宽度”，就是对一段话进行固定长度的选取，比如一句话“我吃了面包，喝了牛奶”，如果span的宽度为2，则可以得到片段“我今”、“”、“天吃”等。8、span的划分：span的划分是指根据设定的span的大宽度，从小到大依次进行划分。比如span大宽度为8，则span的宽度为1-8，分别进行划分，可以得到多个span。9、span的分类：span的分类是指通过模型或特定的方法判断一条数据所属的类型即标签，一般而言，分类任务中的每条数据只属于一个类别。

确定当前时刻，关于目标防护舱的事件检测结果。需要说明的是，电子设备可以通过多种方式执行上述步骤f23，对此本发实施例不作具体限定。为了行文清晰，后续对上述步骤f23的具体实现方式进行举例说明。显然，在本实施例三中，采用多种数据来确定检测关于目标防护舱的事件检测结果，使得到的事件检测结果更可靠，且具有说服力，从而可以提高对防护舱内用户出现异常事件的检测准确率。其中，由于类图像可能为：当前帧图像和当前帧图像之前的连续m帧图像的多张图像，也可能为：当前帧图像；第二类图像可能为：包括光流图和光流图之前的连续n帧光流图的多张图像，也可能为：光流图。因此，在本实施例三中，待分析图像和辅助图像，以及分别对应的场景图像检测模型和光流图检测模型，也可能存在多种情况。具体的：种情况：待分析图像为：当前帧图像和当前帧图像之前的连续m帧图像的多张图像；场景图像检测模型为：采用各个样本图像组和每个样本图像组的事件检测结果所训练得到的模型，且每一样本图像组中包括m+1帧场景图像；辅助图像为：包括光流图和光流图之前的连续n帧光流图的多张图像。语音关键事件检测技术能够识别音频中的特定声音模式，如掌声、笑声或特定词汇。

光流图检测模型为：采用各个第二样本图像组和每个第二样本图像组的事件检测结果所训练得到的模型，且每一第二样本图像组中的图像与待分析图像的图像数量相同，各个第二样本图像组中的图像为：关于防护舱的光流图。具体的，当待分析图像为：包括光流图和光流图之前的连续n帧光流图的多张图像，则光流图检测模型为：采用各个第二样本图像组和每个第二样本图像组的事件检测结果所训练得到的模型，且每一第二样本图像组中包括n+1帧光流图。其中，针对至少一个防护舱，在该防护舱中发生各类事件时，获取n+1帧关于该防护舱的光流图，这样，该n+1帧光流图便可以组成一个第二样本图像组，并进一步确定该第二样本图像组的事件检测结果为：获取该n+1帧光流图时，该防护舱内发生的事件类型。具体的，当待分析图像为：光流图，则光流图检测模型为：采用各个第二样本图像和每个第二样本图像的事件检测结果所训练得到的模型，且每个第二样本图像为一帧光流图。其中，针对至少一个防护舱，在该防护舱中发生各类事件时，获取一帧关于该防护舱的光流图，并将获取该光流图时，该防护舱内发生的事件类型作为该光流图的事件检测结果，这样。在语音合成中，语音关键事件检测可以用于提取和合成特定情感或风格的语音片段。北京自主可控语音关键事件检测服务标准

语音关键事件检测就找鱼亮科技，服务体系完善！欢迎来电咨询！北京自主可控语音关键事件检测服务标准

基于光流图检测模型输出的检测结果，确定关于目标防护舱的事件检测结果，可以包括以下步骤g21-g23：步骤g21：将至少包含当前帧图像的类图像确定为辅助图像；步骤g22：将辅助图像输入到预设的场景检测模型中，得到场景检测模型输出的检测结果；步骤g23：将场景图像检测模型输出的检测结果和光流图检测模型输出的检测结果进行融合计算，基于融合计算的结果，确定当前时刻，关于目标防护舱的事件检测结果。其中，关于类图像的相关描述内容、场景检测模型的相关描述内容、场景图像检测模型输出的检测结果和光流图检测模型输出的检测结果进行融合的融合过程等，可以参见上述的以第二类图像作为辅助图像时的相关描述内容。相对应上述本发明实施例提供的一种事件检测方法，本发明实施例还提供了一种事件检测装置。图6为本发明实施例提供的一种事件检测装置的结构示意图，如图6所示，该装置可以包括如下模块：图像获取模块610，用于实时获取关于目标防护舱的图像，并将当前时刻所采集到的图像作为当前帧图像；图像检测模块620，用于检测当前帧图像是否包含目标对象，其中，目标对象为：能够表征用户进入目标防护舱的用户身体部位；如果是，触发图像确定模块；图像确定模块630。北京自主可控语音关键事件检测服务标准

标签：语音识别 USB声卡语音服务麦克风阵列 ENC降噪

上一篇： 天津数字语音关键事件检测介绍

下一篇： 海南电子类语音关键事件检测特征

商机详情 -

北京自主可控语音关键事件检测服务标准

扩展资料

语音关键事件检测热门关键词

语音关键事件检测企业商机

语音关键事件检测行业新闻