CTC的训练与推理之Greedy Decoder, Beam Search，CTC Loss, RNNT Loss

时间：2023-01-09 22:12:30浏览次数：49

标签：Loss Search inputs pred decoder token CTC tf inf

模型流程：t时刻输入x(t)，t-1时刻输出y`(t-1), t时刻的输出y`(t)为：由x(t)和y`(t-1)作为输入得到的预测值
训练：采用Teacher Forcing的策略，在t时刻，并不是使用上一时刻的预测值y`(t-1)作为输出，而是把实际的label即y(t-1)作为输入。
输出y`(t)为是所有token的概率分布(embedding)，label即y(t)相当于一个One-hot向量, 两者通过交叉熵计算损失。
推理：采用Greedy Decoder, Beam Search搜索策略，在t时刻，使用上一时刻的预测值y`(t-1)和x(t)作为输出，预测输出y`(t)。
但是由于上一时刻的输出y`(t-1)是token的概率分布(embedding),Greedy Decoder每次预测时使用概率值最大值对应的id，Beam Search每一步都保留beam_size个最大值。

注意：

这里的Greedy Decoder, Beam Search好像与tf的tf.nn.ctc_greedy_decoder, tf.nn.ctc_beam_search_decoder不同，tf的输入是所有时刻的输出概率，在该矩阵上进行搜索。

tensorflow:

# 1 tf.nn.ctc_greedy_decoder
inf = float("inf")
logits = tf.constant([[[   0., -inf, -inf],
                       [ -2.3, -inf, -0.1]],
                      [[ -inf, -0.5, -inf],
                       [ -inf, -inf, -0.1]],
                      [[ -inf, -inf, -inf],
                       [ -0.1, -inf, -2.3]]])
seq_lens = tf.constant([2, 3])
outputs = tf.nn.ctc_greedy_decoder(
    logits,
    seq_lens,
    blank_index=1)


#2 tf.nn.ctc_beam_search_decoder
tf.nn.ctc_beam_search_decoder(
    inputs, sequence_length, beam_width=100, top_paths=1
)

实际的GreedyDecoder：

def GreedyDecode(self, inputs, inputs_length):
    
    batch_size = inputs.size(0)

    enc_states, _ = self.encoder(inputs, inputs_length)

    zero_token = torch.LongTensor([[0]])
    if inputs.is_cuda:
        zero_token = zero_token.cuda()

    def decode(enc_state, lengths):
        token_list = []
        dec_state, hidden = self.decoder(zero_token)

        for t in range(lengths):
            logits = self.joint(enc_state[t].view(-1), dec_state.view(-1))
            # out = F.softmax(logits, dim=0)
            # pred = torch.argmax(out, dim=0)
            out = F.log_softmax(logits, dim=0)
            prob, pred = torch.max(out, dim=0)
            pred = int(pred.item())

            if pred != 0:
                token_list.append(pred)
                token = torch.LongTensor([[pred]])

                if enc_state.is_cuda:
                    token = token.cuda()

                dec_state, hidden = self.decoder(token, hidden=hidden)

        return token_list

    results = []
    for i in range(batch_size):
        decoded_seq = decode(enc_states[i], inputs_length[i])
        results.append(decoded_seq)

    return results

标签：Loss,Search,inputs,pred,decoder,token,CTC,tf,inf
From： https://www.cnblogs.com/3511rjzn/p/17038668.html

ElasticSearch的基本使用
1、ElasticSearch基本介绍TheElasticStack，包括Elasticsearch、Kibana、Beats和Logstash（也称为ELKStack）。能够安全可靠地获取任何来源、任何格式的数据，然后实时地......
ElasticSearch集群搭建
一、调整内核参数vim/etc/sysctl.confvm.max_map_count=262144vim/etc/security/limits.confsoftnofile65536hardnofile65536sysctl-p二、解压文件tar-z......
Java中Elasticsearch 实现分页方式(三种方式)
目录ES简介ES的特点：一、from+size浅分页二、scroll深分页scroll删除三、search_after深分页ES简介Elasticsearch是一个基于Lucene实现的......
重学ElasticSearch (ES) ：ELK搭建SpringBoot日志实时分析系统
一、概述在一个大型的分布式架构的项目里，不同的服务模块部署在不同的服务器上，如果想要定位问题，可能需要去不同的服务器上查看不同服务的日志。那么，ELK可以很方便的把日志集......
Redis查询之RediSearch和RedisJSON讲解
目录1Redis查询1.1RedisMod介绍1.2安装Redis1.3RediSearch+RedisJSON安装1.3.1下载安装1.3.2修改配置1.4RedisJSON操作1.4.1基本操作1.4.1.1保存操作JSON.SET1.4.......
【Kotlin 协程】协程中的多路复用技术 ② ( select 函数原型 | SelectClauseN 事件 |
文章目录一、select函数原型二、Selectclause事件1、SelectClause0事件代码示例2、SelectClause2事件代码示例三、查看挂起函数......
ubuntu 安装elasticsearch
elasticsearch简介环境准备 elasticsearch：7.0.0 kibana ：7.0.0 安装 1.新创建普通用户 elasticsearch不能用root账号启动，为了避免之后......
windows下springboot项目部署elk日志系统教程elasticsearch与logstash与kibana
1.项目中加入依赖：compile'net.logstash.logback:logstash-logback-encoder:6.0'如果是maven项目的话：字符串中的冒号为隔断，第一个为groupid，第二个为artifactId，第三个为versi......
（四）elasticsearch 源码之索引流程分析
1.概览前面我们讨论了es是如何启动，本文研究下es是如何索引文档的。下面是启动流程图，我们按照流程图的顺序依次描述。其中主要类的关系如下: 2.索引流程......
elasticsearch之单请求多查询
一、需要解决的问题有的时候我们需要同时执行多个查询，并且需要得到每个单独查询的搜索结果，elasticsearch提供了multisearch此需求的支持；二、elasticsearchmultisearch......

CTC的训练与推理之Greedy Decoder, Beam Search，CTC Loss, RNNT Loss

相关文章

赞助商

阅读排行