• 2024-08-23基于重要性加权的LLM自我改进:考虑分布偏移的新框架
    LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。论文的主要贡献如下:提出了一个称为