2023-S2 AI6126项目2盲脸超分辨率
项目2规范(版本1.0。最后更新日期:2024年3月22日)重要日期发布时间:2024年3月22日测试集发布时间:2023年4月19日上午12:00到期时间:2023年4月26日下午11:59组策略这是一个单独的项目延迟提交政策逾期提交将受到处罚(每天5%,最多3天)挑战描述图1。盲人面部修复示意图
这个小型挑战的目标是从损坏的低质量(LQ)的(见图1)[1]。此任务的数据来自FFHQ。针对这一挑战,我们提供了一个小型数据集,该数据集由5000个HQ组成用练的图像和用于验证的400个LQ-HQ图像对。请注意,我们没有提供训练集中的LQ图像。在培训过程中,您需要通过使用随机二阶退化管道[1](见图2)。此管道包含4种类型
退化的数量:高斯模糊、下采样、噪波和压缩。我们将给出每个退化函数的代码以及退化的示例config供您参考。图2:培训期间的二阶退化管道示意图
在验证和测试过程中,算法将为每个LQ人脸生成HQ图像形象输出质量将根据PSNR指标进行评估在输出和HQ图像之间(测试集的HQ图像将不会发布)。评估标准
在这项挑战中,我们将对您的成绩进行定量评估,以便得分。定量评估:
我们将在给定的400上评估和排名您的网络模型的性能基于PSNR的LQ人脸图像合成测试。
你的解决方案排名越高,你得到的分数就越高。一般来说分数将根据下表进行评定。
百分比
在排名中
≤ 5% ≤ 15% ≤ 30% ≤ 50% ≤ 75% ≤ 100% *得分20 18 16 14 12 10 0
笔记:
● 如果解决方案有趣或
小说
● 为了获得更自然的HQ人脸图像,我们还鼓励学生
在训练期间尝试使用具有GAN的鉴别器损失。请注意
鉴别器丢失将降低PSNR分数,但使结果看起来更像
自然的因此,您需要仔细调整GAN权重以找到一个折衷方案在PSNR和感知质量之间。您可以获得奖励分数(最多2分标记),如果你在6个真实世界的LQ图像上获得了突出的结果,由两个轻微模糊、两个中度模糊和两个极度模糊组成
模糊的测试图像。(真实世界的测试图像将与400一起发布测试集)[可选]
● 如果提交的文件不完整,例如重要文件,则将扣除分数部分核心代码丢失,或者您没有提交简短报告。
● TA将回答有关项目规范或歧义的问题。对于
与代码安装、实现和程序错误相关的问题,TA
只会为您提供简单的提示和指针。
要求
● 下载数据集、基线配置文件和评估脚本:此处
● 使用我们提供的培训套件来培训您的网络。
● 使用我们提供的验证集调整超参数。
● 您的模型应包含少于2276356个可训练参数,这些参数是SRResNet[4](您的基线网络)中可训练参数的150%。您可以使用
● sum(模型中p的p.numel()。parameters())以计算网络中的参数数量
参数仅适用于使用GAN的生成器。
● 测试集将在截止日期前一周提供(这是常见的
主要计算机视觉挑战的实践)。
● 此迷你中不允许使用外部数据和预先训练的模型
挑战您只能使用
在我们给定的训练集中有5000个图像对。
提交指南
在CodaLab上提交结果
我们将在CodaLab上举办挑战赛。您需要将结果提交给CodaLab。请遵循以下指导原则以确保您的结果成功
记录。
● CodaLab竞赛链接:
https://codalab.lisn.upsaclay.fr/competitions/18233secret_key=6b842a59-9e76-47b1-8f56-2833c5cb4c82b● 使用您的NTU电子邮件注册CodaLab帐户。● [重要信息]注册后,请在谷歌中填写用户名
类型https://forms.gle/ut764if5zoaT753H7● 将400张测试图像上的模型输出人脸图像作为zip提交文件将结果放在子文件夹中,并使用与原始文件相同的文件名测试图像。(例如,如果输入图像命名为00001.png,则您的结果也应命名为00001.png)
● 您可以多次提交结果,但每天不超过10次。
你应该在期末报告中报告你的最佳成绩(基于测试集)。● 有关提交的操作说明,请参阅附录A
CodaLab上的程序(如果需要)。
提交NTULear报告
提交以下文件(所有文件都在一个以你的录取通知书编号命名的zip文件中,例如。,A12345678B.zip)在截止日期前发送至NTURearn:● pdf格式的不超过五页A4纸的简短报告(单列,单行间距,Arial 12字体,页数限制不包括封面和参考文献)来描述您的最终解决方案。报告必须包括
以下信息:
○ 您使用的模型
○ 损失函数
○ 训练曲线(即损失)
○ 6张真实世界LQ图像上的预测HQ图像(如果您尝试训练中的对抗性损失)
○ 验证集上模型的PSNR
○ 模型的参数数量
○ 训练机的规格,例如GPU的数量、GPU型号
您还可以包括其他信息,例如任何数据处理或
用于在报告中获取结果的操作。
● 您的模型在400上的最佳结果(即预测的HQ图像)测试图像。并在Codalab上实现了分数截图。
● 您的所有必要代码、训练日志文件和模型检查点(权重)提交的模型。我们将使用结果来检查抄袭行为。
● Readme.txt包含以下信息:
○ 你的录取号码和你的CodaLab用户名。
○ 您提交的文件的说明。
○ 对您在解决方案中使用的第三方库的引用
(如果未使用任何一个,请留空)。
○ 你想让测试你的解决方案的人知道的任何细节
他们测试您的解决方案,例如,运行哪个脚本,以便我们检查如果必要的话,你的结果。
提示
1.对于这个项目,您可以使用Real ESRGAN[1]代码库,它基于在实现许多流行图像恢复的BasicSR工具箱上
方法采用模块化设计,并提供了详细的文档。
2.我们包含了一个示例Real ESRGAN配置文件(一个简单的网络。,SRResNet[4])作为共享文件夹中的示例。[重要]您需要:a.将“train_SRResNet_x4_FFHQ_300k.yml”放在“options”代 写 AI6126项目2盲脸超分辨率 文件夹下。b.将“ffhqsub_dataset.py”放在“realesrgan/data”文件夹下。该基线在验证集上的PSNR约为26.33 dB。
3.关于PSNR的计算,可以参考共享文件夹中的“evaluate.py”。您应该将相应的路径“xxx”替换为自己的路径。
4.训练数据在这项任务中很重要。如果您不打算使用MMEditing对于这个项目,请确保您生成LQ数据的管道是
与配置文件中的相同。
5.在Real ESRGAN中也提供了GAN模型的训练配置和BasicSR。您可以自由地浏览存储库。
6.以下技巧可以帮助您提高性能:
a.数据扩充,例如随机水平翻转(但不使用垂直翻转
翻转,否则会破坏面部图像的对齐)
b.更强大的模型和骨干(在复杂性范围内
约束),请参阅参考中的一些作品。
c.超参数微调,例如优化器的选择、学习
速率,迭代次数
d.辨别性GAN损失将有助于产生更自然的结果(但它降低了PSNR,请通过调整损失权重来找到折衷方案)。e.思考这个数据集的独特之处,并提出新的模块。