小轶:这真的是白鹡鸰写的
作为21世纪新时代人格健全,精神独立,心理健康的有志青年,总有那么几个时刻,会让我们情不自禁,眼泪从嘴角流下地呐喊着:
“我是XXX的狗!”
啊!这诚恳、真挚,热烈的情感真是令人动容!如此质朴的愿望,纯洁的心意,怎么能只是口头说说,而不进行实践呢?四肢着地匍匐前进确实不太符合人类的身体构造,但是狗叫呢?狗叫还是很容易的吧?
我们善解人意的岛国邻居,充分理解了羞涩内敛的大家,迫于矜持无法拉下面子狂吠的心理,于是,由日本学术振兴会赞助,立命馆大学隆重推出了“我不做人了!”任务第一弹:人狗语音转换!如何?惊不惊喜?意不意外?
论文题目:
Speak Like a Dog: Human to Non-human creature Voice Conversion
论文链接:
https://arxiv.org/abs/2206.04780
在看到这个任务的第一眼,我还试图用凡人的思路去揣测它的逻辑,还认真思考了一下目前动物语言学的发展程度。难道研究者已经完全理解了狗的语言,发现了它们真的有如此丰富的词汇,并且能够将人类的语言与之一一对应地翻译了?为什么人类的语言之间都还没有做到的事情,却能在人狗之间实现?怀揣着对黑科技的憧憬,我打开了论文。
对不起,是我唐突了。这是一个纯粹而高尚的变声任务。
任务的输入是人声音频,输出是合成的狗叫音频。数据音源中,包含503段人类的声音,自收集了成年犬792段和幼崽288段叫声。论文采用音频合成领域经典的StarGAN和ACVAE作为benchmark,并设计了三个主观定性指标:输出音频和狗叫声的相似度,音频质量,声音清晰度;还有一个量化指标,角色偏差程度用于评估模型的效果。目前为止,benchmark在测试中遥遥领先。
有没有可能,这是诡计多端的科研人员的新式诈骗经费方法?不,绝不可能!请不要以如此肤浅的想法来揣测这篇论文的作者们!他们雄心壮志,要建立“我不做人了!”系列任务的发布范式。你看,新鲜的数据集,完整的评估体系,健全的benchmark,这已经达成了一个新研究挑战的必备条件了啊!只要沿着这个模版一路走下去,未来Speak like a cat,Speak like a jellyfish等任务就可以层出不穷,绵延不绝了!来吧,前方是一片尚未开拓,广袤的研究空间,不要担心任务的意义和有效性,现在入坑,十年之后,你就是“我不做人了!”研究领域的学术泰斗!