目录
-CoCoNet(2017)
CoCoNet(2017)
模型特点:
- 使用卷积
- Orderless NADE (Neural Autoregressive Distribution Estimators)
- 吉布斯采样(Gibbs Sampling)
XiaoIce Band(2018)
A Melody and Arrangement Generation Framework for Pop Music
https://ldzhangyx.github.io/2018/09/26/xiaoice-band/
Music Transformer(2019)
- Transformer的长期一致性(coherence)在生成任务效果好。
- 相对时间(relative timing)重要,但基于距离的算法复杂度太高
Applications:
- 生成长为一分钟的具有出色结构的音乐
- 根据给定主题续写音乐
- 在seq2seq情境下根据给定旋律生成伴奏
Contribution
- 将需要的存储空间缩小到序列长度的数量级
- 更具有结构一致性
Method
- 相对位置自注意力机制:其中R为包含所有Query与Key的相对距离嵌入的中间张量
- 节省存储空间:中间张量R节省计算
- 长序列处理:将一个音乐事件多种属性的相对位置也加入
Evaluation
- 显著提升负对数似然(negative log-likelihood, NLL)
- 局部上,保留了必要的时间/声部网格结构
- 整体上,捕捉到了全局结构,体现出了有规律的分段
Jukebox(2020)
模型特点:基于VQ-VAE
Pop Music Transformer(2020)
- 提出新的音乐数据表示方式REMI,通过在数据表示中加入度量结构以刻画节拍-小节-乐句的层次结构
Symbolic music generation with diffusion models(2021)
Compound Word Transformer (2021)
Generate Pop Piano Music of Full-Song Length
【Demo】
Backbone model:
- linear transformer (Linear)
- transformer-XL (XL)
MuseFormer(2022)
Transformer with Fine- and Coarse-Grained Attention for Music Generation
【Demo】