一个由人工智能驱动的多模态音乐项目,可以为任何歌曲生成和弦、节拍、歌词、旋律和吉他谱。基于Transformer的混合多模态模型,运用不同的Transformer模型解决音乐信息检索领域的各种问题。这些模型生成相应的信息依赖关系,相互影响。
用于音源分离的U-Net网络模型,以及基于Transformer模型的Pitch-Net、Beat-Net、Chord-Net和Segment-Net。 除了建立频率和时间之间的关系,最重要的是建立不同网络之间的相互影响。
整个AI驱动的过程在 aitabs.py
中实现,而各种网络结构模型可以在 models
文件夹中找到。
注意: U-Net和Segment-Net使用音频的STFT频谱作为输入。Beat-Net使用鼓声、贝斯和其他乐器的三种声谱作为输入,Chord-Net使用背景音乐的一个声谱。
特点
-
和弦:支持检测各种和弦,包括大调、小调、七和弦、增七和弦、小七和弦、六和弦、小六和弦、挂二和弦、挂四和弦、五和弦,以及转位和弦。同时能判断歌曲的调性。
-
节拍:检测音乐的节拍、强拍,并跟踪速度(BPM)。
-
音高:跟踪人声轨中的旋律音高。
-
音乐结构:检测音乐片段的边界和标签,包括前奏、主歌、副歌、桥段等。
-
歌词:使用ASR(自动语音识别,whisper模型)识别人声轨的歌词并自动对齐歌词与音频。通过微调wav2vec2预训练模型实现歌词与音频的对齐。目前支持包括英语、西班牙语、葡萄牙语、俄语、日语、韩语、阿拉伯语、中文等数十种语言。
-
AI制谱:根据和弦、节拍、音乐结构、歌词、节奏等信息生成可演奏的乐谱,包括和弦图和六线谱。支持对和弦、节奏、歌词等进行编辑。
-
其他:包括音源分离、速度调整、音高转换等功能。
在线体验: https://lamucal.ai/