初音YY歌词
v家七宗罪讲述的是七宗的罪恶故事,分别为妒忌、傲慢、贪婪、暴食、色欲、怠惰、暴怒,化表人类所犯下的七种罪。其中参演的8位VOCALOID歌手分别演示了七种关於罪的故事。
番外【KAITO】ハートビート·クロックタワー(F·V)(心跳·钟塔)
傲慢【镜音铃】悪ノ娘(恶魔般的少女)【中世物语风オリジナル】
妒忌【巡音ルカ】円尾坂の仕立屋(圆尾坂的裁缝店)【和风物语风オリジナル】
暴食【MEIKO】悪食娘コンチータ(恶食娘空琪塔)【中世物语风オリジナル】
贪婪【KAITO】悪徳のジャッジメント(恶贯满盈的法官)【法廷物语风オリジナル】
色欲【神威がくぽ】ヴェノマニア公の狂気(贝诺马尼亚公爵的疯狂)【中世物语风オリジナル】怠惰【初音ミク】眠らせ姫からの赠り物(使之沉睡公主的赠品)【中世物语风オリジナル】
暴怒【GUMI】ネメシスの铳口(涅墨西斯的枪口)【オリジナル】
悪ノ娘(恶魔般的少女)
円尾坂的裁缝师
悪食娘コンチータ(恶食娘空琪塔)
悪徳のジャッジメント(恶贯满盈的法官)
ヴェノマニア公の狂気(贝诺马尼亚公爵的疯狂)
眠らせ姫からの赠り物(使之沉睡公主的赠品)?
ネメシスの铳口(涅墨西斯的枪口)
罪孽深重的男人
来,忏悔吧
呐妈妈现在我啊
将枪口对着陷害许多人从而饱私囊的恶人
我爱的人由于此而死,虽然我也自己射击自己,但是却没能死去
复仇的时候终于到来
来,忏悔吧
你好,再见,圣诞老人先生
点燃的房子哪边是你的逃路呢
拔出枪口瞄准眉目之间
在烈火中燃烧殆尽
“呐妈妈是不是所有罪人都应该给予赎罪的机会呢
所以我这样对他说道
把你的所有财产全都交给我吧
我就帮助你逃出去
他这么回答我
我的财产
一分都不会给其他人
不知悔改的恶人啊
你就忏悔吧
你好再见法庭之主
沉湎在欲望中的恶德法官
你就在人们的罪责和我的愤怒中永远沉睡吧
她杀了爱人
主人命令的她
她决定复仇
呐妈妈,你把我一手抚养大
出生在森林废弃的小屋
连父亲的相貌都不知道
呐妈妈父亲已经完全疯了一般
深信人偶是他的女儿
那个人明明早就沉入幽暗的海底(用章鱼杀的法官的女儿和妻子)
你的女儿我其实是一个人
亲爱的父亲我们见面了
我的事情看吧(俺不知道这句怎么翻了、、
你好再见再见
我的父亲
杀手的总管
恶德的法官
呐妈妈这就是你所爱的人吗?(这句不确定
这样真的结束了
全部结束了一样
罪孽深重的恶之物语
再见
结论开始说吧:不是
初音未来(初音ミク/Hatsune Miku),是2007年8月31日由CRYPTON FUTURE MEDIA以Yamaha的VOCALOID系列语音合成程序为基础开发的音源库,音源数据资料采样于日本声优藤田咲。--取自百度百科
EX:(转包括初音未来的vocaloid原理)
背景
MTG(Music Technology Group)是西班牙庞贝法布拉大学下的研究组,于1994年由Xavier Serra成立并担任主任。90年代末该小组和Yamaha合作开发Vocaloid。在Y社投资下进行一系列有关歌声频谱建模的研究并发表若干篇论文。两个核心人物:Xavier Serra博士和Jordi Bonada博士。
2.框架
MTG把音频的表示分为三个层面:Low Level-声音底层参数的层面, Mid Level-语音学的层面, High Level-乐谱、歌词等更接近演奏者(说话人)的层面。大致上Vocaloid就是这么一个High->Mid->Low一层层下来转换合成的应用。
Vocaloid的引擎基于拼接合成(Concatenative Synthesis),即说话人的采样(经过处理)成为音源库的成分。拼接合成发源于上世纪80年代,优点是还原性好,合成质量高;缺点是数据库往往比较庞大。
3. Low Level建模
Xavier Serra在89年提出SMS(Spectral Modelling Synthesis)技术,在Quatieri& McAulay提出的正弦模型(Sinusoidal Model)基础上增加了随机(Stochastic)成分。在语音分析中该技术把语音拆分成若干不同频率和幅度的正弦波和气音。其中气音相当于通过声道滤波器的噪音。合成时给定控制点,生成若干正弦波和气音并叠加。顺带一提,SMS有很多其它名字,比如HNM(Hamonic and Noise Model),HpN(Harmonic plus Noise),这些是限定正弦成分即谐波。另外,因为在分析阶段采用的傅立叶变换的性质,实际合成中往往使用余弦而不是正弦。
Vocaloid的音源库制作阶段使用SMS对语音进行底层建模,而合成使用VPM(Voice Pulse Model)。VPM的作用类似SMS的合成阶段,但它直接在频域生成语音的短时频谱。WBVPM(Wide-Band Voice Pulse Model)技术使用STFT将这些短时频谱叠加生成最终的语音,并可在同一频谱中表示出语音的正弦成分和随机成分。VPM相对SMS合成的优点是速度更快,且能够对语音的声门脉冲建模,直接控制相位。(吐槽:不过89年恰好Quatieri& McAulay发表了一篇关于正弦合成中相位还原的论文……)
随便找个Vocaloid音源,让他/她在低音唱个“a”,那个滋拉滋拉的Vocal Fry效果就是VPM做出来的。
4. Mid Level建模
现在我们有了SMS和VPM,如果我们知道在每一时刻语音各个谐波的频率和幅度,还有气音的频谱形状就能很好地合成出语音。但这些参数哪来的呢?这些参数是由EpR(Excitation plus Resonance)语音模型产生的——EpR能够生成谐波和气音的频谱包络以及相位。字面上就能看出,它把语音的频谱包络(注意是频谱包络不是频谱)视作一条激励(Excitation)曲线和一条共振(Resonance)曲线的和。其中共振曲线又是由好几个单独的共振峰曲线叠加起来的。
这些共振峰的计算公式由Dennis Klatt在1979年的一篇关于共振峰合成器的论文中提出。2001年Jordi Bonada等人将它变成对称的并增加了几个参数。现在每个共振峰的频谱形状由三个参数决定——幅度、中心频率、和带宽。这其实就是Vocaloid1中的RES参数。
Vocaloid的音源库即包括了大量的EpR参数,通过在合成中修改这些参数即能实现时间缩放、音高变换、发音过渡、和音色修改。
5. High Level建模
用户输入的是谱子,这比EpR参数还高了一个层面。于是Vocaloid需要一个参数生成器之类的能够把谱子转成EpR参数。这个生成器就叫作Sonic Space(我找不到中文翻译)。它是一个包含了High Level和Mid Level样本的数据库,能通过某种算法在High Level和Mid Level间进行匹配。但是论文里很少提及相关的算法,我想这可能也是Y社比较保密的技术吧。
(楼主YY)倒是有很多现成的模型可以代替Sonic Space,包括很多机器学习算法。
Jordi Bonada 2008年的论文里展望到,(Vocaloid)未来可能会使用SVM(支持向量机), ANN(人工神经网络), GMM(高斯混合模型), HMM(隐马尔科夫模型)等模型进行高阶建模。
Jordi还说,他们认为HMM模型可以直接架起从Low Level到High Level的桥梁。(可惜这提早被HTS实现了,现在被CeVIO使用)
6.跑题-简单讲讲其他几种合成软件的原理吧&喜闻乐见的Vocaloidv.s. CeVIO
CeVIO只是个图形前端而已,它背后使用的引擎是名古屋工业大学开发的HTS Engine(HMM-based Speech Synthesis System)。大致是把语音的MFCC扔进HMM里,然后重新生成MFCC扔进Source-Filter模型里合成。不过说实话我没研究过HMM-based的技术。作为一种机器学习算法,HMM直接从Low Level的真人羞耻play(咦?)中学习真人的发音习惯,给定了需要合成的High Level信息再把Low Level的东西算出来。所以它可以直接跳过Mid Level,合成的语音会有更好的韵律、节奏和真人发声习惯。
相比之下Vocaloid好似另一个极端——把一切能建模的建模了,通过精确的参数求得高质量的语音。
Vocaloid对Low Level的建模真的非常好,几乎是无听觉损失地还原了,但CeVIO就做不到这点。HTS还没能完善到能处理好每个细节的地步——最明显的是清辅音的损失。但是High Level上CeVIO显然更胜一筹。
我觉得应该结合市场定位比较。Vocaloid面向的用户比较专业,能够手工指定这些高阶参数也是意料之中的。所以至少在未来几年内我觉得Vocaloid(当然是专业调教者的作品)的合成质量会比CeVIO好。
另:看上去Vocaloid4很可能会采用这些高阶建模技术,MTG好几年前就开始进行HMM的研究了。
关于UTAU。UTAU本身也是个前端,而且我本人略严重认为这个VB6写的前端略恶心……这里取自带的resampler为例。我没反向过这货,这只是一些略靠谱的猜测:通过某种OLA的变体先对语音进行时长改变,然后通过重采样加速/减速,然后通过一个共振峰滤波器还原原来的频谱包络。这是个很粗糙的方法。。加上UTAU本身的设计(比如强制把拼接限定在时域)不合理,UTAU的合成质量就比较惨了。即将发布的RUCE(Rocaloid UTAU Compatible Engine)就打算填这个resampler的巨坑。。。让我们拭目以待。。
PS:上面的可能有点难懂。非常简单地说,将声优藤田咲原录的声音加工并以技术保持其不会因升降调而失真/由此开发出软件VOCALOID系列初音未来。虽然被称为电子歌姬,但初音未来的谱声与MIX方面上的电音有概念上的区别。