duangsuse::Echo
717 subscribers
4.25K photos
130 videos
583 files
6.47K links
import this:
美而不丑、明而不暗、短而不凡、长而不乱,扁平不宽,读而后码,行之天下,勿托地上天国。
异常勿吞,难过勿过,叹一真理。效率是很重要,盲目最是低效。
简明是可靠的先验,不是可靠的祭品。
知其变,守其恒,为天下式;穷其变,知不穷,得地上势。知变守恒却穷变知新,我认真理,我不认真。

技术相干订阅~
另外有 throws 闲杂频道 @dsuset
转载频道 @dsusep
极小可能会有批评zf的消息 如有不适可退出
suse小站(面向运气编程): https://WOJS.org/#/
Download Telegram
导入功能完全可以用,我觉得应该可以在里面用质量比较好的葛炮,不知道是 DeepVocal 还是 UTAU+moresampler 还是 tn_fnds (基于WORLD的 resampler) 质量更好,但维尼熊的音源,很不行呢……
UTSU 应该是打算做比较完全的 UTAU 替换 🤔 看起来还不错,现在基本上是个原型很多功能没有、钢琴卷轴也不完善
https://github.com/hyperzlib/Sinsy-Remix
这是一个支持中文作为音标记号的 Sinsy,它依赖 HTS (HMM-based speech synthesis engine)
git clone https://github.com/hyperzlib/Sinsy-Remix.git
cd Sinsy-Remix
aclocal; autoreconf

http://hts-engine.sourceforge.net/
可以到这里下载源代码(hts_engine) 编译和示例的音源

aclocal; ./configure
make
sudo make install


最后回到 Sinsy-Remix
./configure --includedir /usr/local; make

/usr/bin/ld: /home/DuangSUSE/Projects/Sinsy-Remix/lib/hts_engine_API/HtsEngine.cpp:209: undefined reference to `HTS_Engine_generate_sample_wave'
http://hts.sp.nitech.ac.jp/?Download 去这里下载编译…… 不对,那里只有音源训练相关

grep -r HTS_Engine_generate_sample_wave
最后才发现因为 HTS engine 体积小,所以直接被加进来了 😂

pushd hts_engine_API
aclocal; autoreconf
make
sudo make install
popd


在 sinsy-r 里
sudo make install 就可以了!
sinsy -w c -m 文档/hts_voice/cmu_us_arctic_slt.htsvoice -o 音乐/xi.wav 文档/MuseScore3/乐谱/野习_pin.xml
草,结果非常失败,根本唱不出来更不支持中文字典
用 Utsu 调 UTAU 音源,深黄蓝这个样子看起来合成可以接受
Collecting PyQt5-sip<13,>=12.7 (from PyQt5)
Downloading https://pypi.tuna.tsinghua.edu.cn/packages/af/ea/b0e4e5d3364780c0500325afb7b1bdc024f6b3fc637447f11a333b49329e/PyQt5_sip-12.7.2-cp37-cp37m-manylinux1_x86_64.whl (253kB)
|████████████████████████████████| 256kB 2.1MB/s
Building wheels for collected packages: PyQt5
Building wheel for PyQt5 (PEP 517) ... done
Stored in directory: /home/DuangSUSE/.cache/pip/wheels/b3/1f/34/259708ede3893c6b16abc9ac9d414598784cf2e25d03bbb373
Successfully built PyQt5
Installing collected packages: PyQt5-sip, PyQt5
安装这个轮子花了我几乎半个小时……
duangsuse::Echo
https://github.com/autokey/autokey#installation #GitHub #Python #tools #linux 桌面自动化脚本……
from time import sleep
mouse.click_absolute(40, 130, 1) # Open Character Settings
sleep(0.1) # Wait for the dialog
keyboard.send_keys("<tab><tab><up><enter>") # last voice
mouse.click_absolute(40, 130, 1)
keyboard.send_keys("<tab><tab><down><enter>") # back

这个轮子又花了我半个小时…… 但可以一键 reload UTAU 里的 voice 了,方便。
from time import sleep
mouse.click_absolute(40, 130, 1) # Open Character Settings
sleep(1) # Wait for the dialog
keyboard.send_keys("<tab><tab><up><enter>") # last voice
sleep(0.5)
mouse.click_absolute(40, 130, 1)
keyboard.send_keys("<tab><tab><down><enter>") # back

这个是加长等待防脚本瓦特的。 顺便说一句,如果 gtk 的 key recorder 不能用,只需在终端打开,然后错的哪一行,把 RecordDialog 里对应的调用代码注释掉即可。
duangsuse::Echo
用 Utsu 调 UTAU 音源,深黄蓝这个样子看起来合成可以接受
发现其实最关键的不是 蓝-右 部分的时长,而是文语对齐 — 把音素和波形对齐。 UTAU 的重复线(这里为蓝色)比较自由,拒绝“痰音”的关键不仅在于分析猜测音素起止,而且在于优先猜得越短越好。 (图音 /zu/ )
duangsuse::Echo
发现其实最关键的不是 蓝-右 部分的时长,而是文语对齐 — 把音素和波形对齐。 UTAU 的重复线(这里为蓝色)比较自由,拒绝“痰音”的关键不仅在于分析猜测音素起止,而且在于优先猜得越短越好。 (图音 /zu/ )
平时遇到的形式基本都会是 offset - cutoff 里面,顺序
深蓝(overlap)
黄(pre-utterance)
蓝(consonant)

偶尔会有 深蓝-offset-黄-蓝-cutoff 的情况 #vocaloid #UTAU

一般音源合成使用无非两种情况:拉长和切短
如果要拉长的话,蓝-右(或者左-蓝) 部分很重要
如果要缩短的话,我不清楚 🤔

音源质量很重要,如果音源 oto.ini 定义的不好 moresampler 也不能发挥作用,可是如果音源的波形自己也质量差,那改 oto.ini 也没用了,必须重新找波形。
还有这种的 🤔 (ua n)
duangsuse::Echo
Sinsy 歌手香玲歌唱祖国 🤔 – 野习 (香玲)
香玲根本不能用! sinsy 到现在包装的都很烂,而且居然连 wo 都认不出来…… 音太高了也会直接略过,MusicXML 输入局限性太大了,sinsy 也到处说太长不能唱什么的…… 而且本地编译了一个带英文 voice 也根本不能用,连官方示例都没法合成,而且安装还默认没带纯英文的字典……
UTAU 的节奏也是个问题…… 莫名其妙根本对不上,都是 125bpm,但一个长一个短
我看 UTAU 根本没有 tempo 的概念吧!开始的“空格音符”那么长时间,后面的速度才快起来了!这么说“空格音符”的速度就是默认 120,只有“普通音符”才按规矩变速! 后期都不可以,只有开始就在 UTAU 弄才可能配背景音乐?!