Claude Code + CosyVoice = 語音複製 TTS 平台

這應該算是一個…. 里程碑。

用 Claude Code, 經由 Gemini 的幫忙,建立一個 TTS 文字轉語音平台,使用 CosyVoice 3.0,可以複製聲音,加入情緒控制。

整個大改跑8小時,有一半花在下載及重建 docker 容器。耗費如下 : 我是 $20 元 PRO 方案,用掉三分之一的額度。

完成截圖:

使用的是 : Sonnet 4.6

平台長成這個樣子:

可以插入停頓,控制停頓時間:

可以插入情緒:目前這四個,還要研究,看是否還有其他的情緒表達。

生產清單,可以試聽,下載,順便把字幕也做好。

這個是音色複製,錄一段聲音,讓系統學習,就可以模仿出相類似的聲音。

以下是測試的範例:大陸腔有點重,找時間再來調整。

文字稿:

(Calm)我現在的練習:調整以前我會去想事情的演變過程,改成:[pause_1s]我要事情演變的結果是什麼,(Warm)要那個結果,不管那過程。感受那結果到來時的(Energetic)情緒,滿足,成功,喜悅 …. (Warm)這個做法,我目前的感覺:威力好像蠻大的。因為我要那個結果,我的意圖明確,反過來可以協助我更容易應對事情的演變。

發佈留言

34 − = 27
Powered by MathCaptcha

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料