Claude Code + CosyVoice = 語音複製 TTS 平台

這應該算是一個…. 里程碑。

用 Claude Code, 經由 Gemini 的幫忙，建立一個 TTS 文字轉語音平台，使用 CosyVoice 3.0，可以複製聲音，加入情緒控制。

整個大改跑8小時，有一半花在下載及重建 docker 容器。耗費如下 : 我是 $20 元 PRO 方案，用掉三分之一的額度。

完成截圖：

使用的是 : Sonnet 4.6

平台長成這個樣子：

可以插入停頓，控制停頓時間：

可以插入情緒：目前這四個，還要研究，看是否還有其他的情緒表達。

生產清單，可以試聽，下載，順便把字幕也做好。

這個是音色複製，錄一段聲音，讓系統學習，就可以模仿出相類似的聲音。

以下是測試的範例：大陸腔有點重，找時間再來調整。

文字稿：

(Calm)我現在的練習：調整以前我會去想事情的演變過程，改成：[pause_1s]我要事情演變的結果是什麼，(Warm)要那個結果，不管那過程。感受那結果到來時的(Energetic)情緒，滿足，成功，喜悅 …. (Warm)這個做法，我目前的感覺：威力好像蠻大的。因為我要那個結果，我的意圖明確，反過來可以協助我更容易應對事情的演變。

發佈留言 取消回覆

發佈留言取消回覆