只需3秒就能複製你聲音的AI,是全新的AI藍海嗎? - 遊戲狂
廣告

只需3秒就能複製你聲音的AI,是全新的AI藍海嗎?

請拿手機掃描此QRCODE

傳到手機看

2023-01-14
廣告

       2022年屬實是AI大年。

       從年初年中的AI繪畫,到年尾的AI作者,好像這個AI已經實實在在的刷了一整年的存在感了。

       先是畫圖——畫好圖——畫黃圖,再到寫文——寫好文——寫黃文,我不知道AI的製作者們抱著什麽樣的偉大信念製作出來這些新穎的好東西,但只要落到網友們的手裡,這些資料模型肯定會被灌滿奇怪的東西。

廣告

       就拿我群裡最近瘋狂轉發的AI繪畫最新訓練成果來說,在我不知不覺間,這小機器人已經可以精準的拿捏我的XP了。

只需3秒就能複製你聲音的AI,是全新的AI藍海嗎?

只需3秒就能複製你聲音的AI,是全新的AI藍海嗎?

       不過今天要介紹的並不是這兩個已經被玩壞的AI,而是微軟最新出品的AI成果——語音合成模型VALL·E

       它可不是那些影視劇講解裡的那些“注意看,這個男人叫小帥”的固定語氣語調的AI念稿人,而是號稱“3秒鐘”就可以複製你的聲音的賽博卡卡西。

       根據我查來的說法,VALL·E相比傳統的AI語音模型採用“梅爾頻譜”提取特徵,它轉換了思路與賽道,將語音合成這個步驟改為“語言模型”的任務。

       以前走音素→梅爾頻譜(mel-spectrogram)→波形的流程,被VALL·E改變成了音素→離散音訊編碼→波形

只需3秒就能複製你聲音的AI,是全新的AI藍海嗎?

       ——當然,儘管這些東西是我寫出來的,但我完全看不懂官方說的是什麽,我放張圖也只是顯得文章沒有那麽空而已。

       在我能看懂的介紹裡,讓我覺得最值得發出來給大家講講的,就是這個VALL·E,不只是能用過資料模仿出採樣人的音色,它連語氣語速都模仿的非常到位。

       也就是說,你錄個幾句話給這個AI聽一聽,他就能通過這些資料來識別你的語氣語速,並可以在接下來你製作的“作品”中使用這套資料——約等於,你不張嘴就把話說了。

只需3秒就能複製你聲音的AI,是全新的AI藍海嗎?

       除此之外,包括採樣者的背景音和話語中的情緒,VALL·E都能通過學習慢慢掌握。

       一個音色、語氣、語調、語速、情緒甚至是背景裡的環境音被訓練到極致的語音AI,說出的話可能真的和本人差別不大了。

       搭配上“AI作者”和“AI繪畫”,好家夥,已經可以組織起一個公司會議上的賽博PPT了,等哪天“AI動畫”出來了,我們沒準還能看見機器人自己拍的電影。

       不少網友也評論,繼畫家和作者失業後,這股海克斯狂潮終於輪到配音演員身上了。

只需3秒就能複製你聲音的AI,是全新的AI藍海嗎?

       像其他 AI 新技術一樣,這個尚未開源的VALL-E在安全、倫理等方面也引發不少人的擔憂,儘管微軟發布了關於使用 VALL-E 的道德聲明,但未來的事兒誰又說得準呢。

       怎麽樣各位,這麽看下來,你覺得這個VALL-E會不會是新的一年裡的AI藍海?


來源:遊俠網


廣告
廣告
       2022年屬實是AI大年。 https://gamemad.com/news/54043        從年初年中的AI繪畫,到年尾的AI作者,好像這個AI已經實實在在的刷了一整年的存在感了。        先是畫圖——畫好圖——畫黃圖,再到寫文——寫好文——寫黃文,我不知道AI的製作者們抱著什麽樣的偉大信念製作出來這些新穎的好東西,但只要落到網友們的手裡,這些資料模型肯定會被灌滿奇怪的東西。        就拿我群裡最近瘋狂轉發的AI繪畫最新訓練成果來說,在我不知不覺間,這小機器人已經可以精準的拿捏我的XP了。 https://img2.gamemad.com/2023/01/14/SQ2Cuqgj.jpg https://img2.gamemad.com/2023/01/14/EpgyHpMh.jpg        不過今天要介紹的並不是這兩個已經被玩壞的AI,而是微軟最新出品的AI成果——語音合成模型VALL·E。        它可不是那些影視劇講解裡的那些“注意看,這個男人叫小帥”的固定語氣語調的AI念稿人,而是號稱“3秒鐘”就可以複製你的聲音的賽博卡卡西。        根據我查來的說法,VALL·E相比傳統的AI語音模型採用“梅爾頻譜”提取特徵,它轉換了思路與賽道,將語音合成這個步驟改為“語言模型”的任務。        以前走音素→梅爾頻譜(mel-spectrogram)→波形的流程,被VALL·E改變成了音素→離散音訊編碼→波形。 https://img2.gamemad.com/2023/01/14/ZNf9yqrq.jpg        ——當然,儘管這些東西是我寫出來的,但我完全看不懂官方說的是什麽,我放張圖也只是顯得文章沒有那麽空而已。        在我能看懂的介紹裡,讓我覺得最值得發出來給大家講講的,就是這個VALL·E,不只是能用過資料模仿出採樣人的音色,它連語氣和語速都模仿的非常到位。        也就是說,你錄個幾句話給這個AI聽一聽,他就能通過這些資料來識別你的語氣語速,並可以在接下來你製作的“作品”中使用這套資料——約等於,你不張嘴就把話說了。 https://img2.gamemad.com/2023/01/14/frB5wvhz.jpg        除此之外,包括採樣者的背景音和話語中的情緒,VALL·E都能通過學習慢慢掌握。        一個音色、語氣、語調、語速、情緒甚至是背景裡的環境音被訓練到極致的語音AI,說出的話可能真的和本人差別不大了。        搭配上“AI作者”和“AI繪畫”,好家夥,已經可以組織起一個公司會議上的賽博PPT了,等哪天“AI動畫”出來了,我們沒準還能看見機器人自己拍的電影。        不少網友也評論,繼畫家和作者失業後,這股海克斯狂潮終於輪到配音演員身上了。 https://img2.gamemad.com/2023/01/14/97Pa9m2S.jpg        像其他 AI 新技術一樣,這個尚未開源的VALL-E在安全、倫理等方面也引發不少人的擔憂,儘管微軟發布了關於使用 VALL-E 的道德聲明,但未來的事兒誰又說得準呢。        怎麽樣各位,這麽看下來,你覺得這個VALL-E會不會是新的一年裡的AI藍海? 來源:遊俠網
https://gamemad.com/news/54043
0