2024/01/31

AI 影片生成器從文字到影片,如何改變內容創作遊戲規則

一、簡介

AI 影片生成器能讓各個層級的使用者,就算是對於拍攝影片、剪輯影音、AI 毫無概念的人,都能夠在幾分鐘內製作出一支影片,無需具有專業知識或背景經驗、準備拍攝設備、招募演員等。

通常使用 generative AI (生成式 AI ),輸入多種數據後,如圖片、影片、文字、關鍵字和部落格文章等,再通過 machine learning (機器學習) 和 deep learning (深度學習) 處理這些資料,最後生成影片。

文章中會提到多個 AI 相關名詞,還不熟悉的人可以看這篇 面試官 : 你知道 GPT 全名怎麼拼嗎? AI 術語之說明和解析,我找了很多實際範例和應用,包括如何分辨柯基和吐司、已在 15 個國家 AI 可協助放射科醫生判斷,可以更有感目前身邊哪些任務已經被 AI 化了!


流程通常如下,但因軟體差異而有功能上或順序上的不同
  1. 輸入數據轉成場景:創建與文字描述相符的相應場景。其中大多數都是根據預設模板生成的;但之後使用者可以選擇刪除、添加自己所選之內容
  2. 圖像選擇:將場景進行排序,選擇最合適、最相關的內容
  3. 新增配音:AI 配音包括各種性別、國家、口音等可選擇
  4. 新增 AI 人: AI 人像包括各國人種、行為、膚色、性別等可選擇






二、AI 影片生成器運作模式


AI 影片生成器的原理是使用神經網路和電腦視覺等各種技術,在資料集上訓練人工智慧模型。一旦模型經過訓練,它就可以根據指定的參數組合和操作資料集中的元素來產生新影片,然後可以通過進一步的培訓和編輯來完善和優化這些影片。


這邊拿文字到影片產生器舉例,其實根據公司的不同可能會有所變化,這邊列舉兩種方式。





2.1 大量數據訓練


透過使用大量數據進行訓練,AI 影片生成器可以更好的理解不同場景、動作和對象的變化,從而提高生成的影片品質和真實感。

如 Google 的 Imagen Video,利用龐大的數據進行訓練,包括 1,400 萬個影片、6,000 萬張靜態圖片和 LAION-400M 開放資料的 4 億張額外圖片。




2.1 Autoregressive transformers 


第二種是使用 autoregressive transformers 進行 natural language modeling (自然語言建模),透過解碼器預測圖片的後續移動或模式。

例如 Meta 的 Make-a-video,就不需依賴於利用大量的數據學習而生成影片。


(Ref: Make-a-video)








三、正向 / 逆向生成

3.1 正向生成


提供圖片、影片、文字、關鍵字和部落格文章供影片生成器處理,使用神經網路和經過機器和深度學習技術訓練的複雜演算法,隨後篩選大量的資訊和數據,生成符合指定標準的影片。

影片完成後,還可以針對影片進行微調,並加上 AI 配音、AI 人像、背景音樂等,快速產生影片,如 Pictory




3.2 反向生成


某些 AI 影片生成器採用反向方式,首先選擇影片模板和 AI 人像,隨後輸入文字以便影片生成器生成配音,再來加入背景音樂、轉場、調整字體和上傳圖片和影音微調影片,如 
Synthesia






四、AI 影片生成器工具


此為我文章生成使用 chatGPT,輸入到 Pictory 生成的影片,過程中沒有手動的部份,
不過這也是我試過幾次不同寫作風格後,讓其產出和內文幾乎相符合的影像。


市面上有非常多 AI 影片生成器工具,我這邊挑選一些評價較好的分別自己測試 :
  • InVideo : 擁有大量 template,沒有 AI 人像,但有 AI 配音或上傳自己的錄音。目前不付錢是無法導出影片的
  • Pictory : InVideo 的更強大版本,功能更強大,UX 使用上都更直覺,產生出之影片和內容較為批配。有三個免費影片的輸出 credit,推薦試試看!
  • HyGen : 可以使用網站上提供的 AI 人像,或上傳自己的靜態照片或 2 分鐘的 footage 以蒐集面部表情、手勢和聲音,最後再輸入文字便可以產生以自己為主角的影片。大約可以免費輸出約三個影片。
  • Synthesia: 主要用於企業培訓視頻,可使用網站上提供的人像,但臉部表情和聲音都顯得稍微生硬





五、AI 影片生成器所面臨的各種挑戰

5.1 技術

AI 影片生成器目前面臨的困難有 : 
  • 預測隨著時間推移,影像應該如何展示的困難
  • 還缺乏廣泛、高品質的資料量
  • 若缺乏足夠資訊和後續調整,影片和輸入的文字可能會有差異性
  • 如描繪特定動作,如魚喝水,則面臨更具挑戰性的問題



5.2 法律/版權

完全由 AI 生成的內容並未正式受版權保護,即使是由人類輸入文字,生成的內容也是通過網路搜尋過後並整理可公開的內容;所以 AI 生成的內容,無論是圖片、文章還是影片,因為目前認知為缺乏實際人類作者,產出之作品無法算該產生者為權利持有人。

但是如果在以 AI 生成的影片作為基礎上進行編輯,有些人是傾向將編輯後的作品視為符合版權條件,這部份還處於一個法律的灰色地帶。




5.3 虛假或誤導性視頻

Deepfake 的技術可以操作臉部、修改語音和表情,生成完全捏造、但非常逼真的影片,讓人好像說出或做過,他們實際上沒有說過或做過的事情。

在比較小的規模上,可能會有人濫用此功能,比如散播假性愛影片。

在比較大的規模上,可能產生公司 CEO、政治領導人、有極高話語權的人等的假影片,散播虛假資訊、煽動民心、損害聲譽、甚至於誤導員工,或被用於其他有利某些人之用途。

最近才有個例子,利用 AI 假裝是美國總統 Biden 打給選民 Fake robocall of Biden sent to New Hampshire voters






5.4 導致剪輯師失業

現在人們越來越傾向看影片,對於書籍和文章和需求降低,甚至於更喜歡看短影片、電影解說等省時間且多樣化、高精采度的影片,AI  影片生成器的進步可能對於剪輯師、或是在創意領域的工作構成潛在威脅。




5.5 偏見和歧視

使用現有數據的 AI 影片生成器可能無意中促進現存的偏見,可能導致強化刻板印象或歧視性內容的視頻。為解決這些偏見可採取行動,如有針對性的培訓方法和引入多樣的數據集





六、References

  • How Does an AI Video Generator Work?- A Brief guide
  • AI-Generated Video Content: The Basics | Epidemic Sound
  • AI Text-To-Video Generators: What Are They, and How Will They Boost Marketing Sales? - Attention Insight



--
相關文章



沒有留言:

張貼留言