一、簡介

AI 影片生成器能讓各個層級的使用者，就算是對於拍攝影片、剪輯影音、AI 毫無概念的人，都能夠在幾分鐘內製作出一支影片，無需具有專業知識或背景經驗、準備拍攝設備、招募演員等。

通常使用 generative AI (生成式 AI )，輸入多種數據後，如圖片、影片、文字、關鍵字和部落格文章等，再通過 machine learning (機器學習) 和 deep learning (深度學習) 處理這些資料，最後生成影片。

文章中會提到多個 AI 相關名詞，還不熟悉的人可以看這篇面試官 : 你知道 GPT 全名怎麼拼嗎? AI 術語之說明和解析，我找了很多實際範例和應用，包括如何分辨柯基和吐司、已在 15 個國家 AI 可協助放射科醫生判斷，可以更有感目前身邊哪些任務已經被 AI 化了!

流程通常如下，但因軟體差異而有功能上或順序上的不同：

輸入數據轉成場景：創建與文字描述相符的相應場景。其中大多數都是根據預設模板生成的；但之後使用者可以選擇刪除、添加自己所選之內容
圖像選擇：將場景進行排序，選擇最合適、最相關的內容
新增配音：AI 配音包括各種性別、國家、口音等可選擇
新增 AI 人像： AI 人像包括各國人種、行為、膚色、性別等可選擇

二、AI 影片生成器運作模式

AI 影片生成器的原理是使用神經網路和電腦視覺等各種技術，在資料集上訓練人工智慧模型。一旦模型經過訓練，它就可以根據指定的參數組合和操作資料集中的元素來產生新影片，然後可以通過進一步的培訓和編輯來完善和優化這些影片。

這邊拿文字到影片產生器舉例，其實根據公司的不同可能會有所變化，這邊列舉兩種方式。

2.1 大量數據訓練

透過使用大量數據進行訓練，AI 影片生成器可以更好的理解不同場景、動作和對象的變化，從而提高生成的影片品質和真實感。

如 Google 的 Imagen Video，利用龐大的數據進行訓練，包括 1,400 萬個影片、6,000 萬張靜態圖片和 LAION-400M 開放資料的 4 億張額外圖片。

2.1 Autoregressive transformers

第二種是使用 autoregressive transformers 進行 natural language modeling (自然語言建模)，透過解碼器預測圖片的後續移動或模式。

例如 Meta 的 Make-a-video，就不需依賴於利用大量的數據學習而生成影片。

(Ref: Make-a-video)

三、正向 / 逆向生成

3.1 正向生成

提供圖片、影片、文字、關鍵字和部落格文章供影片生成器處理，使用神經網路和經過機器和深度學習技術訓練的複雜演算法，隨後篩選大量的資訊和數據，生成符合指定標準的影片。

影片完成後，還可以針對影片進行微調，並加上 AI 配音、AI 人像、背景音樂等，快速產生影片，如 Pictory。

3.2 反向生成

某些 AI 影片生成器採用反向方式，首先選擇影片模板和 AI 人像，隨後輸入文字以便影片生成器生成配音，再來加入背景音樂、轉場、調整字體和上傳圖片和影音微調影片，如 Synthesia。

四、AI 影片生成器工具

此為我文章生成使用 chatGPT，輸入到 Pictory 生成的影片，過程中沒有手動的部份，不過這也是我試過幾次不同寫作風格後，讓其產出和內文幾乎相符合的影像。

市面上有非常多 AI 影片生成器工具，我這邊挑選一些評價較好的分別自己測試 :

InVideo : 擁有大量 template，沒有 AI 人像，但有 AI 配音或上傳自己的錄音。目前不付錢是無法導出影片的
Pictory : InVideo 的更強大版本，功能更強大，UX 使用上都更直覺，產生出之影片和內容較為批配。有三個免費影片的輸出 credit，推薦試試看!
HyGen : 可以使用網站上提供的 AI 人像，或上傳自己的靜態照片或 2 分鐘的 footage 以蒐集面部表情、手勢和聲音，最後再輸入文字便可以產生以自己為主角的影片。大約可以免費輸出約三個影片。
Synthesia: 主要用於企業培訓視頻，可使用網站上提供的人像，但臉部表情和聲音都顯得稍微生硬

五、AI 影片生成器所面臨的各種挑戰

5.1 技術

AI 影片生成器目前面臨的困難有 :

預測隨著時間推移，影像應該如何展示的困難
還缺乏廣泛、高品質的資料量
若缺乏足夠資訊和後續調整，影片和輸入的文字可能會有差異性
如描繪特定動作，如魚喝水，則面臨更具挑戰性的問題

5.2 法律/版權

完全由 AI 生成的內容並未正式受版權保護，即使是由人類輸入文字，生成的內容也是通過網路搜尋過後並整理可公開的內容；所以 AI 生成的內容，無論是圖片、文章還是影片，因為目前認知為缺乏實際人類作者，產出之作品無法算該產生者為權利持有人。

但是如果在以 AI 生成的影片作為基礎上進行編輯，有些人是傾向將編輯後的作品視為符合版權條件，這部份還處於一個法律的灰色地帶。

5.3 虛假或誤導性視頻

Deepfake 的技術可以操作臉部、修改語音和表情，生成完全捏造、但非常逼真的影片，讓人好像說出或做過，他們實際上沒有說過或做過的事情。

在比較小的規模上，可能會有人濫用此功能，比如散播假性愛影片。

在比較大的規模上，可能產生公司 CEO、政治領導人、有極高話語權的人等的假影片，散播虛假資訊、煽動民心、損害聲譽、甚至於誤導員工，或被用於其他有利某些人之用途。

最近才有個例子，利用 AI 假裝是美國總統 Biden 打給選民 Fake robocall of Biden sent to New Hampshire voters

5.4 導致剪輯師失業

現在人們越來越傾向看影片，對於書籍和文章和需求降低，甚至於更喜歡看短影片、電影解說等省時間且多樣化、高精采度的影片，AI 影片生成器的進步可能對於剪輯師、或是在創意領域的工作構成潛在威脅。

5.5 偏見和歧視

使用現有數據的 AI 影片生成器可能無意中促進現存的偏見，可能導致強化刻板印象或歧視性內容的視頻。為解決這些偏見可採取行動，如有針對性的培訓方法和引入多樣的數據集。

六、References

How Does an AI Video Generator Work?- A Brief guide
AI-Generated Video Content: The Basics | Epidemic Sound
AI Text-To-Video Generators: What Are They, and How Will They Boost Marketing Sales? - Attention Insight

面試官 : 你知道 GPT 全名怎麼拼嗎? AI 術語之說明和解析

工程師英國找工作紀錄 :: 抓住那個工程師

2024/01/31

AI 影片生成器從文字到影片，如何改變內容創作遊戲規則