一、簡介
AI 影片生成器能讓各個層級的使用者,就算是對於拍攝影片、剪輯影音、AI 毫無概念的人,都能夠在幾分鐘內製作出一支影片,無需具有專業知識或背景經驗、準備拍攝設備、招募演員等。
通常使用 generative AI (生成式 AI ),輸入多種數據後,如圖片、影片、文字、關鍵字和部落格文章等,再通過 machine learning (機器學習) 和 deep learning (深度學習) 處理這些資料,最後生成影片。
文章中會提到多個 AI 相關名詞,還不熟悉的人可以看這篇 面試官 : 你知道 GPT 全名怎麼拼嗎? AI 術語之說明和解析,我找了很多實際範例和應用,包括如何分辨柯基和吐司、已在 15 個國家 AI 可協助放射科醫生判斷,可以更有感目前身邊哪些任務已經被 AI 化了!
流程通常如下,但因軟體差異而有功能上或順序上的不同:
- 輸入數據轉成場景:創建與文字描述相符的相應場景。其中大多數都是根據預設模板生成的;但之後使用者可以選擇刪除、添加自己所選之內容
- 圖像選擇:將場景進行排序,選擇最合適、最相關的內容
- 新增配音:AI 配音包括各種性別、國家、口音等可選擇
- 新增 AI 人像: AI 人像包括各國人種、行為、膚色、性別等可選擇
二、AI 影片生成器運作模式
AI 影片生成器的原理是使用神經網路和電腦視覺等各種技術,在資料集上訓練人工智慧模型。一旦模型經過訓練,它就可以根據指定的參數組合和操作資料集中的元素來產生新影片,然後可以通過進一步的培訓和編輯來完善和優化這些影片。
這邊拿文字到影片產生器舉例,其實根據公司的不同可能會有所變化,這邊列舉兩種方式。
2.1 大量數據訓練
透過使用大量數據進行訓練,AI 影片生成器可以更好的理解不同場景、動作和對象的變化,從而提高生成的影片品質和真實感。
如 Google 的 Imagen Video,利用龐大的數據進行訓練,包括 1,400 萬個影片、6,000 萬張靜態圖片和 LAION-400M 開放資料的 4 億張額外圖片。
第二種是使用 autoregressive transformers 進行 natural language modeling (自然語言建模),透過解碼器預測圖片的後續移動或模式。
例如 Meta 的 Make-a-video,就不需依賴於利用大量的數據學習而生成影片。
提供圖片、影片、文字、關鍵字和部落格文章供影片生成器處理,使用神經網路和經過機器和深度學習技術訓練的複雜演算法,隨後篩選大量的資訊和數據,生成符合指定標準的影片。
影片完成後,還可以針對影片進行微調,並加上 AI 配音、AI 人像、背景音樂等,快速產生影片,如 Pictory。
某些 AI 影片生成器採用反向方式,首先選擇影片模板和 AI 人像,隨後輸入文字以便影片生成器生成配音,再來加入背景音樂、轉場、調整字體和上傳圖片和影音微調影片,如 Synthesia。
市面上有非常多 AI 影片生成器工具,我這邊挑選一些評價較好的分別自己測試 :
但是如果在以 AI 生成的影片作為基礎上進行編輯,有些人是傾向將編輯後的作品視為符合版權條件,這部份還處於一個法律的灰色地帶。
在比較小的規模上,可能會有人濫用此功能,比如散播假性愛影片。
最近才有個例子,利用 AI 假裝是美國總統 Biden 打給選民 Fake robocall of Biden sent to New Hampshire voters
如 Google 的 Imagen Video,利用龐大的數據進行訓練,包括 1,400 萬個影片、6,000 萬張靜態圖片和 LAION-400M 開放資料的 4 億張額外圖片。
2.1 Autoregressive transformers
例如 Meta 的 Make-a-video,就不需依賴於利用大量的數據學習而生成影片。
(Ref: Make-a-video)
三、正向 / 逆向生成
3.1 正向生成
影片完成後,還可以針對影片進行微調,並加上 AI 配音、AI 人像、背景音樂等,快速產生影片,如 Pictory。
3.2 反向生成
四、AI 影片生成器工具
五、AI 影片生成器所面臨的各種挑戰
5.1 技術
AI 影片生成器目前面臨的困難有 :
- 預測隨著時間推移,影像應該如何展示的困難
- 還缺乏廣泛、高品質的資料量
- 若缺乏足夠資訊和後續調整,影片和輸入的文字可能會有差異性
- 如描繪特定動作,如魚喝水,則面臨更具挑戰性的問題
5.2 法律/版權
完全由 AI 生成的內容並未正式受版權保護,即使是由人類輸入文字,生成的內容也是通過網路搜尋過後並整理可公開的內容;所以 AI 生成的內容,無論是圖片、文章還是影片,因為目前認知為缺乏實際人類作者,產出之作品無法算該產生者為權利持有人。但是如果在以 AI 生成的影片作為基礎上進行編輯,有些人是傾向將編輯後的作品視為符合版權條件,這部份還處於一個法律的灰色地帶。
5.3 虛假或誤導性視頻
Deepfake 的技術可以操作臉部、修改語音和表情,生成完全捏造、但非常逼真的影片,讓人好像說出或做過,他們實際上沒有說過或做過的事情。在比較小的規模上,可能會有人濫用此功能,比如散播假性愛影片。
在比較大的規模上,可能產生公司 CEO、政治領導人、有極高話語權的人等的假影片,散播虛假資訊、煽動民心、損害聲譽、甚至於誤導員工,或被用於其他有利某些人之用途。
最近才有個例子,利用 AI 假裝是美國總統 Biden 打給選民 Fake robocall of Biden sent to New Hampshire voters
5.4 導致剪輯師失業
現在人們越來越傾向看影片,對於書籍和文章和需求降低,甚至於更喜歡看短影片、電影解說等省時間且多樣化、高精采度的影片,AI 影片生成器的進步可能對於剪輯師、或是在創意領域的工作構成潛在威脅。
5.5 偏見和歧視
使用現有數據的 AI 影片生成器可能無意中促進現存的偏見,可能導致強化刻板印象或歧視性內容的視頻。為解決這些偏見可採取行動,如有針對性的培訓方法和引入多樣的數據集。六、References
- How Does an AI Video Generator Work?- A Brief guide
- AI-Generated Video Content: The Basics | Epidemic Sound
- AI Text-To-Video Generators: What Are They, and How Will They Boost Marketing Sales? - Attention Insight
--
相關文章
沒有留言:
張貼留言
注意:只有此網誌的成員可以留言。