6月27日,可靈AI宣布全系列視頻模型上線“視頻音效”功能,用戶在使用可靈AI進行視頻創(chuàng)作時,不僅能獲得高質(zhì)量的視頻畫面,更能體驗到與視頻精準匹配、富有空間感的立體聲音效,真正實現(xiàn)“所見即所聽”的沉浸式體驗。目前,該功能已無縫集成至文生視頻、圖生視頻、多模態(tài)編輯等多種創(chuàng)作模式中,并限時免費開放。
與此同時,平臺原有的“音效生成”也進一步升級,新增“視頻生音效”功能。用戶現(xiàn)在不僅可以通過文本生成音效,更可以直接上傳本地視頻,或選用在可靈平臺創(chuàng)作的歷史視頻,一鍵為無聲的畫面匹配上語義契合、節(jié)奏同步的音效,自動適配動作、環(huán)境、氛圍等多種場景,極大地提升了視頻內(nèi)容的表現(xiàn)力和沉浸感,有效降低了創(chuàng)作者在音頻后期制作上的時間與技術(shù)成本。
從實際效果來看,可靈AI的音效功能在多個典型案例中展現(xiàn)了極高的音畫同步精度和極佳的空間聽感。例如,在生成“嬰兒在活潑地笑”的視頻片段中,模型不僅還原了嬰兒清亮的笑聲,甚至連嬰兒笑容間隙短促的吸氣聲都完美捕捉,與畫面中肉嘟嘟臉頰的起伏動作精準匹配,其富有空間感的立體聲效果,讓整個畫面的溫馨感與生命力撲面而來。
在另一段山體滑坡導(dǎo)致巨石砸中汽車的視頻中,系統(tǒng)自動生成了金屬扭曲斷裂聲、石塊飛濺與塵土揚起的細節(jié)音效,聲音定位清晰、動態(tài)層次豐富,提升了整體災(zāi)難場景的視覺沖擊力與沉浸感。
據(jù)悉,上述功能的實現(xiàn),依托于可靈AI自主研發(fā)的多模態(tài)視頻生音效模型——Kling-Foley。Kling-Foley 支持基于視頻內(nèi)容與可選文本提示自動生成與視頻畫面語義相關(guān)、時間同步的高質(zhì)量立體聲音頻,涵蓋音效、背景音樂等多種類型聲音內(nèi)容。它支持生成任意時長的音頻內(nèi)容,還具備立體聲渲染的能力,支持空間定向的聲源建模和渲染。
今年3月,可靈AI首次推出AI音效功能,用戶可通過輸入文本生成相應(yīng)的環(huán)境音或動作音,并可進一步結(jié)合平臺生成的視頻進行語義理解與自動匹配。隨后,在可靈2.1模型中正式加入了視頻音效功能,在生成視頻的同時,系統(tǒng)也會自動生成與之匹配的音效,增強了整體視聽體驗。隨著視頻音效生成技術(shù)的成熟落地,將進一步釋放可靈AI在廣告創(chuàng)意、影視、短視頻、游戲等內(nèi)容等領(lǐng)域的發(fā)展?jié)摿Α?/p>