亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

微立頂科技

新聞資訊

創(chuàng)新 服務 價值

  多模態(tài)AI發(fā)展趨勢分析

發(fā)布日期:2024/2/22 15:55:19      瀏覽量:

1. AI國內(nèi)外對比與Sara技術應用探討
在全球AI技術的發(fā)展浪潮中,OpenAI、Google(現(xiàn)Alphabet)及其子公司Meta等國際領軍企業(yè)憑借頂
尖的技術創(chuàng)新能力走在前列。國內(nèi)雖有大型科技公司在AI技術研發(fā)上有所建樹,但在原創(chuàng)技術和整合
能力方面尚存差距,頭部效應明顯,中小型企業(yè)往往面臨較大競爭壓力。
盡管如此,我國在AI基礎研究領域貢獻顯著,如浦江實驗室、清華大學和北京大學的研究實力雄厚,
但如何將研究成果有效工程化并轉(zhuǎn)化為商業(yè)價值仍是一個亟待提升的關鍵環(huán)節(jié)。Sora技術的推出有望
為國內(nèi)參與者創(chuàng)造機遇,在傳媒行業(yè)中利用這些先進技術解決邏輯性問題,特別是在內(nèi)容創(chuàng)作和視頻
制作領域開辟新的商業(yè)路徑。

2. 多模態(tài)AI挑戰(zhàn)與未來趨勢分析
當前,復雜的solo模型結(jié)構融合了擴散與Transformer架構,這可能導致在處理較長視頻時出現(xiàn)的問題
加劇,短期內(nèi)若沿用現(xiàn)有模型結(jié)構,解決此類難題較為困難。盡管存在上述挑戰(zhàn),solo模型在視頻產(chǎn)業(yè)
中仍有廣泛應用前景,尤其是對于視頻渲染業(yè)務,它有可能顛覆傳統(tǒng)流程,直接以AI生成視頻替代傳
統(tǒng)的渲染手段,對整個視頻行業(yè)帶來深刻變革。
盡管目前公開信息有限,但業(yè)界推測solo模型因其整合了多種前沿技術,可能在效果表現(xiàn)上超越單一產(chǎn)
品,同時考慮到OpenAI在GPT模型、計算能力和數(shù)據(jù)積累上的優(yōu)勢,solo或?qū)⒋呱龈鼮檎鸷车膽?/span>
成果。

3. 國內(nèi)多模態(tài)AI在視頻生成領域的實踐與挑戰(zhàn)
在國內(nèi),廠商已在多模態(tài)AI技術上取得一定進展,然而由于高成本和使用難度等因素,過去這類技術
難以實現(xiàn)商業(yè)化落地,一度被視為昂貴且不易操作的解決方案。隨著Sara技術框架的披露,預期眾多
國內(nèi)廠商,特別是主要企業(yè)將會加快相關研發(fā)步伐。
國內(nèi)企業(yè)在推進多模態(tài)AI應用過程中,面臨的最大難題之一是如何有效管理和確保生成內(nèi)容的安全
性,這一需求進一步加速了行業(yè)集中度的提升,擁有本土化內(nèi)容安全規(guī)則理解和實施能力的企業(yè)更具
競爭優(yōu)勢。
多模態(tài)AI在諸如廣告創(chuàng)意、影視制作、游戲設計等領域有著廣闊的應用前景,能大幅提高生產(chǎn)效率并
革新創(chuàng)造性內(nèi)容產(chǎn)出方式,尤其在短視頻廣告制作上,運用此類技術可快速生成高質(zhì)量內(nèi)容,從而產(chǎn)
生極高的商業(yè)價值?,F(xiàn)階段,即使是針對一分鐘以內(nèi)的多鏡頭短視頻創(chuàng)作,其實現(xiàn)效果已經(jīng)足以滿足
實際需求。

4. 商業(yè)化進程中的挑戰(zhàn)與潛在影響
盡管在中國地區(qū)實現(xiàn)多模態(tài)AI技術的商業(yè)化可能存在一定的困難,但在海外市場,一旦成熟應用,預
計大量影視制作公司、動畫工作室以及短視頻創(chuàng)作者會迅速跟進采用此技術。

在行業(yè)結(jié)合方向上,Sora技術有望在模擬和渲染虛擬環(huán)境與動態(tài)場景方面發(fā)揮重要作用,與M2空間視
頻技術及各類3D資產(chǎn)相結(jié)合。例如,游戲開發(fā)者或工作室可能會利用Sora接口開發(fā)出交互式的生成式
多模態(tài)游戲作品。
競爭格局演變方面,根據(jù)Sora的相關論文,該技術不僅可以基于文本生成視頻,還能根據(jù)現(xiàn)有圖像或
視頻進行編輯提示,未來很可能以此為基礎開發(fā)新型編輯工具,重塑行業(yè)格局。

5. 多模態(tài)AI發(fā)展前景與趨勢預判
展望未來,AI技術將衍生出能夠連接視頻與視頻片段、圖像與圖像之間關系的新一代工具,形成全新
的生產(chǎn)場景,并配套創(chuàng)新的生產(chǎn)工具。
當下,OpenAI在保持技術前沿性和將尖端技術快速轉(zhuǎn)化為產(chǎn)品的能力上似乎略勝谷歌一籌,尤其是在
網(wǎng)絡應用廣泛普及和展示強大競爭力方面。盡管谷歌可能在超長文本處理能力上不斷提升至千萬字級
別,但從商業(yè)角度看,這種能力對OpenAI等競爭對手而言并非必要條件。

Q&A

Q:請您分享下新圖比特近期在多模態(tài)AI領域的工作進展,特別是對于AI大模型上線備案的心路歷程?
A:新圖比特的主要聚焦點是智能數(shù)字內(nèi)容資產(chǎn)的生產(chǎn),我們在利用AI生成技術,包括多模態(tài)的文本、
圖像、音視頻等領域都有一定的涉足。特別是最近,我們的一個大模型績點華章,已成功完成了網(wǎng)信
辦的生成式人工智能大語言模型的上線備案,這也因不少跨部門的認可。我們其實從去年的11月份就
開始備案的準備工作,包括提交材料,以及在模型的訓練和產(chǎn)品的功能上,做各種各樣的修改和迭
代,以滿足一些國內(nèi)的合規(guī)和生產(chǎn)需求。所以,這個過程更像是給公司的一個洗禮。
Q:您能具體介紹下新圖比特在AI大模型的應用上有哪些獨特優(yōu)勢嗎?
A:我們的大模型績點華章,特別是在服務大傳媒行業(yè)的方面,具有很多優(yōu)勢。例如對于內(nèi)容安全的需
求,我們做了更加強有力的保障。績點華章有一個很強的特點是它在長文字或者高密度內(nèi)容的反饋能
力上,以及效果和效率上,較其他的模型有明顯優(yōu)勢。舉例來說,假如在出版行業(yè),一篇文章可能需
要處理10萬個,甚至幾十萬個字,我們的反饋時間要比其他模型快很多,也能更好地支持更高密度的
內(nèi)容和單詞識別。
Q:未來,您將如何工作以保持新圖比特在AI大模型應用中的領先地位?
A:我們看到,其實目前國內(nèi)應用端有明確方向并應用模型的公司并不多,所以很多大廠也都在找我
們,政府端也給了我們很多支持。所以像什么算力,包括一些其他資源對我們來說也相對比較富裕一
些。我們將在新的一年中,繼續(xù)以大傳媒行業(yè)為重心發(fā)力,和我們的股東以及合作伙伴一起,深耕大
傳媒行業(yè)的賽道。
Q:對于當下AI大模型領域,您怎么看待國內(nèi)外的競爭格局?
A:國內(nèi)外的競爭格局其實是指在大模型應用或者是技術進展的差距吧。
Q:OpenAI和GoogleMeta在AI領域的實力如何?國內(nèi)AI產(chǎn)業(yè)又處于什么位置?
A:OpenAI和GoogleMeta在AI領域享有著顯著的優(yōu)勢,他們都具有很強的實力。而國內(nèi)的大廠,雖然
能力也很強,但是本質(zhì)上仍處在稍次于前兩者之后的位置。這主要是由于AI領域的頭部效應顯著,這
使得相比于傳統(tǒng)互聯(lián)網(wǎng)其競爭格局表現(xiàn)出更強的優(yōu)勝劣汰特性。
Q:國內(nèi)AI企業(yè)的基礎與整合能力如何?

A:國內(nèi)從基礎科研角度來說,具有一定的能力,但在整個技術的整合能力上來說,前沿性則還是稍微
有所不足,尤其是在0到1的創(chuàng)新能力上。然而,對于從1擴展至100的能力,也就是優(yōu)化、精細化及規(guī)
模化應用的能力,我認為并不差。但綜合來看,由于AI領域的頭部效應過于強大,因此對于實力稍弱
的廠商來說,如果在低端業(yè)務上與頭部廠商進行直接競爭,風險較高。
Q:對于AI領域,國內(nèi)與國外的科研貢獻有何區(qū)別?
A:主要的論文和突破性研究大多來自國外,但中國也有優(yōu)秀的機構和大學積極參與研究并取得貢獻,
如浦江實驗室、清華大學和北京大學等。值得注意的是,盡管國內(nèi)有強大的基礎研究能力,但在工程
化轉(zhuǎn)化的能力上,國內(nèi)企業(yè)或機構相對較弱。
Q:Sora為國內(nèi)參與者帶來了哪些機會?
A:Sora為內(nèi)容創(chuàng)建者帶來了催化效應,將激發(fā)一些新的內(nèi)容創(chuàng)作衍生的可能。并且,從技術角度看,
Sora的運行并不需要特別強大的算力支撐,這使得更多人能夠參與進來。具體來說,產(chǎn)業(yè)上的表現(xiàn)可
能會鮮明地體現(xiàn)在視頻渲染與版權內(nèi)容創(chuàng)作等環(huán)節(jié)。
Q:Sora在哪些方面帶來了更多機會?你覺得哪些細分賽道與AI相關并且有更大的機會?
A:結(jié)合AI的發(fā)展,我認為整個大傳媒賽道應該都具有很大機會。具體而言,例如一些視頻方面的模
型,其實對于AI來說最大的困難是邏輯性問題,例如視覺表現(xiàn)的邏輯性和調(diào)度。但是在單鏡頭下的連
續(xù)性,目前已經(jīng)可以做得相對來說還可以,比如Sora更是在這個方面做出了優(yōu)秀的效果。
Q:Sora模型相比以前的模型更復雜,請問這種復雜性帶來的問題在短期內(nèi)有可能解決嗎?
A:模型復雜性確實帶來一些問題。比如視頻時間越長,由于模型的復雜性,算法所帶來的錯誤可能被
放大,導致視覺上的問題變得更明顯。而這個問題我認為在短期內(nèi)難以解決,除非誕生新的模型結(jié)
構。然而,一分鐘內(nèi)的視頻,算法帶來的視覺問題可能不會被人察覺,即使是長視頻,一分鐘時間的
分鏡頭已經(jīng)是足夠長的。因此,無論是廣告、電影還是動畫,視頻類應用基本可以適用這個一分鐘的
限制。
Q:Sora模型復雜,長視頻可能存在問題,這在投資層面上會有什么影響?
A:在投資層面上,我認為涉及到視頻行業(yè)的大型傳媒可能會有機會。然而,我看到的威脅來自于未來
渲染公司的風險,因為他們可能會被這些有模型的公司所替代。換句話說,無需渲染就可以直接生成
視頻,未來可能就會是導演、編劇、腳本后,模型自動生成視頻。
Q:Sora不采用transformer加擴散模型,是否是造成視頻模型沒有出現(xiàn)爆炸性效果的底層原因?是否
有其他像數(shù)據(jù)等因素的影響?
A:對于爆炸性效果沒有出現(xiàn),可能因素很多。這次的模型結(jié)構復雜化是一個關鍵因素,然后又將OBI
過去一些的產(chǎn)品和技術做了整合,形成了一個新產(chǎn)品,可能這使得它比其他的一些產(chǎn)品效果更爆炸。
數(shù)據(jù)影響也是可能的,例如他可能使用了一些游戲引擎數(shù)據(jù)等。具體的細節(jié)部分,目前公開的信息有
限,所以我們現(xiàn)在只能做出猜測。
Q:騷擾模型在生成3D或者多維數(shù)據(jù)方面,是否有利于他在數(shù)據(jù)收集方面具有特殊性?
A:從目前公布的信息來看,他確實會使用一些游戲引擎的數(shù)據(jù),游戲引擎生成的數(shù)據(jù),其實視覺效果
往往具有更大的沖擊力。但具體的細節(jié)部分仍未公開,我們只能推測他可能使用了一些合成數(shù)據(jù)。
Q:您對于國內(nèi)廠商在多模態(tài)AI視頻方面的進展有什么了解?

A:多模態(tài)AI視頻發(fā)展是個趨勢,許多大廠都在投入相關研發(fā),但過去商業(yè)化進程較緩慢,背后是因為
技術開發(fā)成本高且易用性較差。而我們最早曾投入過相似項目,例如"人工智能交響樂團"這個項目,但
并未形成明確的商業(yè)化路徑。我預期在Sora技術框架的推動下,國內(nèi)將會有大量廠商進行跟進。
Q:這種跟進過程中,國內(nèi)廠商可能面臨的技術難點和門檻是什么?
A:我認為該趨勢與GPT類模型的發(fā)展類似,首先會有大量廠商和研究機構投入大模型的研究和開發(fā),
同時也會開始積累大量數(shù)據(jù),主要是視頻類的數(shù)據(jù)。從整個時間窗口上看,大概需要1到2個月或2到3
個月的時間進行訓練。不過,國內(nèi)的廠商需要注意的是,生成式模型都會受到一定的管控,對于C端產(chǎn)
品,需要考慮到內(nèi)容安全類的風險。因此,我預測這一波國內(nèi)的發(fā)展會更加"頭部化"。
Q:多模態(tài)AI的技術應用場景有哪些?對如影視制作、游戲或者短視頻廣告等行業(yè)的影響程度有多大?
A:多模態(tài)AI可以高效地生成樣式類視頻,具有很高的生產(chǎn)效率,這將對廣告行業(yè)、動畫或影視制作行
業(yè)產(chǎn)生強烈沖擊。AI具有很強的創(chuàng)意性,能給出不受人類限制、具有新穎性的結(jié)果。我預測對于影視
制作、特效、廣告等創(chuàng)新要求高的領域,將產(chǎn)生巨大影響。因為AI技術能生產(chǎn)出一些像外太空、微觀
世界等的科幻主題的視頻,這對于吸引年輕人有著極大的優(yōu)勢。
Q:對短時間廣告,是否意味著它們可以被新的AI技術所替代?
A:對于一些短持續(xù)時間的廣告,AI的確能進行高效、高質(zhì)量的生成,即使現(xiàn)在的多模態(tài)視頻以一分鐘
為限制,因為大部分鏡頭的持續(xù)時間遠小于一分鐘。即使是一些只有幾秒鐘的短視頻,也能以高效的
方式生成。但是如果是鏡頭與鏡頭之間的銜接,主要取決于判斷和匹配能力,需要注意的是如果這個
能力不強,可能會導致銜接的效果不佳。
Q:Sora模型的商業(yè)化發(fā)展,產(chǎn)業(yè)內(nèi)后續(xù)有何看法?
A:商業(yè)化的情況相對復雜。對于中國區(qū)來說,由于外部政策影響,獲取測試賬號較為困難,申請流程
甚至可能比OpenAI初次推出GPT時更復雜。而對于海外市場,由于相對開放的政策環(huán)境,我預測很多
海外影視公司、動畫公司甚至短視頻網(wǎng)紅等可能會迅速跟進,開展Sora模型的應用。
Q:Sora模型是否對模擬和渲染虛擬環(huán)境以及動態(tài)生成3D資產(chǎn)有幫助?是否與像蘋果的M2,空間視頻
以及一些3D資產(chǎn)有結(jié)合性?
A:Sora模型在MR領域的應用確實有一定的潛力,其可以創(chuàng)建優(yōu)秀的虛擬環(huán)境并生成3D資產(chǎn)。具體到
與M2等交互類游戲的整合,我認為Sora模型可以服務于一些短鏡頭或短事件的體驗,比如可用于后端
服務端實現(xiàn)快速的實時渲染。此外,我預測未來可能有游戲開發(fā)者或工作室利用Sora模型接口開發(fā)生
成式多模態(tài)的游戲,應用可能包括養(yǎng)成類游戲或者第一視覺FPS游戲等。
Q:對于Sora模型可能基于文本生成視頻,或者基于現(xiàn)有的圖像或視頻進行編輯,執(zhí)行廣泛的圖像和
視頻任務,如會不會覆蓋原有的編輯工具,您有何看法?
A:Sora模型確實展示了在圖像和視頻編輯任務中很大的潛力,包括創(chuàng)建完美循環(huán)的視頻動畫、靜態(tài)圖
像等。其能夠基于文本生成視頻,也可以基于現(xiàn)有的圖像或者視頻進行編輯。未來可能會有基于sara
的新編輯工具出現(xiàn),對原有播主產(chǎn)生一定的顛覆性影響,這也是避免不了的發(fā)展趨勢。
Q:如何看待視頻和視頻之間的粘合以及未來可能出現(xiàn)的新輔助類工具?
A:這個確實是未來發(fā)展的重要方向,尤其是當我們處理視頻內(nèi)容、圖像或者網(wǎng)絡編輯等多模態(tài)的場景
時。這是一個新的生產(chǎn)場景,必然會帶來新的生產(chǎn)工具。雖然目前還沒有特定的工具進行實踐,但在

美國已經(jīng)有一些創(chuàng)業(yè)公司開始研究此類工具,這可以看作是工作流領域的一種迭代或創(chuàng)新。關于是否
有大型公司會投入這個領域的問題,我并不確定,但我相信大概率應該會有創(chuàng)業(yè)公司自己去做。
Q:對比Google模型和OpenAI的大型模型,你認為有哪些差異?
A:目前看來,Google可能會更專注于研究領域,例如它們在處理超長文本領域的研究,雖然我們也
在該領域有所涉獵,但相較之下Google可能會走得更遠,將這個能力進一步提升。然而,盡管Google
在研發(fā)上有優(yōu)勢,但在將技術前沿性轉(zhuǎn)化為產(chǎn)品的能力上,OpenAI的表現(xiàn)會更加出色。這是因為公開
的科研成果對所有人開放,大家實際競爭的是將學術成果整合進產(chǎn)業(yè)的能力,而在這一點上,OpenAI
的預見性和先進性更強,它的綜合能力也更具競爭力。
Q:當前OpenAI的領先地位是如何得到的?
A:OpenAI的領先地位主要來自于它的大模型和硬件資源,這使得它在全球范圍內(nèi)都保持領先。而在
處理像視頻這樣的多模態(tài)問題方面,我們也取得了一些突破,比如通過AI技術產(chǎn)生長達60秒的視頻,
這在目前的市場對手中是領先的。
Q:有沒有對AI及多模態(tài)模型的未來發(fā)展的一些看法?
A:對,我認為多模態(tài)模型未來的發(fā)展?jié)摿薮?,無論是在處理視頻,圖像還是網(wǎng)頁編輯等方面,都將
有很大發(fā)展。尤其是中國的大型AI模型在全球的發(fā)展中,也在持續(xù)跟進并有機會追趕國際潮流。并
且,國內(nèi)的AI研發(fā)在很多垂直的細分領域也有所突破,展示出強大的發(fā)展?jié)摿Α?/span>




  業(yè)務實施流程

需求調(diào)研 →

團隊組建和動員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡部署 →

系統(tǒng)部署試運行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓

售后服務

馬上咨詢: 如果您有業(yè)務方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術,還有行業(yè)經(jīng)驗積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生