2021十大人工智能趨勢(shì)：3D視覺(jué)技術(shù)助力產(chǎn)業(yè)消費(fèi)升級(jí)

來(lái)源：投影時(shí)代　更新日期：2021-06-13 作者：pjtime資訊組

CES消費(fèi)電子展專題報(bào)道年度評(píng)選盛典獲獎(jiǎng)揭曉

21世紀(jì)，人工智能為人類開(kāi)啟了一個(gè)新時(shí)代。人工智能產(chǎn)業(yè)已經(jīng)上升至國(guó)家支持產(chǎn)業(yè)，人工智能技術(shù)的發(fā)展對(duì)國(guó)家經(jīng)濟(jì)發(fā)展、產(chǎn)業(yè)轉(zhuǎn)型和技術(shù)進(jìn)步起著至關(guān)重要的作用。近日，在2021全球人工智能技術(shù)大會(huì)（GAITC 2021）上，騰訊優(yōu)圖聯(lián)合廈門大學(xué)人工智能研究院共同發(fā)布了《2021十大人工智能趨勢(shì)》，基于長(zhǎng)期對(duì)人工智能尤其是計(jì)算機(jī)視覺(jué)的研究洞察，提出3D視覺(jué)技術(shù)、數(shù)字內(nèi)容產(chǎn)業(yè)、AI多模態(tài)融合等方向的前沿預(yù)測(cè)。

趨勢(shì)報(bào)告顯示，3D視覺(jué)算法效果大幅提升雙重促進(jìn)視覺(jué)體驗(yàn)增強(qiáng)和生產(chǎn)成本下降，不斷推動(dòng)商業(yè)發(fā)展和個(gè)人消費(fèi)升級(jí)；AI與數(shù)字內(nèi)容產(chǎn)業(yè)的深度耦合，也將有希望為行業(yè)釋放更大的科技勢(shì)能，構(gòu)筑數(shù)字內(nèi)容生成新范式。

3D視覺(jué)技術(shù)助力產(chǎn)業(yè)消費(fèi)升級(jí)，淡化虛實(shí)邊界

作為視覺(jué)AI領(lǐng)域多年熱點(diǎn)研究方向之一，3D視覺(jué)技術(shù)的核心任務(wù)是對(duì)三維空間、物體及環(huán)境進(jìn)行真實(shí)還原與重建。隨著相關(guān)算法與硬件計(jì)算能力的不斷升級(jí)， 3D視覺(jué)算法效果得到大幅提升，三維幾何重建更加精細(xì)，表面紋理重建更加清晰，帶來(lái)更加逼真的視覺(jué)觀感。

近年來(lái)，諸多3D視覺(jué)研究成果為低成本高質(zhì)量的3D內(nèi)容生成提供了良好技術(shù)支撐，基于3D虛擬形象的舞臺(tái)演出、直播帶貨、教育互動(dòng)等應(yīng)用層出不窮，成為AI內(nèi)容產(chǎn)業(yè)全新發(fā)展方向。以此為基礎(chǔ)，結(jié)合5G時(shí)代流量帶寬的全面升級(jí)，帶有交互功能的3D虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、混合現(xiàn)實(shí)的3D視覺(jué)應(yīng)用將用戶體驗(yàn)向真實(shí)與虛擬的完美融合進(jìn)一步邁進(jìn)。

用戶會(huì)因?yàn)樘摂M偶像生動(dòng)自然的舞臺(tái)表演進(jìn)行打賞，會(huì)由于虛擬主播“賣力”地帶貨促銷而下單購(gòu)買，而線上平臺(tái)則依靠3D視覺(jué)技術(shù)大大降低內(nèi)容制作和IP運(yùn)營(yíng)成本，最終帶來(lái)社會(huì)商業(yè)發(fā)展模式與個(gè)人消費(fèi)習(xí)慣的顛覆與變革。展望未來(lái)，3D視覺(jué)技術(shù)將持續(xù)在包括游戲娛樂(lè)、影視制作、電商直播、醫(yī)療整形等眾多領(lǐng)域廣泛應(yīng)用，虛擬與現(xiàn)實(shí)的邊界將不斷淡化。

人工智能推動(dòng)數(shù)字內(nèi)容生成向新范式演進(jìn)

隨著數(shù)字文化產(chǎn)業(yè)的蓬勃發(fā)展，尤其是二次元文化滲透出圈，數(shù)字內(nèi)容產(chǎn)業(yè)面臨新一輪的需求升級(jí)，伴隨著5G商業(yè)化進(jìn)程的不斷加深，多元化、精品化的優(yōu)質(zhì)數(shù)字內(nèi)容將面臨更快的消費(fèi)節(jié)奏，與此同時(shí)，供給側(cè)仍存在巨大的產(chǎn)能缺口，數(shù)字內(nèi)容產(chǎn)業(yè)正處于勞動(dòng)密集型向科技密集型的轉(zhuǎn)型階段。

AI與數(shù)字內(nèi)容產(chǎn)業(yè)的深度耦合，將有希望為行業(yè)釋放更大的科技勢(shì)能，以GPT-3、DALL-E為代表的AI技術(shù)，已在文本、語(yǔ)音、圖像、視頻等內(nèi)容生成中取得了令人驚艷的結(jié)果，然而在精確性、泛化性、合理性方面仍然面臨挑戰(zhàn)，目前的前沿研究一方面探索從模型結(jié)構(gòu)（自動(dòng)化搜索等），訓(xùn)練形式（無(wú)監(jiān)督對(duì)比學(xué)習(xí)等）等方面提升精度效果；另一方面引入知識(shí)圖譜領(lǐng)域知識(shí)，向機(jī)器介紹常識(shí)和其他特定領(lǐng)域的知識(shí)進(jìn)而提升常識(shí)推理效果。

伴隨著技術(shù)的持續(xù)升級(jí)演進(jìn)，我們預(yù)見(jiàn)AI將逐步在數(shù)字內(nèi)容生成領(lǐng)域釋放引擎級(jí)的影響力，在內(nèi)容、平臺(tái)、技術(shù)多方合力引導(dǎo)下，構(gòu)筑數(shù)字內(nèi)容生成新范式。

多模態(tài)融合加速AI認(rèn)知升維

深度學(xué)習(xí)在多個(gè)人工智能的細(xì)分領(lǐng)域（如視覺(jué)，自然語(yǔ)言處理等）已日趨成熟化和規(guī)�；欢嬲龑�(shí)現(xiàn)通用人工智能，必然要將這些細(xì)分領(lǐng)域各自所針對(duì)的信息模態(tài)整合利用，即多模態(tài)融合。多模態(tài)融合的目標(biāo)是建立在圖像、文字、語(yǔ)音等的多模態(tài)信息識(shí)別的基礎(chǔ)上，實(shí)現(xiàn)不同模態(tài)信息的統(tǒng)一表征框架，從而起到1+1>2的作用。

典型的場(chǎng)景之一是通過(guò)圖文語(yǔ)音聯(lián)合識(shí)別，實(shí)現(xiàn)對(duì)隱晦和暗示性，招嫖廣告，兒童不良表情包等圖文混合內(nèi)容識(shí)別，支持審核業(yè)務(wù)深度打擊不良內(nèi)容。除了圖文融合等跨域模態(tài)融合，同域內(nèi)的不同信息維度同樣可以融合，如隨著深度生成技術(shù)的發(fā)展，當(dāng)前的人臉識(shí)別除了傳統(tǒng)的RGB圖外，還需要融合深度圖、紅外圖等信息來(lái)更好的防御越來(lái)越多元化的人臉偽造攻擊，實(shí)現(xiàn)更強(qiáng)的人臉?lè)烙?/P>

隨著人工智能認(rèn)知能力的提升，多模態(tài)融合也將會(huì)從圖文等實(shí)質(zhì)性模態(tài)，逐漸拓展到如物理關(guān)系，邏輯推斷，因果分析等知識(shí)性模態(tài)，從感知智能邁向認(rèn)知智能。

無(wú)監(jiān)督/弱監(jiān)督學(xué)習(xí)逐漸成為企業(yè)降本增效新利器

在過(guò)去的幾年中，深度學(xué)習(xí)所取得的巨大成功離不開(kāi)大規(guī)模標(biāo)注的數(shù)據(jù)集。大規(guī)模標(biāo)注成為企業(yè)發(fā)展過(guò)程中抬高交付成本、制約效果提升的主要因素之一。在此背景下，無(wú)監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)通過(guò)不使用標(biāo)簽或減少對(duì)標(biāo)簽數(shù)量、質(zhì)量的要求來(lái)迅速降低深度模型對(duì)于數(shù)據(jù)的標(biāo)注需求，使得原本無(wú)法利用的數(shù)據(jù)如今都可以加入到模型的訓(xùn)練中去，進(jìn)而由量變引發(fā)質(zhì)變。

可以預(yù)見(jiàn)的是，將有越來(lái)越多的人工智能企業(yè)會(huì)面臨從前期的迅速擴(kuò)張到穩(wěn)定期高效化運(yùn)作的新階段，而在這個(gè)過(guò)程中，無(wú)監(jiān)督/弱監(jiān)督學(xué)習(xí)無(wú)疑將成為他們過(guò)渡到這個(gè)階段的重要手段之一。

除此之外，自動(dòng)機(jī)器學(xué)習(xí)的自動(dòng)化程度與可解釋性提升、邊緣計(jì)算與人工智能加速融合、人工智能內(nèi)核芯片向類腦神經(jīng)計(jì)算方向演進(jìn)、AI算法公平性與隱私保護(hù)、人工智能技術(shù)向安全智能方向邁進(jìn)等趨勢(shì)，也成為趨勢(shì)報(bào)告的關(guān)注重點(diǎn)。

返回VR虛擬現(xiàn)實(shí)視頻道首頁(yè)