亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

微立頂科技

新聞資訊

創(chuàng)新 服務(wù) 價(jià)值

  3D視覺相關(guān)論文42篇

發(fā)布日期:2026/4/12 9:27:02      瀏覽量:

3D視覺相關(guān)論文42篇

[1] tttLRM: Test-Time Training for Long Context and Autoregressive 3D ReconstructiontttLRM:用于長(zhǎng)上下文和自回歸3D重建的測(cè)試時(shí)訓(xùn)練
摘要:我們提出了tttLRM,這是一種新穎的大型3D重建模型,它利用測(cè)試時(shí)訓(xùn)練(Test-Time Training,TTT)層,以線性計(jì)算復(fù)雜度實(shí)現(xiàn)長(zhǎng)上下文、自回歸3D重建,進(jìn)一步擴(kuò)展了模型的能力。我們的框架將多個(gè)圖像觀測(cè)值高效地壓縮到TTT層的快速權(quán)重中,在潛在空間中形成一種隱式3D表示,該表示可以解碼為各種顯式格式,例如用于下游應(yīng)用的高斯 splat(Gaussian Splats,GS)。我們模型的在線學(xué)習(xí)變體支持從流式觀測(cè)值進(jìn)行漸進(jìn)式3D重建和細(xì)化。我們證明了在新穎視圖合成任務(wù)上的預(yù)訓(xùn)練可以有效地遷移到顯式3D建模,從而提高重建質(zhì)量并加快收斂速度。大量實(shí)驗(yàn)表明,在對(duì)象和場(chǎng)景的前饋3D高斯重建方面,我們的方法比現(xiàn)有最先進(jìn)的方法表現(xiàn)更優(yōu)。

[2] Flow3r: Factored Flow Prediction for Scalable Visual Geometry LearningFlow3r:用于可擴(kuò)展視覺幾何學(xué)習(xí)的因式分解光流預(yù)測(cè)
摘要:當(dāng)前的前饋3D/4D重建系統(tǒng)依賴于密集的幾何和位姿監(jiān)督,而獲取這些監(jiān)督在大規(guī)模場(chǎng)景下成本高昂,并且在動(dòng)態(tài)現(xiàn)實(shí)場(chǎng)景中尤其稀缺。我們提出了Flow3r框架,該框架以密集的2D對(duì)應(yīng)關(guān)系(“光流”)作為監(jiān)督來增強(qiáng)視覺幾何學(xué)習(xí),從而能夠從無標(biāo)簽的單目視頻中進(jìn)行可擴(kuò)展的訓(xùn)練。我們的關(guān)鍵見解是,光流預(yù)測(cè)模塊應(yīng)該進(jìn)行因式分解:利用一張圖像的幾何潛變量和另一張圖像的位姿潛變量來預(yù)測(cè)兩張圖像之間的光流。這種因式分解直接引導(dǎo)場(chǎng)景幾何和相機(jī)運(yùn)動(dòng)的學(xué)習(xí),并且自然地?cái)U(kuò)展到動(dòng)態(tài)場(chǎng)景。在可控實(shí)驗(yàn)中,我們表明因式分解光流預(yù)測(cè)優(yōu)于其他設(shè)計(jì),并且性能隨著無標(biāo)簽數(shù)據(jù)的增加而持續(xù)提升。將因式分解光流集成到現(xiàn)有的視覺幾何架構(gòu)中,并使用約80萬個(gè)無標(biāo)簽視頻進(jìn)行訓(xùn)練,F(xiàn)low3r在涵蓋靜態(tài)和動(dòng)態(tài)場(chǎng)景的八個(gè)基準(zhǔn)測(cè)試中取得了最先進(jìn)的結(jié)果,在野外動(dòng)態(tài)視頻上的提升最大,因?yàn)樵谶@些場(chǎng)景中標(biāo)簽數(shù)據(jù)最為稀缺。

[3] SEAL-pose: Enhancing 3D Human Pose Estimation via a Learned Loss for Structural ConsistencySEAL-pose:通過學(xué)習(xí)結(jié)構(gòu)一致性損失提升3D人體姿態(tài)估計(jì)
摘要:3D人體姿態(tài)估計(jì)(HPE)的特點(diǎn)是關(guān)節(jié)之間存在復(fù)雜的局部和全局依賴關(guān)系。傳統(tǒng)的監(jiān)督損失在捕捉這些相關(guān)性方面存在局限性,因?yàn)樗鼈儶?dú)立處理每個(gè)關(guān)節(jié)。此前的研究曾嘗試通過手動(dòng)設(shè)計(jì)的先驗(yàn)或基于規(guī)則的約束來促進(jìn)結(jié)構(gòu)一致性;然而,這些方法通常需要手動(dòng)指定,并且往往不可微,限制了它們作為端到端訓(xùn)練目標(biāo)的使用。我們提出了SEAL-pose,這是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的框架,其中一個(gè)可學(xué)習(xí)的損失網(wǎng)絡(luò)(loss-net)通過評(píng)估結(jié)構(gòu)合理性來訓(xùn)練姿態(tài)網(wǎng)絡(luò)(pose-net)。我們基于關(guān)節(jié)圖的設(shè)計(jì)無需依賴手工制作的先驗(yàn),使損失網(wǎng)絡(luò)能夠直接從數(shù)據(jù)中學(xué)習(xí)復(fù)雜的結(jié)構(gòu)依賴關(guān)系。在三個(gè)3D HPE基準(zhǔn)測(cè)試和八個(gè)骨干網(wǎng)絡(luò)上進(jìn)行的大量實(shí)驗(yàn)表明,與所有設(shè)置下的相應(yīng)骨干網(wǎng)絡(luò)相比,SEAL-pose降低了每個(gè)關(guān)節(jié)的誤差并提高了姿態(tài)的合理性。除了改進(jìn)每個(gè)骨干網(wǎng)絡(luò)之外,盡管沒有實(shí)施任何明確的結(jié)構(gòu)約束,SEAL-pose也優(yōu)于具有顯式結(jié)構(gòu)約束的模型。最后,我們分析了損失網(wǎng)絡(luò)與結(jié)構(gòu)一致性之間的關(guān)系,并在跨數(shù)據(jù)集和野外設(shè)置中評(píng)估了SEAL-pose。

[4] Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging SegmentationToken-UNet:將Transformer集成到高效且可解釋的3D UNet中用于腦成像分割的新案例
摘要:我們提出了Token-UNet,采用TokenLearner和TokenFuser模塊將Transformer融入U(xiǎn)Net。雖然Transformer在醫(yī)學(xué)成像中實(shí)現(xiàn)了輸入元素之間的全局交互,但當(dāng)前的計(jì)算挑戰(zhàn)阻礙了它們?cè)谄胀ㄓ布系牟渴?。?Swin)UNETR這樣的模型通過整合(Swin)Transformer編碼器來調(diào)整UNet架構(gòu),這些編碼器處理每個(gè)代表輸入小體素塊($8^3$體素)的令牌。Transformer注意力機(jī)制的計(jì)算復(fù)雜度與令牌數(shù)量呈二次方關(guān)系,而令牌數(shù)量與3D輸入分辨率的立方成正比。這項(xiàng)工作重新審視了卷積和注意力的作用,引入了Token-UNet,這是一系列可以在受限計(jì)算環(huán)境和時(shí)間框架內(nèi)運(yùn)行的3D分割模型。為了減輕計(jì)算需求,我們的方法保留了類UNet模型的卷積編碼器,并將TokenLearner應(yīng)用于3D特征圖。該模塊從局部和全局結(jié)構(gòu)中匯集預(yù)設(shè)數(shù)量的令牌。我們的結(jié)果表明,這種令牌化有效地編碼了與任務(wù)相關(guān)的信息,產(chǎn)生了自然可解釋的注意力圖。我們最重的模型的內(nèi)存占用、推理計(jì)算時(shí)間和參數(shù)數(shù)量分別降至SwinUNETR的33%、10%和35%,并且平均性能更好(SwinUNETR的Dice分?jǐn)?shù)為86.75% $\pm$ 0.19%,而我們的為87.21% $\pm$ 0.35%)。這項(xiàng)工作為在計(jì)算資源有限的環(huán)境(如3D醫(yī)學(xué)成像)中進(jìn)行更高效的訓(xùn)練開辟了道路。在有限的硬件環(huán)境中簡(jiǎn)化模型優(yōu)化、微調(diào)以及遷移學(xué)習(xí)可以加速和多樣化方法的發(fā)展,造福研究界。

[5] Learning Positive-Incentive Point Sampling in Neural Implicit Fields for Object Pose Estimation用于目標(biāo)姿態(tài)估計(jì)的神經(jīng)隱式場(chǎng)正激勵(lì)點(diǎn)采樣學(xué)習(xí)
摘要:學(xué)習(xí)3D形狀的神經(jīng)隱式場(chǎng)是一個(gè)迅速發(fā)展的領(lǐng)域,它能夠以任意分辨率進(jìn)行形狀表示。由于其靈活性,神經(jīng)隱式場(chǎng)已在許多研究領(lǐng)域取得成功,包括形狀重建、新穎視角圖像合成,以及最近的目標(biāo)姿態(tài)估計(jì)。神經(jīng)隱式場(chǎng)能夠?qū)W習(xí)相機(jī)空間和物體規(guī)范空間之間的密集對(duì)應(yīng)關(guān)系,包括相機(jī)空間中未觀察到的區(qū)域,這在諸如高度遮擋物體和新穎形狀等具有挑戰(zhàn)性的場(chǎng)景中顯著提高了目標(biāo)姿態(tài)估計(jì)的性能。盡管取得了進(jìn)展,但由于缺乏直接的觀測(cè)信號(hào),為相機(jī)空間中未觀察到的區(qū)域預(yù)測(cè)規(guī)范坐標(biāo)仍然具有挑戰(zhàn)性。這就需要高度依賴模型的泛化能力,從而導(dǎo)致高不確定性。因此,在整個(gè)相機(jī)空間中密集采樣點(diǎn)可能會(huì)產(chǎn)生不準(zhǔn)確的估計(jì),這會(huì)阻礙學(xué)習(xí)過程并降低性能。為緩解這一問題,我們提出了一種將SO(3)等變卷積隱式網(wǎng)絡(luò)與正激勵(lì)點(diǎn)采樣(PIPS)策略相結(jié)合的方法。SO(3)等變卷積隱式網(wǎng)絡(luò)在任意查詢位置以SO(3)等變性估計(jì)點(diǎn)級(jí)屬性,與大多數(shù)現(xiàn)有基線相比表現(xiàn)出更優(yōu)的性能。PIPS策略根據(jù)輸入動(dòng)態(tài)確定采樣位置,從而提高了網(wǎng)絡(luò)的準(zhǔn)確性和訓(xùn)練效率。我們的方法在三個(gè)姿態(tài)估計(jì)數(shù)據(jù)集上優(yōu)于現(xiàn)有最先進(jìn)的方法。值得注意的是,它在具有挑戰(zhàn)性的場(chǎng)景中表現(xiàn)出顯著的改進(jìn),例如以未見姿態(tài)捕獲的物體、高度遮擋、新穎幾何形狀和嚴(yán)重噪聲等情況。

[6] Augmented Radiance Field: A General Framework for Enhanced Gaussian Splatting增強(qiáng)輻射場(chǎng):用于增強(qiáng)高斯 splatting 的通用框架
摘要:由于實(shí)時(shí)渲染性能,3D 高斯 splatting(3DGS)已成為輻射場(chǎng)重建的領(lǐng)先方法。然而,它依賴球諧函數(shù)進(jìn)行顏色編碼,這從本質(zhì)上限制了其分離漫反射和鏡面反射分量的能力,使得準(zhǔn)確表示復(fù)雜反射變得具有挑戰(zhàn)性。為了解決這個(gè)問題,我們提出了一種新穎的增強(qiáng)高斯核,該核通過與視角相關(guān)的不透明度顯式建模鏡面反射效果。同時(shí),我們引入了一種基于誤差驅(qū)動(dòng)的補(bǔ)償策略,以提高現(xiàn)有 3DGS 場(chǎng)景的渲染質(zhì)量。我們的方法從 2D 高斯初始化開始,然后自適應(yīng)地插入和優(yōu)化增強(qiáng)高斯核,最終生成一個(gè)增強(qiáng)輻射場(chǎng)。實(shí)驗(yàn)表明,我們的方法不僅在渲染性能上超越了現(xiàn)有最先進(jìn)的 NeRF 方法,還實(shí)現(xiàn)了更高的參數(shù)效率。項(xiàng)目頁面:xiaoxinyyx.github.io/au.

[7] Monocular Mesh Recovery and Body Measurement of Female Saanen Goats雌性薩能山羊的單目網(wǎng)格恢復(fù)與身體測(cè)量
摘要:以高產(chǎn)奶量著稱的薩能奶山羊的泌乳性能與其體型密切相關(guān),因此準(zhǔn)確的3D身體測(cè)量對(duì)于評(píng)估其產(chǎn)奶潛力至關(guān)重要。然而,現(xiàn)有的重建方法缺乏針對(duì)山羊的真實(shí)3D數(shù)據(jù)。為解決這一局限性,我們建立了FemaleSaanenGoat數(shù)據(jù)集,該數(shù)據(jù)集包含55只6 - 18個(gè)月大的雌性薩能山羊的同步八視圖RGBD視頻。我們使用多視圖DynamicFusion將嘈雜、非剛性的點(diǎn)云序列融合成高保真的3D掃描,克服了不規(guī)則表面和快速運(yùn)動(dòng)帶來的挑戰(zhàn)?;谶@些掃描,我們開發(fā)了專門為雌性薩能山羊設(shè)計(jì)的參數(shù)化3D形狀模型SaanenGoat。該模型具有一個(gè)包含41個(gè)骨骼關(guān)節(jié)的精細(xì)模板,并增強(qiáng)了乳房表示,與我們的掃描數(shù)據(jù)進(jìn)行了配準(zhǔn)。由48只山羊構(gòu)建的綜合形狀空間能夠精確表示各種個(gè)體差異。借助SaanenGoat模型,我們可以從單視圖RGBD輸入中實(shí)現(xiàn)高精度的3D重建,并實(shí)現(xiàn)對(duì)六個(gè)關(guān)鍵身體尺寸的自動(dòng)測(cè)量:體長(zhǎng)、體高、胸寬、胸圍、臀寬和臀高。實(shí)驗(yàn)結(jié)果表明,我們的方法在3D重建和身體測(cè)量方面具有卓越的準(zhǔn)確性,為精準(zhǔn)畜牧養(yǎng)殖中的大規(guī)模3D視覺應(yīng)用提供了一種新范式。

[8] BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose RepresentationsBigMaQ:一個(gè)連接圖像和3D姿態(tài)表示的大型獼猴運(yùn)動(dòng)與動(dòng)畫數(shù)據(jù)集
摘要:動(dòng)物動(dòng)態(tài)和社交行為的識(shí)別對(duì)于推動(dòng)動(dòng)物行為學(xué)、生態(tài)學(xué)、醫(yī)學(xué)和神經(jīng)科學(xué)的發(fā)展至關(guān)重要。深度學(xué)習(xí)的最新進(jìn)展使得從視頻中實(shí)現(xiàn)自動(dòng)化行為識(shí)別成為可能,但三維(3D)姿態(tài)和形狀的精確重建尚未融入這一過程。特別是對(duì)于非人類靈長(zhǎng)類動(dòng)物,基于網(wǎng)格的跟蹤工作落后于其他物種,使得姿態(tài)描述僅限于稀疏的關(guān)鍵點(diǎn),無法完全捕捉動(dòng)作動(dòng)態(tài)的豐富性。為了彌補(bǔ)這一差距,我們引入了大獼猴3D運(yùn)動(dòng)與動(dòng)畫數(shù)據(jù)集(BigMaQ),這是一個(gè)大規(guī)模數(shù)據(jù)集,包含超過750個(gè)相互交互的恒河猴場(chǎng)景,并配有詳細(xì)的3D姿態(tài)描述。我們擴(kuò)展了先前基于表面的動(dòng)物跟蹤方法,通過將高質(zhì)量的獼猴模板網(wǎng)格適配到每只個(gè)體猴子,構(gòu)建了特定個(gè)體的紋理化化身。這使得我們能夠提供比先前最先進(jìn)的基于表面的動(dòng)物跟蹤方法更精確的姿態(tài)描述。從原始數(shù)據(jù)集中,我們衍生出BigMaQ500,這是一個(gè)動(dòng)作識(shí)別基準(zhǔn),它將基于表面的姿態(tài)向量與多只個(gè)體猴子的單幀圖像相關(guān)聯(lián)。通過將從已有的圖像和視頻編碼器中提取的特征與我們的姿態(tài)描述符(有或沒有)進(jìn)行配對(duì),我們證明了在包含姿態(tài)信息時(shí),平均精度均值(mAP)有顯著提升。通過這些貢獻(xiàn),BigMaQ建立了第一個(gè)將動(dòng)態(tài)3D姿態(tài) - 形狀表示融入動(dòng)物動(dòng)作識(shí)別學(xué)習(xí)任務(wù)的數(shù)據(jù)集,并為推進(jìn)非人類靈長(zhǎng)類動(dòng)物的視覺外觀、姿勢(shì)和社交互動(dòng)研究提供了豐富的資源。代碼和數(shù)據(jù)可在martinivis.github.io/Bi 上公開獲取。

[9] Open-vocabulary 3D scene perception in industrial environments工業(yè)環(huán)境中的開放詞匯3D場(chǎng)景感知
摘要:生產(chǎn)、廠內(nèi)物流或制造環(huán)境中的自主視覺應(yīng)用需要具備超越一小部分固定類別的感知能力。最近的開放詞匯方法利用2D視覺語言基礎(chǔ)模型(VLFMs)來解決這一任務(wù),但這些方法通常依賴于在非工業(yè)數(shù)據(jù)集(如家庭場(chǎng)景)上預(yù)訓(xùn)練的無類別分割模型。在這項(xiàng)工作中,我們首先證明了此類模型無法泛化,在常見工業(yè)對(duì)象上表現(xiàn)不佳。因此,我們提出了一種無需訓(xùn)練的開放詞匯3D感知管道,克服了這一局限性。我們的方法不是使用預(yù)訓(xùn)練模型來生成實(shí)例提議,而是根據(jù)預(yù)計(jì)算的超點(diǎn)的語義特征將它們合并以生成掩碼。隨后,我們?cè)谝粋€(gè)具有代表性的3D工業(yè)車間場(chǎng)景上評(píng)估了經(jīng)過領(lǐng)域適配的VLFM “IndustrialCLIP” 以進(jìn)行開放詞匯查詢。我們的定性結(jié)果展示了對(duì)工業(yè)對(duì)象的成功分割。

[10] One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single ImageOne2Scene:從單張圖像生成幾何一致的可探索3D場(chǎng)景
摘要:從單張圖像生成可探索的3D場(chǎng)景是3D視覺領(lǐng)域極具挑戰(zhàn)性的問題?,F(xiàn)有方法難以支持自由探索,當(dāng)視角遠(yuǎn)離原始視角時(shí),往往會(huì)產(chǎn)生嚴(yán)重的幾何畸變和噪聲偽影。我們提出了One2Scene,這是一個(gè)有效的框架,它將這個(gè)不適定問題分解為三個(gè)易于處理的子任務(wù),以實(shí)現(xiàn)沉浸式可探索場(chǎng)景的生成。我們首先使用全景圖生成器從單張輸入圖像生成錨點(diǎn)視圖作為初始化。然后,通過一個(gè)可泛化的前饋高斯模糊網(wǎng)絡(luò)(Gaussian Splatting network)將這些2D錨點(diǎn)提升為顯式的3D幾何支架。我們沒有將全景圖作為單張圖像進(jìn)行重建,而是將其投影到多個(gè)稀疏錨點(diǎn)視圖中,并將重建任務(wù)重新表述為多視圖立體匹配,這使我們能夠利用從大規(guī)模多視圖數(shù)據(jù)集中學(xué)習(xí)到的強(qiáng)大幾何先驗(yàn)。使用雙向特征融合模塊來確保跨視圖一致性,從而得到一個(gè)高效且?guī)缀慰煽康闹Ъ堋W詈?,該支架作為一個(gè)強(qiáng)大的先驗(yàn),用于一個(gè)新穎視圖生成器,以在任意相機(jī)位置生成逼真且?guī)缀螠?zhǔn)確的視圖。通過明確地基于3D一致的支架進(jìn)行重建,One2Scene在大相機(jī)運(yùn)動(dòng)下能夠穩(wěn)定工作,支持沉浸式場(chǎng)景探索。大量實(shí)驗(yàn)表明,One2Scene在全景深度估計(jì)、前饋360°重建和可探索3D場(chǎng)景生成方面顯著優(yōu)于現(xiàn)有最先進(jìn)的方法。代碼和模型將被發(fā)布。

[11] Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications基于樹枝圖像訓(xùn)練深度立體匹配網(wǎng)絡(luò):實(shí)時(shí)無人機(jī)林業(yè)應(yīng)用的基準(zhǔn)研究
摘要:基于自主無人機(jī)的樹木修剪需要通過立體相機(jī)進(jìn)行準(zhǔn)確、實(shí)時(shí)的深度估計(jì)。深度是使用公式 $Z = f B/d$ 從視差圖計(jì)算得出的,因此即使是很小的視差誤差,在工作距離下也會(huì)導(dǎo)致明顯的深度錯(cuò)誤?;谖覀?cè)缙诘难芯浚ㄔ撗芯看_定DEFOM-Stereo是植被場(chǎng)景中最佳的參考視差生成器),我們首次開展了在真實(shí)樹枝圖像上訓(xùn)練和測(cè)試十種深度立體匹配網(wǎng)絡(luò)的研究。我們使用了坎特伯雷樹枝數(shù)據(jù)集(Canterbury Tree Branches dataset),該數(shù)據(jù)集包含來自ZED Mini相機(jī)的5313對(duì)1080P和720P立體圖像對(duì),并以DEFOM生成的視差圖作為訓(xùn)練目標(biāo)。這十種方法涵蓋了逐步細(xì)化、3D卷積、邊緣感知注意力和輕量級(jí)設(shè)計(jì)。使用感知指標(biāo)(SSIM、LPIPS、ViTScore)和結(jié)構(gòu)指標(biāo)(SIFT/ORB特征匹配),我們發(fā)現(xiàn)BANet - 3D產(chǎn)生的整體質(zhì)量最佳(SSIM = 0.883,LPIPS = 0.157),而RAFT - Stereo在場(chǎng)景級(jí)理解方面得分最高(ViTScore = 0.799)。在安裝在我們無人機(jī)上的NVIDIA Jetson Orin Super(16 GB,獨(dú)立供電)上進(jìn)行測(cè)試表明,AnyNet在1080P分辨率下達(dá)到6.99 FPS,是唯一接近實(shí)時(shí)的選項(xiàng),而BANet - 2D在1.21 FPS時(shí)實(shí)現(xiàn)了最佳的質(zhì)量 - 速度平衡。我們還比較了720P和1080P的處理時(shí)間,以指導(dǎo)林業(yè)無人機(jī)系統(tǒng)的分辨率選擇。

[12] RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting ProcessingRAP: 用于高效3D高斯 splatting 處理的快速前饋無渲染屬性引導(dǎo)的基元重要性分?jǐn)?shù)預(yù)測(cè)
摘要:3D高斯 splatting (3DGS) 已成為高質(zhì)量3D場(chǎng)景重建的領(lǐng)先技術(shù)。然而,迭代細(xì)化和致密化過程會(huì)生成大量基元,每個(gè)基元對(duì)重建的貢獻(xiàn)程度有很大差異。因此,估計(jì)基元的重要性至關(guān)重要,這既有助于在重建過程中去除冗余,也能實(shí)現(xiàn)高效的壓縮和傳輸?,F(xiàn)有方法通常依賴基于渲染的分析,即通過每個(gè)基元在多個(gè)相機(jī)視角下的貢獻(xiàn)來評(píng)估。然而,這些方法對(duì)視角的數(shù)量和選擇很敏感,依賴專門的可微光柵化器,并且計(jì)算時(shí)間會(huì)隨視角數(shù)量線性增長(zhǎng),這使得它們難以作為即插即用的模塊集成,限制了可擴(kuò)展性和泛化性。為解決這些問題,我們提出了 RAP,這是一種用于3DGS中高效重要性分?jǐn)?shù)預(yù)測(cè)的快速前饋無渲染屬性引導(dǎo)方法。RAP 直接從高斯的固有屬性和局部鄰域統(tǒng)計(jì)信息推斷基元的重要性,避免了基于渲染或依賴可見性的計(jì)算。一個(gè)緊湊的多層感知器 (MLP) 使用渲染損失、剪枝感知損失和重要性分布正則化來預(yù)測(cè)每個(gè)基元的重要性分?jǐn)?shù)。在少量場(chǎng)景上進(jìn)行訓(xùn)練后,RAP 能有效地泛化到未見數(shù)據(jù),并且可以無縫集成到重建、壓縮和傳輸管道中。我們的代碼可在 github.com/yyyykf/RAP 上公開獲取。

[13] VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving EnvironmentsVGGT-MPR:自動(dòng)駕駛環(huán)境中基于VGGT增強(qiáng)的多模態(tài)場(chǎng)景識(shí)別
摘要:在自動(dòng)駕駛中,可靠的場(chǎng)景識(shí)別對(duì)于全局定位和閉環(huán)檢測(cè)至關(guān)重要。雖然多模態(tài)場(chǎng)景識(shí)別(MPR)中相機(jī)和激光雷達(dá)數(shù)據(jù)的跨模態(tài)融合在克服單模態(tài)方法的局限性方面顯示出了潛力,但現(xiàn)有的MPR方法主要依賴手工設(shè)計(jì)的融合策略和參數(shù)眾多的骨干網(wǎng)絡(luò),需要進(jìn)行代價(jià)高昂的重新訓(xùn)練。為了解決這一問題,我們提出了VGGT-MPR,這是一個(gè)多模態(tài)場(chǎng)景識(shí)別框架,它采用視覺幾何基礎(chǔ)Transformer(VGGT)作為統(tǒng)一的幾何引擎,用于全局檢索和重排序。在全局檢索階段,VGGT通過先驗(yàn)深度感知和點(diǎn)云地圖監(jiān)督提取富含幾何信息的視覺嵌入,并利用預(yù)測(cè)的深度圖對(duì)稀疏的激光雷達(dá)點(diǎn)云進(jìn)行致密化處理,以提高結(jié)構(gòu)表示能力。這增強(qiáng)了融合后的多模態(tài)特征的判別能力,并生成用于快速檢索的全局描述符。除了全局檢索,我們還設(shè)計(jì)了一種無需訓(xùn)練的重排序機(jī)制,該機(jī)制利用了VGGT的跨視圖關(guān)鍵點(diǎn)跟蹤能力。通過將掩碼引導(dǎo)的關(guān)鍵點(diǎn)提取與置信度感知的對(duì)應(yīng)評(píng)分相結(jié)合,我們提出的重排序機(jī)制無需額外的參數(shù)優(yōu)化即可有效細(xì)化檢索結(jié)果。在大規(guī)模自動(dòng)駕駛基準(zhǔn)數(shù)據(jù)集和我們自行采集的數(shù)據(jù)上進(jìn)行的大量實(shí)驗(yàn)表明,VGGT-MPR達(dá)到了當(dāng)前最優(yōu)性能,對(duì)嚴(yán)重的環(huán)境變化、視角變化和遮擋具有很強(qiáng)的魯棒性。我們的代碼和數(shù)據(jù)將公開提供。

[14] Generative 6D Pose Estimation via Conditional Flow Matching通過條件流匹配進(jìn)行生成式6D姿態(tài)估計(jì)
摘要:現(xiàn)有的實(shí)例級(jí)6D姿態(tài)估計(jì)方法通常依賴于神經(jīng)網(wǎng)絡(luò),這些網(wǎng)絡(luò)要么直接在SE(3)中回歸姿態(tài),要么通過局部特征匹配間接估計(jì)姿態(tài)。前者在處理物體對(duì)稱性方面存在困難,而后者在缺乏獨(dú)特局部特征的情況下會(huì)失效。為克服這些局限性,我們提出了一種將6D姿態(tài)估計(jì)作為R3中的條件流匹配問題的新公式。我們引入了Flose,這是一種生成式方法,通過基于局部特征的去噪過程來推斷物體姿態(tài)。雖然之前基于條件流匹配的方法僅基于幾何引導(dǎo)進(jìn)行去噪,但Flose集成了基于外觀的語義特征,以減輕物體對(duì)稱性造成的歧義。我們進(jìn)一步結(jié)合基于RANSAC的配準(zhǔn)來處理離群點(diǎn)。我們?cè)贐OP基準(zhǔn)的五個(gè)數(shù)據(jù)集上驗(yàn)證了Flose。Flose以平均4.5的平均召回率提升優(yōu)于先前的方法。項(xiàng)目網(wǎng)站:tev-fbk.github.io/Flose

[15] BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPUBayesFusion-SDF:基于CPU的概率符號(hào)距離融合與視圖規(guī)劃
摘要:從深度觀測(cè)進(jìn)行密集3D重建是機(jī)器人技術(shù)、增強(qiáng)現(xiàn)實(shí)和數(shù)字檢測(cè)的關(guān)鍵部分。傳統(tǒng)的體素融合技術(shù),包括截?cái)喾?hào)距離函數(shù)(TSDF),能夠?qū)崿F(xiàn)高效且確定性的幾何重建;然而,它們依賴于啟發(fā)式加權(quán),并且無法以系統(tǒng)的方式透明地傳達(dá)不確定性。另一方面,最近的神經(jīng)隱式方法雖然能獲得非常高的保真度,但通常需要大量的GPU算力進(jìn)行優(yōu)化,并且對(duì)于后續(xù)決策來說不太容易理解。本文提出了BayesFusion-SDF,這是一個(gè)以CPU為中心的概率符號(hào)距離融合框架,該框架將幾何概念化為一個(gè)稀疏高斯隨機(jī)場(chǎng),在體素距離上具有定義好的后驗(yàn)分布。首先,使用粗略的TSDF重建來創(chuàng)建一個(gè)自適應(yīng)窄帶域。然后,使用異方差貝葉斯公式結(jié)合深度觀測(cè),該公式通過稀疏線性代數(shù)和預(yù)條件共軛梯度法求解。隨機(jī)對(duì)角估計(jì)器是一種快速獲取后驗(yàn)不確定性估計(jì)的方法。這使得能夠在考慮不確定性的情況下提取表面并規(guī)劃下一個(gè)最佳視圖。在受控消融場(chǎng)景和CO3D對(duì)象序列上的測(cè)試表明,新方法在幾何上比TSDF基線更準(zhǔn)確,并為主動(dòng)感知提供了有用的不確定性估計(jì)。所提出的公式為依賴GPU的神經(jīng)重建方法提供了一種清晰且易于使用的替代方案,同時(shí)仍能以概率方式理解并可預(yù)測(cè)地行動(dòng)。GitHub:mazumdarsoumya.github.io

[16] TeHOR: Text-Guided 3D Human and Object Reconstruction with TexturesTeHOR:基于紋理的文本引導(dǎo)3D人體與物體重建
摘要:從單張圖像中聯(lián)合重建3D人體和物體是一個(gè)活躍的研究領(lǐng)域,在機(jī)器人技術(shù)和數(shù)字內(nèi)容創(chuàng)作中有著關(guān)鍵應(yīng)用。盡管近期取得了進(jìn)展,但現(xiàn)有方法存在兩個(gè)基本局限性。首先,它們的重建嚴(yán)重依賴物理接觸信息,本質(zhì)上無法捕捉非接觸式的人體 - 物體交互,例如凝視或指向物體。其次,重建過程主要由局部幾何接近度驅(qū)動(dòng),忽略了人體和物體外觀所提供的對(duì)于理解整體交互至關(guān)重要的全局上下文。為解決這些問題,我們引入了TeHOR,這是一個(gè)基于兩個(gè)核心設(shè)計(jì)構(gòu)建的框架。首先,除了接觸信息之外,我們的框架利用人體 - 物體交互的文本描述來強(qiáng)制3D重建與其文本線索之間的語義對(duì)齊,從而能夠?qū)Ω鼜V泛的交互進(jìn)行推理,包括非接觸情況。其次,我們將3D人體和物體的外觀線索納入對(duì)齊過程,以捕捉整體上下文信息,從而確保視覺上合理的重建。因此,我們的框架能夠產(chǎn)生準(zhǔn)確且語義連貫的重建結(jié)果,達(dá)到了當(dāng)前的最優(yōu)性能。

[17] DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-SpacesDICArt:推進(jìn)離散狀態(tài)空間中的類別級(jí)可鉸接物體姿態(tài)估計(jì)
摘要:可鉸接物體姿態(tài)估計(jì)是具身人工智能中的一項(xiàng)核心任務(wù)?,F(xiàn)有方法通常在連續(xù)空間中回歸姿態(tài),但往往難以應(yīng)對(duì)以下兩個(gè)問題:1) 探索龐大復(fù)雜的搜索空間;2) 未能納入內(nèi)在運(yùn)動(dòng)學(xué)約束。在這項(xiàng)工作中,我們引入了DICArt(用于鉸接姿態(tài)估計(jì)的離散擴(kuò)散模型),這是一個(gè)將姿態(tài)估計(jì)表述為條件離散擴(kuò)散過程的新穎框架。DICArt并非在連續(xù)域中操作,而是通過學(xué)習(xí)到的反向擴(kuò)散過程逐步對(duì)有噪聲的姿態(tài)表示進(jìn)行去噪,以恢復(fù)真實(shí)姿態(tài)。為了提高建模精度,我們提出了一種靈活的流決策器,它能動(dòng)態(tài)確定每個(gè)令牌是應(yīng)該去噪還是重置,從而在擴(kuò)散過程中有效平衡真實(shí)分布和噪聲分布。此外,我們還采用了一種分層運(yùn)動(dòng)學(xué)耦合策略,按層次估計(jì)每個(gè)剛體部件的姿態(tài),以遵循物體的運(yùn)動(dòng)學(xué)結(jié)構(gòu)。我們?cè)诤铣蓴?shù)據(jù)集和真實(shí)世界數(shù)據(jù)集上對(duì)DICArt進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果證明了其卓越的性能和魯棒性。通過將離散生成建模與結(jié)構(gòu)先驗(yàn)相結(jié)合,DICArt為復(fù)雜環(huán)境中可靠的類別級(jí)6D姿態(tài)估計(jì)提供了一種新范式。

[18] Vinedresser3D: Agentic Text-guided 3D EditingVinedresser3D:基于智能體的文本引導(dǎo)3D編輯
摘要:文本引導(dǎo)的3D編輯旨在使用自然語言指令修改現(xiàn)有的3D資產(chǎn)。當(dāng)前方法難以同時(shí)理解復(fù)雜提示、在3D中自動(dòng)定位編輯位置以及保留未編輯內(nèi)容。我們引入了Vinedresser3D,這是一個(gè)直接在原生3D生成模型的潛在空間中運(yùn)行的高質(zhì)量文本引導(dǎo)3D編輯的智能體框架。給定一個(gè)3D資產(chǎn)和一個(gè)編輯提示,Vinedresser3D使用多模態(tài)大語言模型(multimodal large language model)推斷原始資產(chǎn)的豐富描述,識(shí)別編輯區(qū)域和編輯類型(添加、修改、刪除),并生成分解后的結(jié)構(gòu)和外觀級(jí)文本引導(dǎo)。然后,智能體選擇一個(gè)信息豐富的視圖,并應(yīng)用圖像編輯模型以獲得視覺引導(dǎo)。最后,一個(gè)基于反演的整流流修復(fù)管道(inversion-based rectified-flow inpainting pipeline)與交錯(cuò)采樣模塊在3D潛在空間中執(zhí)行編輯,在保持3D連貫性和未編輯區(qū)域的同時(shí)實(shí)現(xiàn)提示對(duì)齊。在各種3D編輯上的實(shí)驗(yàn)表明,Vinedresser3D在自動(dòng)指標(biāo)和人類偏好研究中均優(yōu)于先前的基線,同時(shí)實(shí)現(xiàn)了精確、連貫且無需掩碼的3D編輯。

[19] Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object DetectionFore-Mamba3D:用于3D目標(biāo)檢測(cè)的基于Mamba的前景增強(qiáng)編碼
摘要:像Mamba這樣的線性建模方法已被融合作為3D目標(biāo)檢測(cè)任務(wù)的有效骨干網(wǎng)絡(luò)。然而,之前基于Mamba的方法對(duì)整個(gè)非空體素序列進(jìn)行雙向編碼,而場(chǎng)景中包含大量無用的背景信息。雖然直接編碼前景體素似乎是一個(gè)可行的解決方案,但這往往會(huì)降低檢測(cè)性能。我們將此歸因于僅前景序列線性建模中的響應(yīng)衰減和受限的上下文表示。為了解決這個(gè)問題,我們提出了一種新穎的骨干網(wǎng)絡(luò),稱為Fore-Mamba3D,通過修改基于Mamba的編碼器來專注于前景增強(qiáng)。首先根據(jù)預(yù)測(cè)分?jǐn)?shù)對(duì)前景體素進(jìn)行采樣??紤]到不同實(shí)例的前景體素相互作用中存在的響應(yīng)衰減,我們?cè)O(shè)計(jì)了一個(gè)區(qū)域到全局滑動(dòng)窗口(RGSW),將信息從區(qū)域分割傳播到整個(gè)序列。此外,提出了一種語義輔助和狀態(tài)空間融合模塊(SASFMamba),通過增強(qiáng)Mamba模型內(nèi)的語義和幾何感知來豐富上下文表示。我們的方法強(qiáng)調(diào)僅前景編碼,并緩解了線性自回歸模型中基于距離和因果的依賴關(guān)系。在各種基準(zhǔn)測(cè)試中的卓越性能證明了Fore-Mamba3D在3D目標(biāo)檢測(cè)任務(wù)中的有效性。

[20] Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces用于鏡面表面的物理信息驅(qū)動(dòng)主動(dòng)偏振3D成像
摘要:在現(xiàn)實(shí)場(chǎng)景中,如在線檢測(cè)或手持掃描,鏡面表面的3D成像仍然具有挑戰(zhàn)性,需要快速準(zhǔn)確地測(cè)量復(fù)雜幾何形狀。像偏折術(shù)這樣的光學(xué)計(jì)量技術(shù)能實(shí)現(xiàn)高精度,但通常依賴多幀采集,使其不適用于動(dòng)態(tài)環(huán)境?;诟道锶~的單幀方法緩解了這一限制,然而在測(cè)量具有高空間頻率結(jié)構(gòu)或大曲率的表面時(shí),其性能會(huì)下降。另外,計(jì)算機(jī)視覺中的偏振3D成像以單幀方式運(yùn)行,并且對(duì)幾何復(fù)雜性表現(xiàn)出魯棒性。然而,其準(zhǔn)確性從根本上受到正交成像假設(shè)的限制。在本文中,我們提出了一個(gè)用于復(fù)雜鏡面表面單幀3D成像的物理信息驅(qū)動(dòng)深度學(xué)習(xí)框架。偏振線索提供方向先驗(yàn),有助于解釋由結(jié)構(gòu)光照明編碼的幾何信息。這些互補(bǔ)線索通過具有相互特征調(diào)制的雙編碼器架構(gòu)進(jìn)行處理,使網(wǎng)絡(luò)能夠解決它們的非線性耦合問題并直接推斷表面法線。所提出的方法能夠在單幀中實(shí)現(xiàn)準(zhǔn)確且魯棒的法線估計(jì),推理速度快,從而實(shí)現(xiàn)復(fù)雜鏡面表面的實(shí)用3D成像。

[21] UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic SegmentationUP-Fuse:用于3D全景分割的不確定性引導(dǎo)的LiDAR-相機(jī)融合方法
摘要:LiDAR-相機(jī)融合通過利用相機(jī)圖像來補(bǔ)充稀疏的LiDAR掃描,從而增強(qiáng)了3D全景分割效果,但它也引入了一個(gè)關(guān)鍵的故障模式。在不利條件下,相機(jī)傳感器的性能下降或故障會(huì)顯著損害感知系統(tǒng)的可靠性。為解決這一問題,我們提出了UP-Fuse,這是一種在2D距離視圖下的新型不確定性感知融合框架,它在相機(jī)傳感器性能下降、校準(zhǔn)漂移和傳感器故障的情況下仍能保持魯棒性。原始LiDAR數(shù)據(jù)首先被投影到距離視圖中,并由LiDAR編碼器進(jìn)行編碼,同時(shí)提取相機(jī)特征并將其投影到相同的共享空間。UP-Fuse的核心是采用了一個(gè)不確定性引導(dǎo)的融合模塊,該模塊使用預(yù)測(cè)的不確定性圖來動(dòng)態(tài)調(diào)節(jié)跨模態(tài)交互。這些不確定性圖是通過量化不同視覺退化情況下的表征差異來學(xué)習(xí)得到的,以確保只有可靠的視覺線索影響融合后的表征。融合后的距離視圖特征由一個(gè)新穎的混合2D - 3D變壓器進(jìn)行解碼,該變壓器可緩解2D投影中固有的空間歧義,并直接預(yù)測(cè)3D全景分割掩碼。在Panoptic nuScenes、SemanticKITTI和我們引入的Panoptic Waymo基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)證明了UP-Fuse的有效性和魯棒性,即使在嚴(yán)重的視覺損壞或不對(duì)準(zhǔn)情況下,它也能保持良好的性能,使其非常適合安全關(guān)鍵環(huán)境中的機(jī)器人感知。

[22] DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware FilteringDefenseSplat:通過頻率感知濾波增強(qiáng)3D高斯 splatting 的魯棒性
摘要:3D高斯 splatting(3DGS)已成為一種強(qiáng)大的范式,可用于從帶姿態(tài)的圖像中進(jìn)行實(shí)時(shí)、高保真的3D重建。然而,最近的研究表明,它在輸入視圖中容易受到對(duì)抗性干擾,其中難以察覺但一致的擾動(dòng)會(huì)大幅降低渲染質(zhì)量、增加訓(xùn)練和渲染時(shí)間并膨脹內(nèi)存使用,甚至導(dǎo)致服務(wù)器拒絕服務(wù)。在我們的工作中,為了緩解這一問題,我們首先使用小波變換分析輸入圖像的低頻和高頻分量中對(duì)抗性擾動(dòng)的不同行為?;谶@一觀察,我們?cè)O(shè)計(jì)了一種簡(jiǎn)單而有效的頻率感知防御策略,通過過濾高頻噪聲同時(shí)保留低頻內(nèi)容來重建訓(xùn)練視圖。這種方法在保持原始場(chǎng)景真實(shí)性的同時(shí),有效抑制了對(duì)抗性偽影。值得注意的是,它不會(huì)顯著影響在干凈數(shù)據(jù)上的訓(xùn)練,在魯棒性和干凈輸入上的性能之間實(shí)現(xiàn)了理想的權(quán)衡。通過在多個(gè)基準(zhǔn)上的廣泛攻擊強(qiáng)度實(shí)驗(yàn),我們證明了我們的方法在無需訪問干凈真實(shí)監(jiān)督的情況下,顯著增強(qiáng)了3DGS的魯棒性。通過突出并解決3D高斯 splatting 被忽視的脆弱性,我們的工作為更魯棒和安全的3D重建鋪平了道路。

[23] GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation LearningGS-CLIP:基于幾何感知提示和協(xié)同視圖表示學(xué)習(xí)的零樣本3D異常檢測(cè)
摘要:零樣本3D異常檢測(cè)是一項(xiàng)新興任務(wù),旨在無需任何目標(biāo)訓(xùn)練數(shù)據(jù)的情況下檢測(cè)目標(biāo)數(shù)據(jù)集中的異常,這在受樣本稀缺和數(shù)據(jù)隱私問題限制的場(chǎng)景中尤為重要。雖然當(dāng)前方法通過將3D點(diǎn)云投影到2D表示來適配CLIP,但它們面臨挑戰(zhàn)。這種投影本質(zhì)上會(huì)丟失一些幾何細(xì)節(jié),并且依賴單一的2D模態(tài)提供的視覺理解不完整,限制了它們檢測(cè)各種異常類型的能力。為解決這些局限性,我們提出了幾何感知提示和協(xié)同視圖表示學(xué)習(xí)(GS-CLIP)框架,該框架使模型能夠通過兩階段學(xué)習(xí)過程識(shí)別幾何異常。在階段1,我們動(dòng)態(tài)生成嵌入3D幾何先驗(yàn)的文本提示。這些提示包含由我們的幾何缺陷蒸餾模塊(GDDM)提煉的全局形狀上下文和局部缺陷信息。在階段2,我們引入?yún)f(xié)同視圖表示學(xué)習(xí)架構(gòu),該架構(gòu)并行處理渲染圖像和深度圖像。隨后,協(xié)同精煉模塊(SRM)融合兩個(gè)流的特征,利用它們的互補(bǔ)優(yōu)勢(shì)。在四個(gè)大規(guī)模公共數(shù)據(jù)集上的綜合實(shí)驗(yàn)結(jié)果表明,GS-CLIP在檢測(cè)方面取得了卓越的性能。代碼可在github.com/zhushengxiny獲取。

[24] VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery基于擴(kuò)散的人體網(wǎng)格恢復(fù)的視覺語言模型引導(dǎo)的群體偏好對(duì)齊
摘要:從單張RGB圖像進(jìn)行人體網(wǎng)格恢復(fù)(HMR)本質(zhì)上具有歧義性,因?yàn)槎鄠€(gè)3D姿態(tài)可能對(duì)應(yīng)于同一2D觀測(cè)結(jié)果。最近基于擴(kuò)散的方法通過生成各種假設(shè)來解決這個(gè)問題,但往往犧牲了準(zhǔn)確性。它們產(chǎn)生的預(yù)測(cè)要么在物理上不可行,要么偏離輸入圖像,特別是在遮擋或雜亂的自然場(chǎng)景中。為了解決這個(gè)問題,我們引入了一個(gè)具有自我反思能力的雙記憶增強(qiáng)HMR評(píng)判代理,為預(yù)測(cè)的網(wǎng)格生成上下文感知的質(zhì)量分?jǐn)?shù)。這些分?jǐn)?shù)提煉了關(guān)于3D人體運(yùn)動(dòng)結(jié)構(gòu)、物理可行性以及與輸入圖像對(duì)齊的細(xì)粒度線索。我們使用這些分?jǐn)?shù)構(gòu)建了一個(gè)群體級(jí)HMR偏好數(shù)據(jù)集。利用這個(gè)數(shù)據(jù)集,我們提出了一個(gè)群體偏好對(duì)齊框架,用于微調(diào)基于擴(kuò)散的HMR模型。這一過程將豐富的偏好信號(hào)注入模型,引導(dǎo)其生成更符合物理規(guī)律且與圖像一致的人體網(wǎng)格。大量實(shí)驗(yàn)表明,我們的方法與現(xiàn)有最先進(jìn)的方法相比取得了更優(yōu)的性能。

[25] Universal 3D Shape Matching via Coarse-to-Fine Language Guidance通過粗到細(xì)的語言引導(dǎo)實(shí)現(xiàn)通用3D形狀匹配
摘要:在計(jì)算機(jī)視覺和圖形學(xué)中,建立形狀之間的密集對(duì)應(yīng)關(guān)系是一項(xiàng)至關(guān)重要的任務(wù)。然而,先前的方法依賴于近似等距假設(shè)和同類主題類型(即僅適用于人體形狀)。然而,為跨類別對(duì)象建立語義對(duì)應(yīng)關(guān)系仍然具有挑戰(zhàn)性,并且相對(duì)較少受到關(guān)注。為了實(shí)現(xiàn)這一目標(biāo),我們提出了UniMatch,這是一個(gè)語義感知的、粗到細(xì)的框架,用于在不限制對(duì)象類別的情況下,在強(qiáng)非等距形狀之間構(gòu)建密集的語義對(duì)應(yīng)關(guān)系。關(guān)鍵的見解是將“粗”語義線索提升為“細(xì)”對(duì)應(yīng)關(guān)系,這通過兩個(gè)階段實(shí)現(xiàn)。在“粗”階段,我們執(zhí)行與類別無關(guān)的3D分割,以獲得不重疊的語義部分,并提示多模態(tài)大語言模型(MLLMs)識(shí)別部分名稱。然后,我們使用預(yù)訓(xùn)練的視覺語言模型(VLMs)提取文本嵌入,從而能夠構(gòu)建匹配的語義部分。在“細(xì)”階段,我們利用這些粗對(duì)應(yīng)關(guān)系,通過專門的基于排名的對(duì)比方案來引導(dǎo)密集對(duì)應(yīng)關(guān)系的學(xué)習(xí)。由于采用了與類別無關(guān)的分割、語言引導(dǎo)和基于排名的對(duì)比學(xué)習(xí),我們的方法適用于通用對(duì)象類別,并且不需要預(yù)定義的部分提案,從而能夠?qū)崿F(xiàn)跨類別和非等距形狀的通用匹配。大量實(shí)驗(yàn)表明,UniMatch在各種具有挑戰(zhàn)性的場(chǎng)景中始終優(yōu)于其他競(jìng)爭(zhēng)方法。

[26] Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic SamplingAni3DHuman:基于自引導(dǎo)隨機(jī)采樣的逼真3D人體動(dòng)畫
摘要:當(dāng)前的3D人體動(dòng)畫方法難以實(shí)現(xiàn)逼真效果:基于運(yùn)動(dòng)學(xué)的方法缺乏非剛性動(dòng)力學(xué)(如服裝動(dòng)力學(xué)),而利用視頻擴(kuò)散先驗(yàn)的方法雖然可以合成非剛性運(yùn)動(dòng),但存在質(zhì)量瑕疵和身份丟失的問題。為克服這些局限性,我們提出了Ani3DHuman框架,該框架將基于運(yùn)動(dòng)學(xué)的動(dòng)畫與視頻擴(kuò)散先驗(yàn)相結(jié)合。我們首先引入了一種分層運(yùn)動(dòng)表示,將剛性運(yùn)動(dòng)與殘余非剛性運(yùn)動(dòng)分離。剛性運(yùn)動(dòng)由運(yùn)動(dòng)學(xué)方法生成,然后生成粗渲染結(jié)果,以引導(dǎo)視頻擴(kuò)散模型生成恢復(fù)殘余非剛性運(yùn)動(dòng)的視頻序列。然而,基于擴(kuò)散采樣的這種恢復(fù)任務(wù)極具挑戰(zhàn)性,因?yàn)槌跏间秩窘Y(jié)果屬于分布外數(shù)據(jù),導(dǎo)致標(biāo)準(zhǔn)的確定性O(shè)DE采樣器失效。因此,我們提出了一種新穎的自引導(dǎo)隨機(jī)采樣方法,該方法通過將隨機(jī)采樣(用于實(shí)現(xiàn)逼真質(zhì)量)與自引導(dǎo)(用于保證身份保真度)相結(jié)合,有效解決了分布外問題。這些恢復(fù)后的視頻提供了高質(zhì)量的監(jiān)督信息,從而能夠?qū)堄喾莿傂赃\(yùn)動(dòng)場(chǎng)進(jìn)行優(yōu)化。大量實(shí)驗(yàn)表明,Ani3DHuman能夠生成逼真的3D人體動(dòng)畫,優(yōu)于現(xiàn)有方法。代碼可在github.com/qiisun/ani3d獲取。

[27] L3DR: 3D-aware LiDAR Diffusion and RectificationL3DR:3D感知的激光雷達(dá)擴(kuò)散與校正
摘要:基于距離視圖(Range-view,RV)的激光雷達(dá)擴(kuò)散技術(shù)最近在2D照片級(jí)真實(shí)感方面取得了巨大進(jìn)展。然而,它忽略了3D幾何的真實(shí)感,并且常常會(huì)產(chǎn)生各種RV偽影,如深度滲色和波浪狀表面。我們?cè)O(shè)計(jì)了L3DR,這是一個(gè)3D感知的激光雷達(dá)擴(kuò)散與校正框架,它可以在3D空間中回歸并消除RV偽影,準(zhǔn)確恢復(fù)局部幾何結(jié)構(gòu)。我們的理論和實(shí)證分析表明,3D模型在生成清晰、真實(shí)的邊界方面本質(zhì)上優(yōu)于2D模型。基于這樣的分析,我們?cè)O(shè)計(jì)了一個(gè)3D殘差回歸網(wǎng)絡(luò),通過預(yù)測(cè)3D空間中的點(diǎn)級(jí)偏移來校正RV偽影,并實(shí)現(xiàn)卓越的幾何真實(shí)感。此外,我們?cè)O(shè)計(jì)了一種韋爾什損失(Welsch Loss),它有助于聚焦局部幾何結(jié)構(gòu),并有效忽略異常區(qū)域。在包括KITTI、KITTI360、nuScenes和Waymo在內(nèi)的多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,所提出的L3DR在生成效果和幾何真實(shí)感方面始終達(dá)到了最先進(jìn)水平。此外,L3DR通常適用于不同的激光雷達(dá)擴(kuò)散模型,且計(jì)算開銷很小。

[28] Direction-aware 3D Large Multimodal Models方向感知的3D大多模態(tài)模型
摘要:3D大多模態(tài)模型(3D LMMs)嚴(yán)重依賴自我姿態(tài)(ego poses)來實(shí)現(xiàn)定向問答和空間推理。然而,大多數(shù)現(xiàn)有的點(diǎn)云基準(zhǔn)測(cè)試包含豐富的定向查詢,但缺乏相應(yīng)的自我姿態(tài),這使得它們?cè)?D大多模態(tài)建模中本質(zhì)上是不適定的。在這項(xiàng)工作中,我們重新定義了一個(gè)新的嚴(yán)格范式,通過識(shí)別自我姿態(tài)并將其補(bǔ)充到點(diǎn)云基準(zhǔn)測(cè)試中,并根據(jù)識(shí)別出的自我姿態(tài)轉(zhuǎn)換相應(yīng)的點(diǎn)云數(shù)據(jù),從而實(shí)現(xiàn)方向感知的3D LMMs。我們通過兩種新穎的設(shè)計(jì)實(shí)現(xiàn)了方向感知的3D LMMs。第一種是PoseRecover,這是一個(gè)全自動(dòng)的姿態(tài)恢復(fù)管道,它通過對(duì)象 - 視錐體相交和使用Z緩沖器進(jìn)行可見性檢查,將問題與RGB - D視頻外參中的自我姿態(tài)相匹配。第二種是PoseAlign,它將點(diǎn)云數(shù)據(jù)進(jìn)行轉(zhuǎn)換以與識(shí)別出的自我姿態(tài)對(duì)齊,而不是將自我姿態(tài)注入文本提示或在投影層中引入姿態(tài)編碼特征。大量實(shí)驗(yàn)表明,我們的設(shè)計(jì)在多個(gè)3D LMM骨干網(wǎng)絡(luò)(如LL3DA、LL3DA - SONATA、Chat - Scene和3D - LLAVA)上都產(chǎn)生了一致的改進(jìn),將ScanRefer的平均交并比(mIoU)提高了30.0%,將Scan2Cap的大語言模型評(píng)判準(zhǔn)確率提高了11.7%。此外,我們的方法簡(jiǎn)單、通用且訓(xùn)練效率高,只需要進(jìn)行指令微調(diào),同時(shí)為方向感知的3D - LMMs建立了一個(gè)強(qiáng)大的基線。

[29] TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow EstimationTeFlow:為自監(jiān)督前饋場(chǎng)景流估計(jì)啟用多幀監(jiān)督
摘要:用于場(chǎng)景流估計(jì)的自監(jiān)督前饋方法具有實(shí)時(shí)效率,但它們基于兩幀點(diǎn)對(duì)應(yīng)關(guān)系的監(jiān)督不可靠,并且在遮擋情況下往往會(huì)失效。多幀監(jiān)督有可能通過整合過去幀的運(yùn)動(dòng)線索來提供更穩(wěn)定的指導(dǎo),然而,簡(jiǎn)單地?cái)U(kuò)展兩幀目標(biāo)是無效的,因?yàn)辄c(diǎn)對(duì)應(yīng)關(guān)系在各幀之間會(huì)突然變化,產(chǎn)生不一致的信號(hào)。在本文中,我們提出了TeFlow,通過挖掘時(shí)間上一致的監(jiān)督來為前饋模型啟用多幀監(jiān)督。TeFlow引入了一種時(shí)間集成策略,通過從跨多幀構(gòu)建的候選池中聚合時(shí)間上最一致的運(yùn)動(dòng)線索來形成可靠的監(jiān)督信號(hào)。大量評(píng)估表明,TeFlow為自監(jiān)督前饋方法樹立了新的技術(shù)水平,在具有挑戰(zhàn)性的Argoverse 2和nuScenes數(shù)據(jù)集上實(shí)現(xiàn)了高達(dá)33%的性能提升。我們的方法與領(lǐng)先的基于優(yōu)化的方法表現(xiàn)相當(dāng),但速度提高了150倍。代碼與訓(xùn)練好的模型權(quán)重一起在github.com/KTH-RPL/Open上開源。

[30] OpenVO: Open-World Visual Odometry with Temporal Dynamics AwarenessOpenVO:具有時(shí)間動(dòng)態(tài)感知的開放世界視覺里程計(jì)
摘要:我們提出了OpenVO,這是一個(gè)在有限輸入條件下具有時(shí)間感知的開放世界視覺里程計(jì)(VO)的新穎框架。OpenVO能夠從具有不同觀測(cè)速率和未校準(zhǔn)相機(jī)的單目行車記錄儀視頻中有效地估計(jì)真實(shí)世界尺度的自我運(yùn)動(dòng),從而能夠從行車記錄儀記錄的罕見駕駛事件中構(gòu)建穩(wěn)健的軌跡數(shù)據(jù)集?,F(xiàn)有的VO方法是在固定的觀測(cè)頻率(例如10Hz或12Hz)上進(jìn)行訓(xùn)練的,完全忽略了時(shí)間動(dòng)態(tài)信息。許多先前的方法還需要具有已知內(nèi)參的校準(zhǔn)相機(jī)。因此,當(dāng)(1)在未見過的觀測(cè)頻率下部署時(shí),或者(2)應(yīng)用于未校準(zhǔn)的相機(jī)時(shí),它們的性能會(huì)下降。這些顯著限制了它們?cè)谠S多下游任務(wù)中的通用性,例如從行車記錄儀視頻中提取軌跡。為了解決這些挑戰(zhàn),OpenVO(1)在兩幀位姿回歸框架中顯式地編碼時(shí)間動(dòng)態(tài)信息,并且(2)利用從基礎(chǔ)模型中導(dǎo)出的3D幾何先驗(yàn)。我們?cè)谌齻€(gè)主要的自動(dòng)駕駛基準(zhǔn)測(cè)試——KITTI、nuScenes和Argoverse 2上驗(yàn)證了我們的方法,比最先進(jìn)的方法實(shí)現(xiàn)了超過20%的性能提升。在不同的觀測(cè)速率設(shè)置下,我們的方法顯著更穩(wěn)健,在所有指標(biāo)上的誤差降低了46% - 92%。這些結(jié)果證明了OpenVO在現(xiàn)實(shí)世界3D重建和各種下游應(yīng)用中的通用性。

[31] Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates邊緣化束調(diào)整:基于單目深度估計(jì)的多視圖相機(jī)位姿
摘要:運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure-from-Motion, SfM)是一項(xiàng)基礎(chǔ)的3D視覺任務(wù),用于從多視圖圖像中恢復(fù)相機(jī)參數(shù)和場(chǎng)景幾何信息。盡管近期深度學(xué)習(xí)的進(jìn)展使得無需依賴相機(jī)運(yùn)動(dòng)就能從單張圖像中進(jìn)行準(zhǔn)確的單目深度估計(jì)(Monocular Depth Estimation, MDE),但將MDE集成到SfM中仍然是一個(gè)挑戰(zhàn)。與傳統(tǒng)的三角測(cè)量稀疏點(diǎn)云不同,MDE生成的密集深度圖具有顯著更高的誤差方差。受現(xiàn)代隨機(jī)抽樣一致性(RANSAC)估計(jì)器的啟發(fā),我們提出了邊緣化束調(diào)整(Marginalized Bundle Adjustment, MBA)方法,以利用其密度來降低MDE的誤差方差。通過MBA,我們證明了MDE深度圖足夠準(zhǔn)確,能夠在SfM和相機(jī)重定位任務(wù)中取得最先進(jìn)(SoTA)或具有競(jìng)爭(zhēng)力的結(jié)果。通過廣泛的評(píng)估,我們展示了該方法在不同規(guī)模下的一致魯棒性能,從少幀設(shè)置到包含數(shù)千張圖像的大型多視圖系統(tǒng)。我們的方法凸顯了MDE在多視圖3D視覺中的巨大潛力。

[32] PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and SimulationPhysConvex:用于重建和模擬的物理感知3D動(dòng)態(tài)凸輻射場(chǎng)
摘要:以視覺真實(shí)感和物理一致性對(duì)動(dòng)態(tài)3D場(chǎng)景進(jìn)行重建和模擬仍然是一個(gè)根本性的挑戰(zhàn)。現(xiàn)有的神經(jīng)表示方法,如NeRF和3DGS,在外觀重建方面表現(xiàn)出色,但在捕捉復(fù)雜的材料變形和動(dòng)力學(xué)方面存在困難。我們提出了PhysConvex,一種物理感知的3D動(dòng)態(tài)凸輻射場(chǎng),它將視覺渲染和物理模擬統(tǒng)一起來。PhysConvex使用由連續(xù)介質(zhì)力學(xué)支配的基于物理的凸基元來表示可變形輻射場(chǎng)。我們引入了一種邊界驅(qū)動(dòng)的動(dòng)態(tài)凸表示,通過頂點(diǎn)和表面動(dòng)力學(xué)對(duì)變形進(jìn)行建模,捕捉空間自適應(yīng)、非均勻變形和不斷演變的邊界。為了有效地模擬復(fù)雜的幾何形狀和異質(zhì)材料,我們進(jìn)一步開發(fā)了一種降階凸模擬方法,該方法使用神經(jīng)蒙皮特征模式作為形狀和材料感知的變形基,在牛頓動(dòng)力學(xué)下以隨時(shí)間變化的降階自由度對(duì)動(dòng)態(tài)凸場(chǎng)進(jìn)行平流。凸動(dòng)力學(xué)還提供了緊湊、無間隙的體積覆蓋,提高了幾何效率和模擬保真度。實(shí)驗(yàn)表明,PhysConvex能夠從視頻中實(shí)現(xiàn)對(duì)幾何形狀、外觀和物理屬性的高保真重建,優(yōu)于現(xiàn)有方法。

[33] SceneTok: A Compressed, Diffusable Token Space for 3D ScenesSceneTok:用于3D場(chǎng)景的壓縮、可擴(kuò)散令牌空間
摘要:我們提出了SceneTok,這是一種新穎的分詞器,用于將場(chǎng)景的視圖集編碼為一組壓縮且可擴(kuò)散的非結(jié)構(gòu)化令牌。現(xiàn)有的3D場(chǎng)景表示和生成方法通常使用3D數(shù)據(jù)結(jié)構(gòu)或視圖對(duì)齊的場(chǎng)。相比之下,我們引入了第一種將場(chǎng)景信息編碼為一組小的、與空間網(wǎng)格解耦的排列不變令牌的方法。場(chǎng)景令牌由多視圖分詞器根據(jù)許多上下文視圖進(jìn)行預(yù)測(cè),并通過使用輕量級(jí)整流流解碼器渲染成新視圖。我們表明,與其他表示相比,這種壓縮強(qiáng)度高出1 - 3個(gè)數(shù)量級(jí),同時(shí)仍能達(dá)到最先進(jìn)的重建質(zhì)量。此外,我們的表示可以從新的軌跡(包括偏離輸入軌跡的軌跡)進(jìn)行渲染,并且我們證明解碼器能夠很好地處理不確定性。最后,高度壓縮的非結(jié)構(gòu)化潛在場(chǎng)景令牌集能夠在5秒內(nèi)實(shí)現(xiàn)簡(jiǎn)單高效的場(chǎng)景生成,比以前的范式實(shí)現(xiàn)了更好的質(zhì)量 - 速度權(quán)衡。

[34] BiMotion: B-spline Motion for Text-guided Dynamic 3D Character GenerationBiMotion:用于文本引導(dǎo)的動(dòng)態(tài)3D角色生成的B樣條運(yùn)動(dòng)
摘要:文本引導(dǎo)的動(dòng)態(tài)3D角色生成取得了快速進(jìn)展,但生成能夠忠實(shí)反映豐富文本描述的高質(zhì)量運(yùn)動(dòng)仍然具有挑戰(zhàn)性?,F(xiàn)有方法由于固定長(zhǎng)度的時(shí)間輸入和離散的逐幀表示無法捕捉豐富的運(yùn)動(dòng)語義,往往會(huì)生成有限的子動(dòng)作或不連貫的運(yùn)動(dòng)。我們通過使用連續(xù)可微的B樣條曲線來表示運(yùn)動(dòng),在不修改底層生成模型能力的情況下,實(shí)現(xiàn)更有效的運(yùn)動(dòng)生成,從而解決了這些局限性。具體而言,我們的閉式拉普拉斯正則化B樣條求解器能夠?qū)⒖勺冮L(zhǎng)度的運(yùn)動(dòng)序列高效壓縮為具有固定數(shù)量控制點(diǎn)的緊湊表示。此外,我們引入了一種法線融合策略以確保輸入形狀的貼合,并使用對(duì)應(yīng)感知和局部剛性損失來提高運(yùn)動(dòng)恢復(fù)質(zhì)量。為了訓(xùn)練我們的模型,我們整理了BIMO,這是一個(gè)新的數(shù)據(jù)集,包含多樣化的可變長(zhǎng)度3D運(yùn)動(dòng)序列以及豐富、高質(zhì)量的文本注釋。大量評(píng)估表明,我們的前饋框架BiMotion比現(xiàn)有的最先進(jìn)方法生成更具表現(xiàn)力、更高質(zhì)量且更符合提示的運(yùn)動(dòng),同時(shí)實(shí)現(xiàn)更快的生成速度。我們的項(xiàng)目頁面地址為:wangmiaowei.github.io/B。

[35] Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions通過塑造密集且準(zhǔn)確的二維語義預(yù)測(cè)來增強(qiáng)三維激光雷達(dá)分割
摘要:三維激光雷達(dá)點(diǎn)云的語義分割在城市遙感中對(duì)于理解現(xiàn)實(shí)世界的街道環(huán)境至關(guān)重要。通過將激光雷達(dá)點(diǎn)云和三維語義標(biāo)簽投影為稀疏地圖,這項(xiàng)任務(wù)可以重新表述為一個(gè)二維問題。然而,投影后的激光雷達(dá)和標(biāo)簽地圖的固有稀疏性可能導(dǎo)致中間二維語義預(yù)測(cè)稀疏且不準(zhǔn)確,進(jìn)而限制了最終的三維精度。為了解決這個(gè)問題,我們通過塑造密集且準(zhǔn)確的二維預(yù)測(cè)來增強(qiáng)這項(xiàng)任務(wù)。具體而言,我們開發(fā)了一個(gè)多模態(tài)分割模型MM2D3D。通過利用相機(jī)圖像作為輔助數(shù)據(jù),我們引入了跨模態(tài)引導(dǎo)濾波,通過用從相機(jī)圖像中導(dǎo)出的密集語義關(guān)系來約束中間二維語義預(yù)測(cè),以克服標(biāo)簽地圖的稀疏性;并且我們引入了動(dòng)態(tài)交叉?zhèn)伪O(jiān)督,通過鼓勵(lì)二維預(yù)測(cè)模仿相機(jī)圖像的語義預(yù)測(cè)的密集分布,來克服激光雷達(dá)地圖的稀疏性。實(shí)驗(yàn)表明,我們的技術(shù)使我們的模型能夠?qū)崿F(xiàn)具有密集分布和更高精度的中間二維語義預(yù)測(cè),從而有效地提高了最終的三維精度。與先前方法的比較表明,我們?cè)诙S和三維空間中都具有更優(yōu)越的性能。

[36] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial ConsistencyLaS-Comp:基于潛在空間一致性的零樣本3D補(bǔ)全
摘要:本文介紹了LaS-Comp,這是一種零樣本且與類別無關(guān)的方法,它利用3D基礎(chǔ)模型豐富的幾何先驗(yàn)知識(shí),實(shí)現(xiàn)跨多種類型部分觀測(cè)的3D形狀補(bǔ)全。我們的貢獻(xiàn)主要有三點(diǎn):首先,LaS-Comp通過互補(bǔ)的兩階段設(shè)計(jì)利用這些強(qiáng)大的生成先驗(yàn)進(jìn)行補(bǔ)全:(i)顯式替換階段,保留部分觀測(cè)的幾何形狀,以確保補(bǔ)全的準(zhǔn)確性;(ii)隱式細(xì)化階段,確保觀測(cè)區(qū)域和合成區(qū)域之間的邊界無縫銜接。其次,我們的框架無需訓(xùn)練,并且與不同的3D基礎(chǔ)模型兼容。第三,我們引入了Omni-Comp,這是一個(gè)綜合基準(zhǔn),結(jié)合了真實(shí)世界和合成數(shù)據(jù),具有多樣且具有挑戰(zhàn)性的部分模式,能夠進(jìn)行更全面、更真實(shí)的評(píng)估。定量和定性實(shí)驗(yàn)均表明,我們的方法優(yōu)于先前的最先進(jìn)方法。我們的代碼和數(shù)據(jù)將在[LaS-Comp](github.com/DavidYan2001)上公開。

[37] WiCompass: Oracle-driven Data Scaling for mmWave Human Pose EstimationWiCompass:用于毫米波人體姿態(tài)估計(jì)的神諭驅(qū)動(dòng)數(shù)據(jù)擴(kuò)展方法
摘要:毫米波人體姿態(tài)估計(jì)(mmWave HPE)在保護(hù)隱私方面具有優(yōu)勢(shì),但在分布偏移情況下泛化能力較差。我們證明,簡(jiǎn)單粗暴的數(shù)據(jù)擴(kuò)展方法對(duì)于分布外(OOD)魯棒性而言效果不佳;效率和覆蓋范圍才是真正的瓶頸。為解決這一問題,我們引入了WiCompass,這是一個(gè)具有覆蓋感知能力的數(shù)據(jù)收集框架。WiCompass利用大規(guī)模的動(dòng)作捕捉語料庫構(gòu)建了一個(gè)通用的姿態(tài)空間“神諭”,該神諭可以量化數(shù)據(jù)集的冗余度并識(shí)別出代表性不足的動(dòng)作。在這個(gè)神諭的引導(dǎo)下,WiCompass采用閉環(huán)策略來優(yōu)先收集有信息價(jià)值的缺失樣本。實(shí)驗(yàn)表明,在相同的預(yù)算下,WiCompass能夠持續(xù)提高OOD準(zhǔn)確率,并且與傳統(tǒng)的收集策略相比,表現(xiàn)出更優(yōu)的擴(kuò)展性能。通過將關(guān)注點(diǎn)從簡(jiǎn)單的數(shù)據(jù)擴(kuò)展轉(zhuǎn)移到具有覆蓋感知能力的數(shù)據(jù)采集上,這項(xiàng)工作為實(shí)現(xiàn)穩(wěn)健的毫米波傳感提供了一條切實(shí)可行的途徑。

[38] Depth from Defocus via Direct Optimization通過直接優(yōu)化實(shí)現(xiàn)散焦測(cè)距
摘要:盡管基于光學(xué)物理存在合理的模糊正向模型,但從一組散焦圖像中恢復(fù)深度仍然是一個(gè)計(jì)算上具有挑戰(zhàn)性的優(yōu)化問題。在本文中,我們表明,利用當(dāng)代優(yōu)化方法和合理的計(jì)算資源,散焦測(cè)距的全局優(yōu)化方法是可行的。我們的方法基于交替最小化。當(dāng)固定深度圖時(shí),正向模型相對(duì)于全聚焦圖像是線性的。當(dāng)固定全聚焦圖像時(shí),每個(gè)像素的深度可以獨(dú)立計(jì)算,從而實(shí)現(xiàn)高度并行計(jì)算。我們表明,在凸優(yōu)化和并行網(wǎng)格搜索之間交替進(jìn)行,可以比當(dāng)前的深度學(xué)習(xí)方法更有效地解決更高分辨率下的散焦測(cè)距問題。我們?cè)诰哂泻铣珊驼鎸?shí)散焦模糊的基準(zhǔn)數(shù)據(jù)集上展示了我們的方法,并與先前的方法相比取得了有前景的結(jié)果。我們的代碼可在github.com/hollyjackson獲取。

[39] Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality通過移動(dòng)增強(qiáng)現(xiàn)實(shí)擴(kuò)展超聲容積重建
摘要:病變的準(zhǔn)確容積表征對(duì)于腫瘤診斷、風(fēng)險(xiǎn)分層和治療規(guī)劃至關(guān)重要。雖然計(jì)算機(jī)斷層掃描(Computed Tomography)等成像方式可提供高質(zhì)量的3D數(shù)據(jù),但由于成本、便攜性和安全性等因素,二維超聲(2D-US)仍然是乳腺和甲狀腺成像的首選一線檢查方式。然而,即使是經(jīng)驗(yàn)豐富的臨床醫(yī)生,通過2D-US得出的體積估計(jì)也存在較高的用戶間差異。現(xiàn)有的三維超聲(3D-US)解決方案使用專門的探頭或外部跟蹤硬件,但這種配置增加了成本并降低了便攜性,限制了其在臨床上的廣泛應(yīng)用。為解決這些局限性,我們提出了移動(dòng)增強(qiáng)現(xiàn)實(shí)容積超聲(Mobile Augmented Reality Volumetric Ultrasound,MARVUS),這是一個(gè)資源高效的系統(tǒng),旨在提高準(zhǔn)確且可重復(fù)的容積評(píng)估的可及性。MARVUS可與傳統(tǒng)超聲(US)系統(tǒng)互操作,使用基礎(chǔ)模型來增強(qiáng)跨專業(yè)的泛化能力,同時(shí)相對(duì)于當(dāng)前的3D-US解決方案,將硬件要求降至最低。在一項(xiàng)由經(jīng)驗(yàn)豐富的臨床醫(yī)生對(duì)乳腺模型進(jìn)行測(cè)量的用戶研究中,MARVUS在體積估計(jì)準(zhǔn)確性方面有顯著提高(平均差異:0.469 cm3),并降低了用戶間差異(平均差異:0.417 cm3)。此外,我們證明了增強(qiáng)現(xiàn)實(shí)(AR)可視化可提高客觀性能指標(biāo)和臨床醫(yī)生報(bào)告的易用性。總體而言,我們的研究結(jié)果表明,MARVUS可以以可擴(kuò)展、經(jīng)濟(jì)且資源高效的方式改善基于超聲的癌癥篩查、診斷流程和治療規(guī)劃。使用視頻演示可在(youtu.be/m4llYcZpqmM)查看。

[40] Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization通過物理感知的聯(lián)合形狀和姿態(tài)優(yōu)化實(shí)現(xiàn)適用于仿真的雜亂場(chǎng)景估計(jì)
摘要:從現(xiàn)實(shí)世界的觀測(cè)中估計(jì)適用于仿真的場(chǎng)景對(duì)于下游的規(guī)劃和策略學(xué)習(xí)任務(wù)至關(guān)重要。遺憾的是,現(xiàn)有方法在雜亂環(huán)境中表現(xiàn)不佳,通常存在計(jì)算成本過高、魯棒性差以及在擴(kuò)展到多個(gè)相互作用對(duì)象時(shí)通用性受限等問題。我們提出了一種基于統(tǒng)一優(yōu)化的真實(shí)到仿真場(chǎng)景估計(jì)公式,該公式在物理約束下聯(lián)合恢復(fù)多個(gè)剛體的形狀和姿態(tài)。我們的方法基于兩項(xiàng)關(guān)鍵技術(shù)創(chuàng)新。首先,我們利用最近引入的形狀可微接觸模型,其全局可微性允許在建模對(duì)象間接觸的同時(shí)對(duì)對(duì)象幾何形狀和姿態(tài)進(jìn)行聯(lián)合優(yōu)化。其次,我們利用增廣拉格朗日 Hessian 矩陣的結(jié)構(gòu)稀疏性,推導(dǎo)出一種高效的線性系統(tǒng)求解器,其計(jì)算成本隨場(chǎng)景復(fù)雜度的增加而有良好的擴(kuò)展性?;诖斯?,我們開發(fā)了一個(gè)端到端的真實(shí)到仿真場(chǎng)景估計(jì)管道,該管道集成了基于學(xué)習(xí)的對(duì)象初始化、受物理約束的聯(lián)合形狀 - 姿態(tài)優(yōu)化以及可微紋理細(xì)化。在包含多達(dá) 5 個(gè)對(duì)象和 22 個(gè)凸包的雜亂場(chǎng)景上進(jìn)行的實(shí)驗(yàn)表明,我們的方法能夠穩(wěn)健地重建出符合物理規(guī)律、適用于仿真的對(duì)象形狀和姿態(tài)。

[41] Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains用于圖像派生域幾何感知離散化的結(jié)構(gòu)化位圖到網(wǎng)格三角剖分
摘要:我們提出了一種模板驅(qū)動(dòng)的三角剖分框架,該框架將光柵或分割派生的邊界嵌入到規(guī)則三角網(wǎng)格中,以便在圖像派生域上進(jìn)行穩(wěn)定的偏微分方程(PDE)離散化。與可能觸發(fā)全局連通性更新的約束Delaunay三角剖分(CDT)不同,我們的方法僅對(duì)與邊界相交的三角形進(jìn)行重新三角剖分,保留基礎(chǔ)網(wǎng)格,并支持無同步的并行執(zhí)行。為確保確定性和可擴(kuò)展性,我們根據(jù)離散等價(jià)性和三角形對(duì)稱性對(duì)所有局部邊界相交配置進(jìn)行分類,得到一個(gè)有限的符號(hào)查找表,該表將每種情況映射到一個(gè)無沖突的重新三角剖分模板。我們證明了所得網(wǎng)格是封閉的,具有有界角度,并且與基于余切的離散化和標(biāo)準(zhǔn)有限元方法兼容。在橢圓和拋物型PDE、信號(hào)插值和結(jié)構(gòu)度量方面的實(shí)驗(yàn)表明,在復(fù)雜邊界附近,該方法產(chǎn)生的狹長(zhǎng)元素更少,三角形更規(guī)則,并且?guī)缀伪U娑雀摺T摽蚣芊浅_m合在圖像派生域上進(jìn)行實(shí)時(shí)幾何分析和基于物理的模擬。

[42] Compact Hadamard Latent Codes for Efficient Spectral Rendering用于高效光譜渲染的緊湊哈達(dá)瑪潛在代碼
摘要:光譜渲染能夠準(zhǔn)確再現(xiàn)與波長(zhǎng)相關(guān)的外觀,但計(jì)算成本高昂,因?yàn)楸仨氃谠S多波長(zhǎng)樣本上進(jìn)行著色評(píng)估,并且計(jì)算量大致與樣本數(shù)量呈線性關(guān)系。此外,整個(gè)渲染流程都需要光譜紋理和光源。我們提出了哈達(dá)瑪光譜代碼,這是一種緊湊的潛在表示,它允許使用標(biāo)準(zhǔn)的RGB渲染操作進(jìn)行光譜渲染。光譜圖像通過少量的RGB渲染通道進(jìn)行近似,隨后進(jìn)行解碼步驟。我們的關(guān)鍵要求是潛在線性:光譜空間中的縮放和加法對(duì)應(yīng)于代碼的縮放和加法,并且光譜的逐元素乘積(例如反射率乘以光照)可以通過它們潛在代碼的逐元素乘積來近似。我們表明,當(dāng)潛在維度k小于光譜樣本數(shù)量n時(shí),對(duì)于任意光譜,不存在精確的低維代數(shù)保持表示。因此,我們引入了一種學(xué)習(xí)到的非負(fù)線性編碼器和解碼器架構(gòu),該架構(gòu)能精確保持縮放和加法,同時(shí)鼓勵(lì)在哈達(dá)瑪積下實(shí)現(xiàn)近似乘法性。當(dāng)k = 6時(shí),我們使用未修改的RGB渲染器每幀渲染k/3 = 2張RGB圖像,重建潛在圖像,并解碼為高分辨率光譜或XYZ或RGB。對(duì)3D場(chǎng)景的實(shí)驗(yàn)表明,與RGB基線相比,k = 6顯著降低了顏色誤差,同時(shí)比樸素的n樣本光譜渲染快得多。使用k = 9可提供更高質(zhì)量的參考結(jié)果。我們進(jìn)一步引入了一種輕量級(jí)的神經(jīng)上采樣網(wǎng)絡(luò),它可以將RGB資產(chǎn)直接映射到潛在代碼,從而使傳統(tǒng)RGB內(nèi)容能夠集成到光譜流程中,同時(shí)在渲染圖像中保持感知上準(zhǔn)確的顏色。



  業(yè)務(wù)實(shí)施流程

需求調(diào)研 →

團(tuán)隊(duì)組建和動(dòng)員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢: 如果您有業(yè)務(wù)方面的問題或者需求,歡迎您咨詢!我們帶來的不僅僅是技術(shù),還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098     Phone: 13 9800 1 9844 / 135 6887 9550     聯(lián)系人:石先生/雷先生