亚洲成a人v欧美综合天堂下载,亚洲欧洲日韩av在线观看

3D視覺相關(guān)論文42篇

發(fā)布日期：2026/4/12 9:27:02 瀏覽量：

3D視覺相關(guān)論文42篇

[1] tttLRM: Test-Time Training for Long Context and Autoregressive 3D ReconstructiontttLRM：用于長(zhǎng)上下文和自回歸3D重建的測(cè)試時(shí)訓(xùn)練
摘要：我們提出了tttLRM，這是一種新穎的大型3D重建模型，它利用測(cè)試時(shí)訓(xùn)練（Test-Time Training，TTT）層，以線性計(jì)算復(fù)雜度實(shí)現(xiàn)長(zhǎng)上下文、自回歸3D重建，進(jìn)一步擴(kuò)展了模型的能力。我們的框架將多個(gè)圖像觀測(cè)值高效地壓縮到TTT層的快速權(quán)重中，在潛在空間中形成一種隱式3D表示，該表示可以解碼為各種顯式格式，例如用于下游應(yīng)用的高斯 splat（Gaussian Splats，GS）。我們模型的在線學(xué)習(xí)變體支持從流式觀測(cè)值進(jìn)行漸進(jìn)式3D重建和細(xì)化。我們證明了在新穎視圖合成任務(wù)上的預(yù)訓(xùn)練可以有效地遷移到顯式3D建模，從而提高重建質(zhì)量并加快收斂速度。大量實(shí)驗(yàn)表明，在對(duì)象和場(chǎng)景的前饋3D高斯重建方面，我們的方法比現(xiàn)有最先進(jìn)的方法表現(xiàn)更優(yōu)。

[2] Flow3r: Factored Flow Prediction for Scalable Visual Geometry LearningFlow3r：用于可擴(kuò)展視覺幾何學(xué)習(xí)的因式分解光流預(yù)測(cè)
摘要：當(dāng)前的前饋3D/4D重建系統(tǒng)依賴于密集的幾何和位姿監(jiān)督，而獲取這些監(jiān)督在大規(guī)模場(chǎng)景下成本高昂，并且在動(dòng)態(tài)現(xiàn)實(shí)場(chǎng)景中尤其稀缺。我們提出了Flow3r框架，該框架以密集的2D對(duì)應(yīng)關(guān)系（“光流”）作為監(jiān)督來增強(qiáng)視覺幾何學(xué)習(xí)，從而能夠從無標(biāo)簽的單目視頻中進(jìn)行可擴(kuò)展的訓(xùn)練。我們的關(guān)鍵見解是，光流預(yù)測(cè)模塊應(yīng)該進(jìn)行因式分解：利用一張圖像的幾何潛變量和另一張圖像的位姿潛變量來預(yù)測(cè)兩張圖像之間的光流。這種因式分解直接引導(dǎo)場(chǎng)景幾何和相機(jī)運(yùn)動(dòng)的學(xué)習(xí)，并且自然地?cái)U(kuò)展到動(dòng)態(tài)場(chǎng)景。在可控實(shí)驗(yàn)中，我們表明因式分解光流預(yù)測(cè)優(yōu)于其他設(shè)計(jì)，并且性能隨著無標(biāo)簽數(shù)據(jù)的增加而持續(xù)提升。將因式分解光流集成到現(xiàn)有的視覺幾何架構(gòu)中，并使用約80萬個(gè)無標(biāo)簽視頻進(jìn)行訓(xùn)練，F(xiàn)low3r在涵蓋靜態(tài)和動(dòng)態(tài)場(chǎng)景的八個(gè)基準(zhǔn)測(cè)試中取得了最先進(jìn)的結(jié)果，在野外動(dòng)態(tài)視頻上的提升最大，因?yàn)樵谶@些場(chǎng)景中標(biāo)簽數(shù)據(jù)最為稀缺。

[3] SEAL-pose: Enhancing 3D Human Pose Estimation via a Learned Loss for Structural ConsistencySEAL-pose：通過學(xué)習(xí)結(jié)構(gòu)一致性損失提升3D人體姿態(tài)估計(jì)
摘要：3D人體姿態(tài)估計(jì)（HPE）的特點(diǎn)是關(guān)節(jié)之間存在復(fù)雜的局部和全局依賴關(guān)系。傳統(tǒng)的監(jiān)督損失在捕捉這些相關(guān)性方面存在局限性，因?yàn)樗鼈儶?dú)立處理每個(gè)關(guān)節(jié)。此前的研究曾嘗試通過手動(dòng)設(shè)計(jì)的先驗(yàn)或基于規(guī)則的約束來促進(jìn)結(jié)構(gòu)一致性；然而，這些方法通常需要手動(dòng)指定，并且往往不可微，限制了它們作為端到端訓(xùn)練目標(biāo)的使用。我們提出了SEAL-pose，這是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的框架，其中一個(gè)可學(xué)習(xí)的損失網(wǎng)絡(luò)（loss-net）通過評(píng)估結(jié)構(gòu)合理性來訓(xùn)練姿態(tài)網(wǎng)絡(luò)（pose-net）。我們基于關(guān)節(jié)圖的設(shè)計(jì)無需依賴手工制作的先驗(yàn)，使損失網(wǎng)絡(luò)能夠直接從數(shù)據(jù)中學(xué)習(xí)復(fù)雜的結(jié)構(gòu)依賴關(guān)系。在三個(gè)3D HPE基準(zhǔn)測(cè)試和八個(gè)骨干網(wǎng)絡(luò)上進(jìn)行的大量實(shí)驗(yàn)表明，與所有設(shè)置下的相應(yīng)骨干網(wǎng)絡(luò)相比，SEAL-pose降低了每個(gè)關(guān)節(jié)的誤差并提高了姿態(tài)的合理性。除了改進(jìn)每個(gè)骨干網(wǎng)絡(luò)之外，盡管沒有實(shí)施任何明確的結(jié)構(gòu)約束，SEAL-pose也優(yōu)于具有顯式結(jié)構(gòu)約束的模型。最后，我們分析了損失網(wǎng)絡(luò)與結(jié)構(gòu)一致性之間的關(guān)系，并在跨數(shù)據(jù)集和野外設(shè)置中評(píng)估了SEAL-pose。

[4] Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging SegmentationToken-UNet：將Transformer集成到高效且可解釋的3D UNet中用于腦成像分割的新案例
摘要：我們提出了Token-UNet，采用TokenLearner和TokenFuser模塊將Transformer融入U(xiǎn)Net。雖然Transformer在醫(yī)學(xué)成像中實(shí)現(xiàn)了輸入元素之間的全局交互，但當(dāng)前的計(jì)算挑戰(zhàn)阻礙了它們?cè)谄胀ㄓ布系牟渴?。?Swin)UNETR這樣的模型通過整合(Swin)Transformer編碼器來調(diào)整UNet架構(gòu)，這些編碼器處理每個(gè)代表輸入小體素塊（$8^3$體素）的令牌。Transformer注意力機(jī)制的計(jì)算復(fù)雜度與令牌數(shù)量呈二次方關(guān)系，而令牌數(shù)量與3D輸入分辨率的立方成正比。這項(xiàng)工作重新審視了卷積和注意力的作用，引入了Token-UNet，這是一系列可以在受限計(jì)算環(huán)境和時(shí)間框架內(nèi)運(yùn)行的3D分割模型。為了減輕計(jì)算需求，我們的方法保留了類UNet模型的卷積編碼器，并將TokenLearner應(yīng)用于3D特征圖。該模塊從局部和全局結(jié)構(gòu)中匯集預(yù)設(shè)數(shù)量的令牌。我們的結(jié)果表明，這種令牌化有效地編碼了與任務(wù)相關(guān)的信息，產(chǎn)生了自然可解釋的注意力圖。我們最重的模型的內(nèi)存占用、推理計(jì)算時(shí)間和參數(shù)數(shù)量分別降至SwinUNETR的33%、10%和35%，并且平均性能更好（SwinUNETR的Dice分?jǐn)?shù)為86.75% $\pm$ 0.19%，而我們的為87.21% $\pm$ 0.35%）。這項(xiàng)工作為在計(jì)算資源有限的環(huán)境（如3D醫(yī)學(xué)成像）中進(jìn)行更高效的訓(xùn)練開辟了道路。在有限的硬件環(huán)境中簡(jiǎn)化模型優(yōu)化、微調(diào)以及遷移學(xué)習(xí)可以加速和多樣化方法的發(fā)展，造福研究界。

[5] Learning Positive-Incentive Point Sampling in Neural Implicit Fields for Object Pose Estimation用于目標(biāo)姿態(tài)估計(jì)的神經(jīng)隱式場(chǎng)正激勵(lì)點(diǎn)采樣學(xué)習(xí)
摘要：學(xué)習(xí)3D形狀的神經(jīng)隱式場(chǎng)是一個(gè)迅速發(fā)展的領(lǐng)域，它能夠以任意分辨率進(jìn)行形狀表示。由于其靈活性，神經(jīng)隱式場(chǎng)已在許多研究領(lǐng)域取得成功，包括形狀重建、新穎視角圖像合成，以及最近的目標(biāo)姿態(tài)估計(jì)。神經(jīng)隱式場(chǎng)能夠?qū)W習(xí)相機(jī)空間和物體規(guī)范空間之間的密集對(duì)應(yīng)關(guān)系，包括相機(jī)空間中未觀察到的區(qū)域，這在諸如高度遮擋物體和新穎形狀等具有挑戰(zhàn)性的場(chǎng)景中顯著提高了目標(biāo)姿態(tài)估計(jì)的性能。盡管取得了進(jìn)展，但由于缺乏直接的觀測(cè)信號(hào)，為相機(jī)空間中未觀察到的區(qū)域預(yù)測(cè)規(guī)范坐標(biāo)仍然具有挑戰(zhàn)性。這就需要高度依賴模型的泛化能力，從而導(dǎo)致高不確定性。因此，在整個(gè)相機(jī)空間中密集采樣點(diǎn)可能會(huì)產(chǎn)生不準(zhǔn)確的估計(jì)，這會(huì)阻礙學(xué)習(xí)過程并降低性能。為緩解這一問題，我們提出了一種將SO(3)等變卷積隱式網(wǎng)絡(luò)與正激勵(lì)點(diǎn)采樣（PIPS）策略相結(jié)合的方法。SO(3)等變卷積隱式網(wǎng)絡(luò)在任意查詢位置以SO(3)等變性估計(jì)點(diǎn)級(jí)屬性，與大多數(shù)現(xiàn)有基線相比表現(xiàn)出更優(yōu)的性能。PIPS策略根據(jù)輸入動(dòng)態(tài)確定采樣位置，從而提高了網(wǎng)絡(luò)的準(zhǔn)確性和訓(xùn)練效率。我們的方法在三個(gè)姿態(tài)估計(jì)數(shù)據(jù)集上優(yōu)于現(xiàn)有最先進(jìn)的方法。值得注意的是，它在具有挑戰(zhàn)性的場(chǎng)景中表現(xiàn)出顯著的改進(jìn)，例如以未見姿態(tài)捕獲的物體、高度遮擋、新穎幾何形狀和嚴(yán)重噪聲等情況。

[6] Augmented Radiance Field: A General Framework for Enhanced Gaussian Splatting增強(qiáng)輻射場(chǎng)：用于增強(qiáng)高斯 splatting 的通用框架
摘要：由于實(shí)時(shí)渲染性能，3D 高斯 splatting（3DGS）已成為輻射場(chǎng)重建的領(lǐng)先方法。然而，它依賴球諧函數(shù)進(jìn)行顏色編碼，這從本質(zhì)上限制了其分離漫反射和鏡面反射分量的能力，使得準(zhǔn)確表示復(fù)雜反射變得具有挑戰(zhàn)性。為了解決這個(gè)問題，我們提出了一種新穎的增強(qiáng)高斯核，該核通過與視角相關(guān)的不透明度顯式建模鏡面反射效果。同時(shí)，我們引入了一種基于誤差驅(qū)動(dòng)的補(bǔ)償策略，以提高現(xiàn)有 3DGS 場(chǎng)景的渲染質(zhì)量。我們的方法從 2D 高斯初始化開始，然后自適應(yīng)地插入和優(yōu)化增強(qiáng)高斯核，最終生成一個(gè)增強(qiáng)輻射場(chǎng)。實(shí)驗(yàn)表明，我們的方法不僅在渲染性能上超越了現(xiàn)有最先進(jìn)的 NeRF 方法，還實(shí)現(xiàn)了更高的參數(shù)效率。項(xiàng)目頁面：https://xiaoxinyyx.github.io/augs.

[7] Monocular Mesh Recovery and Body Measurement of Female Saanen Goats雌性薩能山羊的單目網(wǎng)格恢復(fù)與身體測(cè)量
摘要：以高產(chǎn)奶量著稱的薩能奶山羊的泌乳性能與其體型密切相關(guān)，因此準(zhǔn)確的3D身體測(cè)量對(duì)于評(píng)估其產(chǎn)奶潛力至關(guān)重要。然而，現(xiàn)有的重建方法缺乏針對(duì)山羊的真實(shí)3D數(shù)據(jù)。為解決這一局限性，我們建立了FemaleSaanenGoat數(shù)據(jù)集，該數(shù)據(jù)集包含55只6 - 18個(gè)月大的雌性薩能山羊的同步八視圖RGBD視頻。我們使用多視圖DynamicFusion將嘈雜、非剛性的點(diǎn)云序列融合成高保真的3D掃描，克服了不規(guī)則表面和快速運(yùn)動(dòng)帶來的挑戰(zhàn)?；谶@些掃描，我們開發(fā)了專門為雌性薩能山羊設(shè)計(jì)的參數(shù)化3D形狀模型SaanenGoat。該模型具有一個(gè)包含41個(gè)骨骼關(guān)節(jié)的精細(xì)模板，并增強(qiáng)了乳房表示，與我們的掃描數(shù)據(jù)進(jìn)行了配準(zhǔn)。由48只山羊構(gòu)建的綜合形狀空間能夠精確表示各種個(gè)體差異。借助SaanenGoat模型，我們可以從單視圖RGBD輸入中實(shí)現(xiàn)高精度的3D重建，并實(shí)現(xiàn)對(duì)六個(gè)關(guān)鍵身體尺寸的自動(dòng)測(cè)量：體長(zhǎng)、體高、胸寬、胸圍、臀寬和臀高。實(shí)驗(yàn)結(jié)果表明，我們的方法在3D重建和身體測(cè)量方面具有卓越的準(zhǔn)確性，為精準(zhǔn)畜牧養(yǎng)殖中的大規(guī)模3D視覺應(yīng)用提供了一種新范式。

[8] BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose RepresentationsBigMaQ：一個(gè)連接圖像和3D姿態(tài)表示的大型獼猴運(yùn)動(dòng)與動(dòng)畫數(shù)據(jù)集
摘要：動(dòng)物動(dòng)態(tài)和社交行為的識(shí)別對(duì)于推動(dòng)動(dòng)物行為學(xué)、生態(tài)學(xué)、醫(yī)學(xué)和神經(jīng)科學(xué)的發(fā)展至關(guān)重要。深度學(xué)習(xí)的最新進(jìn)展使得從視頻中實(shí)現(xiàn)自動(dòng)化行為識(shí)別成為可能，但三維（3D）姿態(tài)和形狀的精確重建尚未融入這一過程。特別是對(duì)于非人類靈長(zhǎng)類動(dòng)物，基于網(wǎng)格的跟蹤工作落后于其他物種，使得姿態(tài)描述僅限于稀疏的關(guān)鍵點(diǎn)，無法完全捕捉動(dòng)作動(dòng)態(tài)的豐富性。為了彌補(bǔ)這一差距，我們引入了大獼猴3D運(yùn)動(dòng)與動(dòng)畫數(shù)據(jù)集（BigMaQ），這是一個(gè)大規(guī)模數(shù)據(jù)集，包含超過750個(gè)相互交互的恒河猴場(chǎng)景，并配有詳細(xì)的3D姿態(tài)描述。我們擴(kuò)展了先前基于表面的動(dòng)物跟蹤方法，通過將高質(zhì)量的獼猴模板網(wǎng)格適配到每只個(gè)體猴子，構(gòu)建了特定個(gè)體的紋理化化身。這使得我們能夠提供比先前最先進(jìn)的基于表面的動(dòng)物跟蹤方法更精確的姿態(tài)描述。從原始數(shù)據(jù)集中，我們衍生出BigMaQ500，這是一個(gè)動(dòng)作識(shí)別基準(zhǔn)，它將基于表面的姿態(tài)向量與多只個(gè)體猴子的單幀圖像相關(guān)聯(lián)。通過將從已有的圖像和視頻編碼器中提取的特征與我們的姿態(tài)描述符（有或沒有）進(jìn)行配對(duì)，我們證明了在包含姿態(tài)信息時(shí)，平均精度均值（mAP）有顯著提升。通過這些貢獻(xiàn)，BigMaQ建立了第一個(gè)將動(dòng)態(tài)3D姿態(tài) - 形狀表示融入動(dòng)物動(dòng)作識(shí)別學(xué)習(xí)任務(wù)的數(shù)據(jù)集，并為推進(jìn)非人類靈長(zhǎng)類動(dòng)物的視覺外觀、姿勢(shì)和社交互動(dòng)研究提供了豐富的資源。代碼和數(shù)據(jù)可在https://martinivis.github.io/BigMaQ/ 上公開獲取。

[9] Open-vocabulary 3D scene perception in industrial environments工業(yè)環(huán)境中的開放詞匯3D場(chǎng)景感知
摘要：生產(chǎn)、廠內(nèi)物流或制造環(huán)境中的自主視覺應(yīng)用需要具備超越一小部分固定類別的感知能力。最近的開放詞匯方法利用2D視覺語言基礎(chǔ)模型（VLFMs）來解決這一任務(wù)，但這些方法通常依賴于在非工業(yè)數(shù)據(jù)集（如家庭場(chǎng)景）上預(yù)訓(xùn)練的無類別分割模型。在這項(xiàng)工作中，我們首先證明了此類模型無法泛化，在常見工業(yè)對(duì)象上表現(xiàn)不佳。因此，我們提出了一種無需訓(xùn)練的開放詞匯3D感知管道，克服了這一局限性。我們的方法不是使用預(yù)訓(xùn)練模型來生成實(shí)例提議，而是根據(jù)預(yù)計(jì)算的超點(diǎn)的語義特征將它們合并以生成掩碼。隨后，我們?cè)谝粋€(gè)具有代表性的3D工業(yè)車間場(chǎng)景上評(píng)估了經(jīng)過領(lǐng)域適配的VLFM “IndustrialCLIP” 以進(jìn)行開放詞匯查詢。我們的定性結(jié)果展示了對(duì)工業(yè)對(duì)象的成功分割。

[10] One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single ImageOne2Scene：從單張圖像生成幾何一致的可探索3D場(chǎng)景
摘要：從單張圖像生成可探索的3D場(chǎng)景是3D視覺領(lǐng)域極具挑戰(zhàn)性的問題?，F(xiàn)有方法難以支持自由探索，當(dāng)視角遠(yuǎn)離原始視角時(shí)，往往會(huì)產(chǎn)生嚴(yán)重的幾何畸變和噪聲偽影。我們提出了One2Scene，這是一個(gè)有效的框架，它將這個(gè)不適定問題分解為三個(gè)易于處理的子任務(wù)，以實(shí)現(xiàn)沉浸式可探索場(chǎng)景的生成。我們首先使用全景圖生成器從單張輸入圖像生成錨點(diǎn)視圖作為初始化。然后，通過一個(gè)可泛化的前饋高斯模糊網(wǎng)絡(luò)（Gaussian Splatting network）將這些2D錨點(diǎn)提升為顯式的3D幾何支架。我們沒有將全景圖作為單張圖像進(jìn)行重建，而是將其投影到多個(gè)稀疏錨點(diǎn)視圖中，并將重建任務(wù)重新表述為多視圖立體匹配，這使我們能夠利用從大規(guī)模多視圖數(shù)據(jù)集中學(xué)習(xí)到的強(qiáng)大幾何先驗(yàn)。使用雙向特征融合模塊來確保跨視圖一致性，從而得到一個(gè)高效且?guī)缀慰煽康闹Ъ堋Ｗ詈?，該支架作為一個(gè)強(qiáng)大的先驗(yàn)，用于一個(gè)新穎視圖生成器，以在任意相機(jī)位置生成逼真且?guī)缀螠?zhǔn)確的視圖。通過明確地基于3D一致的支架進(jìn)行重建，One2Scene在大相機(jī)運(yùn)動(dòng)下能夠穩(wěn)定工作，支持沉浸式場(chǎng)景探索。大量實(shí)驗(yàn)表明，One2Scene在全景深度估計(jì)、前饋360°重建和可探索3D場(chǎng)景生成方面顯著優(yōu)于現(xiàn)有最先進(jìn)的方法。代碼和模型將被發(fā)布。

[11] Training Deep Stereo Matching Networks on Tree Branch Imagery: A Benchmark Study for Real-Time UAV Forestry Applications基于樹枝圖像訓(xùn)練深度立體匹配網(wǎng)絡(luò)：實(shí)時(shí)無人機(jī)林業(yè)應(yīng)用的基準(zhǔn)研究
摘要：基于自主無人機(jī)的樹木修剪需要通過立體相機(jī)進(jìn)行準(zhǔn)確、實(shí)時(shí)的深度估計(jì)。深度是使用公式 $Z = f B/d$ 從視差圖計(jì)算得出的，因此即使是很小的視差誤差，在工作距離下也會(huì)導(dǎo)致明顯的深度錯(cuò)誤?；谖覀?cè)缙诘难芯浚ㄔ撗芯看_定DEFOM-Stereo是植被場(chǎng)景中最佳的參考視差生成器），我們首次開展了在真實(shí)樹枝圖像上訓(xùn)練和測(cè)試十種深度立體匹配網(wǎng)絡(luò)的研究。我們使用了坎特伯雷樹枝數(shù)據(jù)集（Canterbury Tree Branches dataset），該數(shù)據(jù)集包含來自ZED Mini相機(jī)的5313對(duì)1080P和720P立體圖像對(duì)，并以DEFOM生成的視差圖作為訓(xùn)練目標(biāo)。這十種方法涵蓋了逐步細(xì)化、3D卷積、邊緣感知注意力和輕量級(jí)設(shè)計(jì)。使用感知指標(biāo)（SSIM、LPIPS、ViTScore）和結(jié)構(gòu)指標(biāo)（SIFT/ORB特征匹配），我們發(fā)現(xiàn)BANet - 3D產(chǎn)生的整體質(zhì)量最佳（SSIM = 0.883，LPIPS = 0.157），而RAFT - Stereo在場(chǎng)景級(jí)理解方面得分最高（ViTScore = 0.799）。在安裝在我們無人機(jī)上的NVIDIA Jetson Orin Super（16 GB，獨(dú)立供電）上進(jìn)行測(cè)試表明，AnyNet在1080P分辨率下達(dá)到6.99 FPS，是唯一接近實(shí)時(shí)的選項(xiàng)，而BANet - 2D在1.21 FPS時(shí)實(shí)現(xiàn)了最佳的質(zhì)量 - 速度平衡。我們還比較了720P和1080P的處理時(shí)間，以指導(dǎo)林業(yè)無人機(jī)系統(tǒng)的分辨率選擇。

[12] RAP: Fast Feedforward Rendering-Free Attribute-Guided Primitive Importance Score Prediction for Efficient 3D Gaussian Splatting ProcessingRAP: 用于高效3D高斯 splatting 處理的快速前饋無渲染屬性引導(dǎo)的基元重要性分?jǐn)?shù)預(yù)測(cè)
摘要：3D高斯 splatting (3DGS) 已成為高質(zhì)量3D場(chǎng)景重建的領(lǐng)先技術(shù)。然而，迭代細(xì)化和致密化過程會(huì)生成大量基元，每個(gè)基元對(duì)重建的貢獻(xiàn)程度有很大差異。因此，估計(jì)基元的重要性至關(guān)重要，這既有助于在重建過程中去除冗余，也能實(shí)現(xiàn)高效的壓縮和傳輸?，F(xiàn)有方法通常依賴基于渲染的分析，即通過每個(gè)基元在多個(gè)相機(jī)視角下的貢獻(xiàn)來評(píng)估。然而，這些方法對(duì)視角的數(shù)量和選擇很敏感，依賴專門的可微光柵化器，并且計(jì)算時(shí)間會(huì)隨視角數(shù)量線性增長(zhǎng)，這使得它們難以作為即插即用的模塊集成，限制了可擴(kuò)展性和泛化性。為解決這些問題，我們提出了 RAP，這是一種用于3DGS中高效重要性分?jǐn)?shù)預(yù)測(cè)的快速前饋無渲染屬性引導(dǎo)方法。RAP 直接從高斯的固有屬性和局部鄰域統(tǒng)計(jì)信息推斷基元的重要性，避免了基于渲染或依賴可見性的計(jì)算。一個(gè)緊湊的多層感知器 (MLP) 使用渲染損失、剪枝感知損失和重要性分布正則化來預(yù)測(cè)每個(gè)基元的重要性分?jǐn)?shù)。在少量場(chǎng)景上進(jìn)行訓(xùn)練后，RAP 能有效地泛化到未見數(shù)據(jù)，并且可以無縫集成到重建、壓縮和傳輸管道中。我們的代碼可在 https://github.com/yyyykf/RAP 上公開獲取。

[13] VGGT-MPR: VGGT-Enhanced Multimodal Place Recognition in Autonomous Driving EnvironmentsVGGT-MPR：自動(dòng)駕駛環(huán)境中基于VGGT增強(qiáng)的多模態(tài)場(chǎng)景識(shí)別
摘要：在自動(dòng)駕駛中，可靠的場(chǎng)景識(shí)別對(duì)于全局定位和閉環(huán)檢測(cè)至關(guān)重要。雖然多模態(tài)場(chǎng)景識(shí)別（MPR）中相機(jī)和激光雷達(dá)數(shù)據(jù)的跨模態(tài)融合在克服單模態(tài)方法的局限性方面顯示出了潛力，但現(xiàn)有的MPR方法主要依賴手工設(shè)計(jì)的融合策略和參數(shù)眾多的骨干網(wǎng)絡(luò)，需要進(jìn)行代價(jià)高昂的重新訓(xùn)練。為了解決這一問題，我們提出了VGGT-MPR，這是一個(gè)多模態(tài)場(chǎng)景識(shí)別框架，它采用視覺幾何基礎(chǔ)Transformer（VGGT）作為統(tǒng)一的幾何引擎，用于全局檢索和重排序。在全局檢索階段，VGGT通過先驗(yàn)深度感知和點(diǎn)云地圖監(jiān)督提取富含幾何信息的視覺嵌入，并利用預(yù)測(cè)的深度圖對(duì)稀疏的激光雷達(dá)點(diǎn)云進(jìn)行致密化處理，以提高結(jié)構(gòu)表示能力。這增強(qiáng)了融合后的多模態(tài)特征的判別能力，并生成用于快速檢索的全局描述符。除了全局檢索，我們還設(shè)計(jì)了一種無需訓(xùn)練的重排序機(jī)制，該機(jī)制利用了VGGT的跨視圖關(guān)鍵點(diǎn)跟蹤能力。通過將掩碼引導(dǎo)的關(guān)鍵點(diǎn)提取與置信度感知的對(duì)應(yīng)評(píng)分相結(jié)合，我們提出的重排序機(jī)制無需額外的參數(shù)優(yōu)化即可有效細(xì)化檢索結(jié)果。在大規(guī)模自動(dòng)駕駛基準(zhǔn)數(shù)據(jù)集和我們自行采集的數(shù)據(jù)上進(jìn)行的大量實(shí)驗(yàn)表明，VGGT-MPR達(dá)到了當(dāng)前最優(yōu)性能，對(duì)嚴(yán)重的環(huán)境變化、視角變化和遮擋具有很強(qiáng)的魯棒性。我們的代碼和數(shù)據(jù)將公開提供。

[14] Generative 6D Pose Estimation via Conditional Flow Matching通過條件流匹配進(jìn)行生成式6D姿態(tài)估計(jì)
摘要：現(xiàn)有的實(shí)例級(jí)6D姿態(tài)估計(jì)方法通常依賴于神經(jīng)網(wǎng)絡(luò)，這些網(wǎng)絡(luò)要么直接在SE(3)中回歸姿態(tài)，要么通過局部特征匹配間接估計(jì)姿態(tài)。前者在處理物體對(duì)稱性方面存在困難，而后者在缺乏獨(dú)特局部特征的情況下會(huì)失效。為克服這些局限性，我們提出了一種將6D姿態(tài)估計(jì)作為R3中的條件流匹配問題的新公式。我們引入了Flose，這是一種生成式方法，通過基于局部特征的去噪過程來推斷物體姿態(tài)。雖然之前基于條件流匹配的方法僅基于幾何引導(dǎo)進(jìn)行去噪，但Flose集成了基于外觀的語義特征，以減輕物體對(duì)稱性造成的歧義。我們進(jìn)一步結(jié)合基于RANSAC的配準(zhǔn)來處理離群點(diǎn)。我們?cè)贐OP基準(zhǔn)的五個(gè)數(shù)據(jù)集上驗(yàn)證了Flose。Flose以平均4.5的平均召回率提升優(yōu)于先前的方法。項(xiàng)目網(wǎng)站：https://tev-fbk.github.io/Flose/

[15] BayesFusion-SDF: Probabilistic Signed Distance Fusion with View Planning on CPUBayesFusion-SDF：基于CPU的概率符號(hào)距離融合與視圖規(guī)劃
摘要：從深度觀測(cè)進(jìn)行密集3D重建是機(jī)器人技術(shù)、增強(qiáng)現(xiàn)實(shí)和數(shù)字檢測(cè)的關(guān)鍵部分。傳統(tǒng)的體素融合技術(shù)，包括截?cái)喾?hào)距離函數(shù)（TSDF），能夠?qū)崿F(xiàn)高效且確定性的幾何重建；然而，它們依賴于啟發(fā)式加權(quán)，并且無法以系統(tǒng)的方式透明地傳達(dá)不確定性。另一方面，最近的神經(jīng)隱式方法雖然能獲得非常高的保真度，但通常需要大量的GPU算力進(jìn)行優(yōu)化，并且對(duì)于后續(xù)決策來說不太容易理解。本文提出了BayesFusion-SDF，這是一個(gè)以CPU為中心的概率符號(hào)距離融合框架，該框架將幾何概念化為一個(gè)稀疏高斯隨機(jī)場(chǎng)，在體素距離上具有定義好的后驗(yàn)分布。首先，使用粗略的TSDF重建來創(chuàng)建一個(gè)自適應(yīng)窄帶域。然后，使用異方差貝葉斯公式結(jié)合深度觀測(cè)，該公式通過稀疏線性代數(shù)和預(yù)條件共軛梯度法求解。隨機(jī)對(duì)角估計(jì)器是一種快速獲取后驗(yàn)不確定性估計(jì)的方法。這使得能夠在考慮不確定性的情況下提取表面并規(guī)劃下一個(gè)最佳視圖。在受控消融場(chǎng)景和CO3D對(duì)象序列上的測(cè)試表明，新方法在幾何上比TSDF基線更準(zhǔn)確，并為主動(dòng)感知提供了有用的不確定性估計(jì)。所提出的公式為依賴GPU的神經(jīng)重建方法提供了一種清晰且易于使用的替代方案，同時(shí)仍能以概率方式理解并可預(yù)測(cè)地行動(dòng)。GitHub：https://mazumdarsoumya.github.io/BayesFusionSDF

[16] TeHOR: Text-Guided 3D Human and Object Reconstruction with TexturesTeHOR：基于紋理的文本引導(dǎo)3D人體與物體重建
摘要：從單張圖像中聯(lián)合重建3D人體和物體是一個(gè)活躍的研究領(lǐng)域，在機(jī)器人技術(shù)和數(shù)字內(nèi)容創(chuàng)作中有著關(guān)鍵應(yīng)用。盡管近期取得了進(jìn)展，但現(xiàn)有方法存在兩個(gè)基本局限性。首先，它們的重建嚴(yán)重依賴物理接觸信息，本質(zhì)上無法捕捉非接觸式的人體 - 物體交互，例如凝視或指向物體。其次，重建過程主要由局部幾何接近度驅(qū)動(dòng)，忽略了人體和物體外觀所提供的對(duì)于理解整體交互至關(guān)重要的全局上下文。為解決這些問題，我們引入了TeHOR，這是一個(gè)基于兩個(gè)核心設(shè)計(jì)構(gòu)建的框架。首先，除了接觸信息之外，我們的框架利用人體 - 物體交互的文本描述來強(qiáng)制3D重建與其文本線索之間的語義對(duì)齊，從而能夠?qū)Ω鼜V泛的交互進(jìn)行推理，包括非接觸情況。其次，我們將3D人體和物體的外觀線索納入對(duì)齊過程，以捕捉整體上下文信息，從而確保視覺上合理的重建。因此，我們的框架能夠產(chǎn)生準(zhǔn)確且語義連貫的重建結(jié)果，達(dá)到了當(dāng)前的最優(yōu)性能。

[17] DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-SpacesDICArt：推進(jìn)離散狀態(tài)空間中的類別級(jí)可鉸接物體姿態(tài)估計(jì)
摘要：可鉸接物體姿態(tài)估計(jì)是具身人工智能中的一項(xiàng)核心任務(wù)?，F(xiàn)有方法通常在連續(xù)空間中回歸姿態(tài)，但往往難以應(yīng)對(duì)以下兩個(gè)問題：1) 探索龐大復(fù)雜的搜索空間；2) 未能納入內(nèi)在運(yùn)動(dòng)學(xué)約束。在這項(xiàng)工作中，我們引入了DICArt（用于鉸接姿態(tài)估計(jì)的離散擴(kuò)散模型），這是一個(gè)將姿態(tài)估計(jì)表述為條件離散擴(kuò)散過程的新穎框架。DICArt并非在連續(xù)域中操作，而是通過學(xué)習(xí)到的反向擴(kuò)散過程逐步對(duì)有噪聲的姿態(tài)表示進(jìn)行去噪，以恢復(fù)真實(shí)姿態(tài)。為了提高建模精度，我們提出了一種靈活的流決策器，它能動(dòng)態(tài)確定每個(gè)令牌是應(yīng)該去噪還是重置，從而在擴(kuò)散過程中有效平衡真實(shí)分布和噪聲分布。此外，我們還采用了一種分層運(yùn)動(dòng)學(xué)耦合策略，按層次估計(jì)每個(gè)剛體部件的姿態(tài)，以遵循物體的運(yùn)動(dòng)學(xué)結(jié)構(gòu)。我們?cè)诤铣蓴?shù)據(jù)集和真實(shí)世界數(shù)據(jù)集上對(duì)DICArt進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果證明了其卓越的性能和魯棒性。通過將離散生成建模與結(jié)構(gòu)先驗(yàn)相結(jié)合，DICArt為復(fù)雜環(huán)境中可靠的類別級(jí)6D姿態(tài)估計(jì)提供了一種新范式。

[18] Vinedresser3D: Agentic Text-guided 3D EditingVinedresser3D：基于智能體的文本引導(dǎo)3D編輯
摘要：文本引導(dǎo)的3D編輯旨在使用自然語言指令修改現(xiàn)有的3D資產(chǎn)。當(dāng)前方法難以同時(shí)理解復(fù)雜提示、在3D中自動(dòng)定位編輯位置以及保留未編輯內(nèi)容。我們引入了Vinedresser3D，這是一個(gè)直接在原生3D生成模型的潛在空間中運(yùn)行的高質(zhì)量文本引導(dǎo)3D編輯的智能體框架。給定一個(gè)3D資產(chǎn)和一個(gè)編輯提示，Vinedresser3D使用多模態(tài)大語言模型（multimodal large language model）推斷原始資產(chǎn)的豐富描述，識(shí)別編輯區(qū)域和編輯類型（添加、修改、刪除），并生成分解后的結(jié)構(gòu)和外觀級(jí)文本引導(dǎo)。然后，智能體選擇一個(gè)信息豐富的視圖，并應(yīng)用圖像編輯模型以獲得視覺引導(dǎo)。最后，一個(gè)基于反演的整流流修復(fù)管道（inversion-based rectified-flow inpainting pipeline）與交錯(cuò)采樣模塊在3D潛在空間中執(zhí)行編輯，在保持3D連貫性和未編輯區(qū)域的同時(shí)實(shí)現(xiàn)提示對(duì)齊。在各種3D編輯上的實(shí)驗(yàn)表明，Vinedresser3D在自動(dòng)指標(biāo)和人類偏好研究中均優(yōu)于先前的基線，同時(shí)實(shí)現(xiàn)了精確、連貫且無需掩碼的3D編輯。

[19] Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object DetectionFore-Mamba3D：用于3D目標(biāo)檢測(cè)的基于Mamba的前景增強(qiáng)編碼
摘要：像Mamba這樣的線性建模方法已被融合作為3D目標(biāo)檢測(cè)任務(wù)的有效骨干網(wǎng)絡(luò)。然而，之前基于Mamba的方法對(duì)整個(gè)非空體素序列進(jìn)行雙向編碼，而場(chǎng)景中包含大量無用的背景信息。雖然直接編碼前景體素似乎是一個(gè)可行的解決方案，但這往往會(huì)降低檢測(cè)性能。我們將此歸因于僅前景序列線性建模中的響應(yīng)衰減和受限的上下文表示。為了解決這個(gè)問題，我們提出了一種新穎的骨干網(wǎng)絡(luò)，稱為Fore-Mamba3D，通過修改基于Mamba的編碼器來專注于前景增強(qiáng)。首先根據(jù)預(yù)測(cè)分?jǐn)?shù)對(duì)前景體素進(jìn)行采樣?？紤]到不同實(shí)例的前景體素相互作用中存在的響應(yīng)衰減，我們?cè)O(shè)計(jì)了一個(gè)區(qū)域到全局滑動(dòng)窗口（RGSW），將信息從區(qū)域分割傳播到整個(gè)序列。此外，提出了一種語義輔助和狀態(tài)空間融合模塊（SASFMamba），通過增強(qiáng)Mamba模型內(nèi)的語義和幾何感知來豐富上下文表示。我們的方法強(qiáng)調(diào)僅前景編碼，并緩解了線性自回歸模型中基于距離和因果的依賴關(guān)系。在各種基準(zhǔn)測(cè)試中的卓越性能證明了Fore-Mamba3D在3D目標(biāo)檢測(cè)任務(wù)中的有效性。

[20] Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces用于鏡面表面的物理信息驅(qū)動(dòng)主動(dòng)偏振3D成像
摘要：在現(xiàn)實(shí)場(chǎng)景中，如在線檢測(cè)或手持掃描，鏡面表面的3D成像仍然具有挑戰(zhàn)性，需要快速準(zhǔn)確地測(cè)量復(fù)雜幾何形狀。像偏折術(shù)這樣的光學(xué)計(jì)量技術(shù)能實(shí)現(xiàn)高精度，但通常依賴多幀采集，使其不適用于動(dòng)態(tài)環(huán)境?；诟道锶~的單幀方法緩解了這一限制，然而在測(cè)量具有高空間頻率結(jié)構(gòu)或大曲率的表面時(shí)，其性能會(huì)下降。另外，計(jì)算機(jī)視覺中的偏振3D成像以單幀方式運(yùn)行，并且對(duì)幾何復(fù)雜性表現(xiàn)出魯棒性。然而，其準(zhǔn)確性從根本上受到正交成像假設(shè)的限制。在本文中，我們提出了一個(gè)用于復(fù)雜鏡面表面單幀3D成像的物理信息驅(qū)動(dòng)深度學(xué)習(xí)框架。偏振線索提供方向先驗(yàn)，有助于解釋由結(jié)構(gòu)光照明編碼的幾何信息。這些互補(bǔ)線索通過具有相互特征調(diào)制的雙編碼器架構(gòu)進(jìn)行處理，使網(wǎng)絡(luò)能夠解決它們的非線性耦合問題并直接推斷表面法線。所提出的方法能夠在單幀中實(shí)現(xiàn)準(zhǔn)確且魯棒的法線估計(jì)，推理速度快，從而實(shí)現(xiàn)復(fù)雜鏡面表面的實(shí)用3D成像。

[21] UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic SegmentationUP-Fuse：用于3D全景分割的不確定性引導(dǎo)的LiDAR-相機(jī)融合方法
摘要：LiDAR-相機(jī)融合通過利用相機(jī)圖像來補(bǔ)充稀疏的LiDAR掃描，從而增強(qiáng)了3D全景分割效果，但它也引入了一個(gè)關(guān)鍵的故障模式。在不利條件下，相機(jī)傳感器的性能下降或故障會(huì)顯著損害感知系統(tǒng)的可靠性。為解決這一問題，我們提出了UP-Fuse，這是一種在2D距離視圖下的新型不確定性感知融合框架，它在相機(jī)傳感器性能下降、校準(zhǔn)漂移和傳感器故障的情況下仍能保持魯棒性。原始LiDAR數(shù)據(jù)首先被投影到距離視圖中，并由LiDAR編碼器進(jìn)行編碼，同時(shí)提取相機(jī)特征并將其投影到相同的共享空間。UP-Fuse的核心是采用了一個(gè)不確定性引導(dǎo)的融合模塊，該模塊使用預(yù)測(cè)的不確定性圖來動(dòng)態(tài)調(diào)節(jié)跨模態(tài)交互。這些不確定性圖是通過量化不同視覺退化情況下的表征差異來學(xué)習(xí)得到的，以確保只有可靠的視覺線索影響融合后的表征。融合后的距離視圖特征由一個(gè)新穎的混合2D - 3D變壓器進(jìn)行解碼，該變壓器可緩解2D投影中固有的空間歧義，并直接預(yù)測(cè)3D全景分割掩碼。在Panoptic nuScenes、SemanticKITTI和我們引入的Panoptic Waymo基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)證明了UP-Fuse的有效性和魯棒性，即使在嚴(yán)重的視覺損壞或不對(duì)準(zhǔn)情況下，它也能保持良好的性能，使其非常適合安全關(guān)鍵環(huán)境中的機(jī)器人感知。

[22] DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware FilteringDefenseSplat：通過頻率感知濾波增強(qiáng)3D高斯 splatting 的魯棒性
摘要：3D高斯 splatting（3DGS）已成為一種強(qiáng)大的范式，可用于從帶姿態(tài)的圖像中進(jìn)行實(shí)時(shí)、高保真的3D重建。然而，最近的研究表明，它在輸入視圖中容易受到對(duì)抗性干擾，其中難以察覺但一致的擾動(dòng)會(huì)大幅降低渲染質(zhì)量、增加訓(xùn)練和渲染時(shí)間并膨脹內(nèi)存使用，甚至導(dǎo)致服務(wù)器拒絕服務(wù)。在我們的工作中，為了緩解這一問題，我們首先使用小波變換分析輸入圖像的低頻和高頻分量中對(duì)抗性擾動(dòng)的不同行為?；谶@一觀察，我們?cè)O(shè)計(jì)了一種簡(jiǎn)單而有效的頻率感知防御策略，通過過濾高頻噪聲同時(shí)保留低頻內(nèi)容來重建訓(xùn)練視圖。這種方法在保持原始場(chǎng)景真實(shí)性的同時(shí)，有效抑制了對(duì)抗性偽影。值得注意的是，它不會(huì)顯著影響在干凈數(shù)據(jù)上的訓(xùn)練，在魯棒性和干凈輸入上的性能之間實(shí)現(xiàn)了理想的權(quán)衡。通過在多個(gè)基準(zhǔn)上的廣泛攻擊強(qiáng)度實(shí)驗(yàn)，我們證明了我們的方法在無需訪問干凈真實(shí)監(jiān)督的情況下，顯著增強(qiáng)了3DGS的魯棒性。通過突出并解決3D高斯 splatting 被忽視的脆弱性，我們的工作為更魯棒和安全的3D重建鋪平了道路。

[23] GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation LearningGS-CLIP：基于幾何感知提示和協(xié)同視圖表示學(xué)習(xí)的零樣本3D異常檢測(cè)
摘要：零樣本3D異常檢測(cè)是一項(xiàng)新興任務(wù)，旨在無需任何目標(biāo)訓(xùn)練數(shù)據(jù)的情況下檢測(cè)目標(biāo)數(shù)據(jù)集中的異常，這在受樣本稀缺和數(shù)據(jù)隱私問題限制的場(chǎng)景中尤為重要。雖然當(dāng)前方法通過將3D點(diǎn)云投影到2D表示來適配CLIP，但它們面臨挑戰(zhàn)。這種投影本質(zhì)上會(huì)丟失一些幾何細(xì)節(jié)，并且依賴單一的2D模態(tài)提供的視覺理解不完整，限制了它們檢測(cè)各種異常類型的能力。為解決這些局限性，我們提出了幾何感知提示和協(xié)同視圖表示學(xué)習(xí)（GS-CLIP）框架，該框架使模型能夠通過兩階段學(xué)習(xí)過程識(shí)別幾何異常。在階段1，我們動(dòng)態(tài)生成嵌入3D幾何先驗(yàn)的文本提示。這些提示包含由我們的幾何缺陷蒸餾模塊（GDDM）提煉的全局形狀上下文和局部缺陷信息。在階段2，我們引入?yún)f(xié)同視圖表示學(xué)習(xí)架構(gòu)，該架構(gòu)并行處理渲染圖像和深度圖像。隨后，協(xié)同精煉模塊（SRM）融合兩個(gè)流的特征，利用它們的互補(bǔ)優(yōu)勢(shì)。在四個(gè)大規(guī)模公共數(shù)據(jù)集上的綜合實(shí)驗(yàn)結(jié)果表明，GS-CLIP在檢測(cè)方面取得了卓越的性能。代碼可在https://github.com/zhushengxinyue/GS-CLIP獲取。

[24] VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery基于擴(kuò)散的人體網(wǎng)格恢復(fù)的視覺語言模型引導(dǎo)的群體偏好對(duì)齊
摘要：從單張RGB圖像進(jìn)行人體網(wǎng)格恢復(fù)（HMR）本質(zhì)上具有歧義性，因?yàn)槎鄠€(gè)3D姿態(tài)可能對(duì)應(yīng)于同一2D觀測(cè)結(jié)果。最近基于擴(kuò)散的方法通過生成各種假設(shè)來解決這個(gè)問題，但往往犧牲了準(zhǔn)確性。它們產(chǎn)生的預(yù)測(cè)要么在物理上不可行，要么偏離輸入圖像，特別是在遮擋或雜亂的自然場(chǎng)景中。為了解決這個(gè)問題，我們引入了一個(gè)具有自我反思能力的雙記憶增強(qiáng)HMR評(píng)判代理，為預(yù)測(cè)的網(wǎng)格生成上下文感知的質(zhì)量分?jǐn)?shù)。這些分?jǐn)?shù)提煉了關(guān)于3D人體運(yùn)動(dòng)結(jié)構(gòu)、物理可行性以及與輸入圖像對(duì)齊的細(xì)粒度線索。我們使用這些分?jǐn)?shù)構(gòu)建了一個(gè)群體級(jí)HMR偏好數(shù)據(jù)集。利用這個(gè)數(shù)據(jù)集，我們提出了一個(gè)群體偏好對(duì)齊框架，用于微調(diào)基于擴(kuò)散的HMR模型。這一過程將豐富的偏好信號(hào)注入模型，引導(dǎo)其生成更符合物理規(guī)律且與圖像一致的人體網(wǎng)格。大量實(shí)驗(yàn)表明，我們的方法與現(xiàn)有最先進(jìn)的方法相比取得了更優(yōu)的性能。

[25] Universal 3D Shape Matching via Coarse-to-Fine Language Guidance通過粗到細(xì)的語言引導(dǎo)實(shí)現(xiàn)通用3D形狀匹配
摘要：在計(jì)算機(jī)視覺和圖形學(xué)中，建立形狀之間的密集對(duì)應(yīng)關(guān)系是一項(xiàng)至關(guān)重要的任務(wù)。然而，先前的方法依賴于近似等距假設(shè)和同類主題類型（即僅適用于人體形狀）。然而，為跨類別對(duì)象建立語義對(duì)應(yīng)關(guān)系仍然具有挑戰(zhàn)性，并且相對(duì)較少受到關(guān)注。為了實(shí)現(xiàn)這一目標(biāo)，我們提出了UniMatch，這是一個(gè)語義感知的、粗到細(xì)的框架，用于在不限制對(duì)象類別的情況下，在強(qiáng)非等距形狀之間構(gòu)建密集的語義對(duì)應(yīng)關(guān)系。關(guān)鍵的見解是將“粗”語義線索提升為“細(xì)”對(duì)應(yīng)關(guān)系，這通過兩個(gè)階段實(shí)現(xiàn)。在“粗”階段，我們執(zhí)行與類別無關(guān)的3D分割，以獲得不重疊的語義部分，并提示多模態(tài)大語言模型（MLLMs）識(shí)別部分名稱。然后，我們使用預(yù)訓(xùn)練的視覺語言模型（VLMs）提取文本嵌入，從而能夠構(gòu)建匹配的語義部分。在“細(xì)”階段，我們利用這些粗對(duì)應(yīng)關(guān)系，通過專門的基于排名的對(duì)比方案來引導(dǎo)密集對(duì)應(yīng)關(guān)系的學(xué)習(xí)。由于采用了與類別無關(guān)的分割、語言引導(dǎo)和基于排名的對(duì)比學(xué)習(xí)，我們的方法適用于通用對(duì)象類別，并且不需要預(yù)定義的部分提案，從而能夠?qū)崿F(xiàn)跨類別和非等距形狀的通用匹配。大量實(shí)驗(yàn)表明，UniMatch在各種具有挑戰(zhàn)性的場(chǎng)景中始終優(yōu)于其他競(jìng)爭(zhēng)方法。

[26] Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic SamplingAni3DHuman：基于自引導(dǎo)隨機(jī)采樣的逼真3D人體動(dòng)畫
摘要：當(dāng)前的3D人體動(dòng)畫方法難以實(shí)現(xiàn)逼真效果：基于運(yùn)動(dòng)學(xué)的方法缺乏非剛性動(dòng)力學(xué)（如服裝動(dòng)力學(xué)），而利用視頻擴(kuò)散先驗(yàn)的方法雖然可以合成非剛性運(yùn)動(dòng)，但存在質(zhì)量瑕疵和身份丟失的問題。為克服這些局限性，我們提出了Ani3DHuman框架，該框架將基于運(yùn)動(dòng)學(xué)的動(dòng)畫與視頻擴(kuò)散先驗(yàn)相結(jié)合。我們首先引入了一種分層運(yùn)動(dòng)表示，將剛性運(yùn)動(dòng)與殘余非剛性運(yùn)動(dòng)分離。剛性運(yùn)動(dòng)由運(yùn)動(dòng)學(xué)方法生成，然后生成粗渲染結(jié)果，以引導(dǎo)視頻擴(kuò)散模型生成恢復(fù)殘余非剛性運(yùn)動(dòng)的視頻序列。然而，基于擴(kuò)散采樣的這種恢復(fù)任務(wù)極具挑戰(zhàn)性，因?yàn)槌跏间秩窘Y(jié)果屬于分布外數(shù)據(jù)，導(dǎo)致標(biāo)準(zhǔn)的確定性O(shè)DE采樣器失效。因此，我們提出了一種新穎的自引導(dǎo)隨機(jī)采樣方法，該方法通過將隨機(jī)采樣（用于實(shí)現(xiàn)逼真質(zhì)量）與自引導(dǎo)（用于保證身份保真度）相結(jié)合，有效解決了分布外問題。這些恢復(fù)后的視頻提供了高質(zhì)量的監(jiān)督信息，從而能夠?qū)堄喾莿傂赃\(yùn)動(dòng)場(chǎng)進(jìn)行優(yōu)化。大量實(shí)驗(yàn)表明，Ani3DHuman能夠生成逼真的3D人體動(dòng)畫，優(yōu)于現(xiàn)有方法。代碼可在https://github.com/qiisun/ani3dhuman獲取。

[27] L3DR: 3D-aware LiDAR Diffusion and RectificationL3DR：3D感知的激光雷達(dá)擴(kuò)散與校正
摘要：基于距離視圖（Range-view，RV）的激光雷達(dá)擴(kuò)散技術(shù)最近在2D照片級(jí)真實(shí)感方面取得了巨大進(jìn)展。然而，它忽略了3D幾何的真實(shí)感，并且常常會(huì)產(chǎn)生各種RV偽影，如深度滲色和波浪狀表面。我們?cè)O(shè)計(jì)了L3DR，這是一個(gè)3D感知的激光雷達(dá)擴(kuò)散與校正框架，它可以在3D空間中回歸并消除RV偽影，準(zhǔn)確恢復(fù)局部幾何結(jié)構(gòu)。我們的理論和實(shí)證分析表明，3D模型在生成清晰、真實(shí)的邊界方面本質(zhì)上優(yōu)于2D模型。基于這樣的分析，我們?cè)O(shè)計(jì)了一個(gè)3D殘差回歸網(wǎng)絡(luò)，通過預(yù)測(cè)3D空間中的點(diǎn)級(jí)偏移來校正RV偽影，并實(shí)現(xiàn)卓越的幾何真實(shí)感。此外，我們?cè)O(shè)計(jì)了一種韋爾什損失（Welsch Loss），它有助于聚焦局部幾何結(jié)構(gòu)，并有效忽略異常區(qū)域。在包括KITTI、KITTI360、nuScenes和Waymo在內(nèi)的多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明，所提出的L3DR在生成效果和幾何真實(shí)感方面始終達(dá)到了最先進(jìn)水平。此外，L3DR通常適用于不同的激光雷達(dá)擴(kuò)散模型，且計(jì)算開銷很小。

[28] Direction-aware 3D Large Multimodal Models方向感知的3D大多模態(tài)模型
摘要：3D大多模態(tài)模型（3D LMMs）嚴(yán)重依賴自我姿態(tài)（ego poses）來實(shí)現(xiàn)定向問答和空間推理。然而，大多數(shù)現(xiàn)有的點(diǎn)云基準(zhǔn)測(cè)試包含豐富的定向查詢，但缺乏相應(yīng)的自我姿態(tài)，這使得它們?cè)?D大多模態(tài)建模中本質(zhì)上是不適定的。在這項(xiàng)工作中，我們重新定義了一個(gè)新的嚴(yán)格范式，通過識(shí)別自我姿態(tài)并將其補(bǔ)充到點(diǎn)云基準(zhǔn)測(cè)試中，并根據(jù)識(shí)別出的自我姿態(tài)轉(zhuǎn)換相應(yīng)的點(diǎn)云數(shù)據(jù)，從而實(shí)現(xiàn)方向感知的3D LMMs。我們通過兩種新穎的設(shè)計(jì)實(shí)現(xiàn)了方向感知的3D LMMs。第一種是PoseRecover，這是一個(gè)全自動(dòng)的姿態(tài)恢復(fù)管道，它通過對(duì)象 - 視錐體相交和使用Z緩沖器進(jìn)行可見性檢查，將問題與RGB - D視頻外參中的自我姿態(tài)相匹配。第二種是PoseAlign，它將點(diǎn)云數(shù)據(jù)進(jìn)行轉(zhuǎn)換以與識(shí)別出的自我姿態(tài)對(duì)齊，而不是將自我姿態(tài)注入文本提示或在投影層中引入姿態(tài)編碼特征。大量實(shí)驗(yàn)表明，我們的設(shè)計(jì)在多個(gè)3D LMM骨干網(wǎng)絡(luò)（如LL3DA、LL3DA - SONATA、Chat - Scene和3D - LLAVA）上都產(chǎn)生了一致的改進(jìn)，將ScanRefer的平均交并比（mIoU）提高了30.0%，將Scan2Cap的大語言模型評(píng)判準(zhǔn)確率提高了11.7%。此外，我們的方法簡(jiǎn)單、通用且訓(xùn)練效率高，只需要進(jìn)行指令微調(diào)，同時(shí)為方向感知的3D - LMMs建立了一個(gè)強(qiáng)大的基線。

[29] TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow EstimationTeFlow：為自監(jiān)督前饋場(chǎng)景流估計(jì)啟用多幀監(jiān)督
摘要：用于場(chǎng)景流估計(jì)的自監(jiān)督前饋方法具有實(shí)時(shí)效率，但它們基于兩幀點(diǎn)對(duì)應(yīng)關(guān)系的監(jiān)督不可靠，并且在遮擋情況下往往會(huì)失效。多幀監(jiān)督有可能通過整合過去幀的運(yùn)動(dòng)線索來提供更穩(wěn)定的指導(dǎo)，然而，簡(jiǎn)單地?cái)U(kuò)展兩幀目標(biāo)是無效的，因?yàn)辄c(diǎn)對(duì)應(yīng)關(guān)系在各幀之間會(huì)突然變化，產(chǎn)生不一致的信號(hào)。在本文中，我們提出了TeFlow，通過挖掘時(shí)間上一致的監(jiān)督來為前饋模型啟用多幀監(jiān)督。TeFlow引入了一種時(shí)間集成策略，通過從跨多幀構(gòu)建的候選池中聚合時(shí)間上最一致的運(yùn)動(dòng)線索來形成可靠的監(jiān)督信號(hào)。大量評(píng)估表明，TeFlow為自監(jiān)督前饋方法樹立了新的技術(shù)水平，在具有挑戰(zhàn)性的Argoverse 2和nuScenes數(shù)據(jù)集上實(shí)現(xiàn)了高達(dá)33%的性能提升。我們的方法與領(lǐng)先的基于優(yōu)化的方法表現(xiàn)相當(dāng)，但速度提高了150倍。代碼與訓(xùn)練好的模型權(quán)重一起在https://github.com/KTH-RPL/OpenSceneFlow上開源。

[30] OpenVO: Open-World Visual Odometry with Temporal Dynamics AwarenessOpenVO：具有時(shí)間動(dòng)態(tài)感知的開放世界視覺里程計(jì)
摘要：我們提出了OpenVO，這是一個(gè)在有限輸入條件下具有時(shí)間感知的開放世界視覺里程計(jì)（VO）的新穎框架。OpenVO能夠從具有不同觀測(cè)速率和未校準(zhǔn)相機(jī)的單目行車記錄儀視頻中有效地估計(jì)真實(shí)世界尺度的自我運(yùn)動(dòng)，從而能夠從行車記錄儀記錄的罕見駕駛事件中構(gòu)建穩(wěn)健的軌跡數(shù)據(jù)集?，F(xiàn)有的VO方法是在固定的觀測(cè)頻率（例如10Hz或12Hz）上進(jìn)行訓(xùn)練的，完全忽略了時(shí)間動(dòng)態(tài)信息。許多先前的方法還需要具有已知內(nèi)參的校準(zhǔn)相機(jī)。因此，當(dāng)（1）在未見過的觀測(cè)頻率下部署時(shí)，或者（2）應(yīng)用于未校準(zhǔn)的相機(jī)時(shí)，它們的性能會(huì)下降。這些顯著限制了它們?cè)谠S多下游任務(wù)中的通用性，例如從行車記錄儀視頻中提取軌跡。為了解決這些挑戰(zhàn)，OpenVO（1）在兩幀位姿回歸框架中顯式地編碼時(shí)間動(dòng)態(tài)信息，并且（2）利用從基礎(chǔ)模型中導(dǎo)出的3D幾何先驗(yàn)。我們?cè)谌齻€(gè)主要的自動(dòng)駕駛基準(zhǔn)測(cè)試——KITTI、nuScenes和Argoverse 2上驗(yàn)證了我們的方法，比最先進(jìn)的方法實(shí)現(xiàn)了超過20%的性能提升。在不同的觀測(cè)速率設(shè)置下，我們的方法顯著更穩(wěn)健，在所有指標(biāo)上的誤差降低了46% - 92%。這些結(jié)果證明了OpenVO在現(xiàn)實(shí)世界3D重建和各種下游應(yīng)用中的通用性。

[31] Marginalized Bundle Adjustment: Multi-View Camera Pose from Monocular Depth Estimates邊緣化束調(diào)整：基于單目深度估計(jì)的多視圖相機(jī)位姿
摘要：運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)（Structure-from-Motion, SfM）是一項(xiàng)基礎(chǔ)的3D視覺任務(wù)，用于從多視圖圖像中恢復(fù)相機(jī)參數(shù)和場(chǎng)景幾何信息。盡管近期深度學(xué)習(xí)的進(jìn)展使得無需依賴相機(jī)運(yùn)動(dòng)就能從單張圖像中進(jìn)行準(zhǔn)確的單目深度估計(jì)（Monocular Depth Estimation, MDE），但將MDE集成到SfM中仍然是一個(gè)挑戰(zhàn)。與傳統(tǒng)的三角測(cè)量稀疏點(diǎn)云不同，MDE生成的密集深度圖具有顯著更高的誤差方差。受現(xiàn)代隨機(jī)抽樣一致性（RANSAC）估計(jì)器的啟發(fā)，我們提出了邊緣化束調(diào)整（Marginalized Bundle Adjustment, MBA）方法，以利用其密度來降低MDE的誤差方差。通過MBA，我們證明了MDE深度圖足夠準(zhǔn)確，能夠在SfM和相機(jī)重定位任務(wù)中取得最先進(jìn)（SoTA）或具有競(jìng)爭(zhēng)力的結(jié)果。通過廣泛的評(píng)估，我們展示了該方法在不同規(guī)模下的一致魯棒性能，從少幀設(shè)置到包含數(shù)千張圖像的大型多視圖系統(tǒng)。我們的方法凸顯了MDE在多視圖3D視覺中的巨大潛力。

[32] PhysConvex: Physics-Informed 3D Dynamic Convex Radiance Fields for Reconstruction and SimulationPhysConvex：用于重建和模擬的物理感知3D動(dòng)態(tài)凸輻射場(chǎng)
摘要：以視覺真實(shí)感和物理一致性對(duì)動(dòng)態(tài)3D場(chǎng)景進(jìn)行重建和模擬仍然是一個(gè)根本性的挑戰(zhàn)。現(xiàn)有的神經(jīng)表示方法，如NeRF和3DGS，在外觀重建方面表現(xiàn)出色，但在捕捉復(fù)雜的材料變形和動(dòng)力學(xué)方面存在困難。我們提出了PhysConvex，一種物理感知的3D動(dòng)態(tài)凸輻射場(chǎng)，它將視覺渲染和物理模擬統(tǒng)一起來。PhysConvex使用由連續(xù)介質(zhì)力學(xué)支配的基于物理的凸基元來表示可變形輻射場(chǎng)。我們引入了一種邊界驅(qū)動(dòng)的動(dòng)態(tài)凸表示，通過頂點(diǎn)和表面動(dòng)力學(xué)對(duì)變形進(jìn)行建模，捕捉空間自適應(yīng)、非均勻變形和不斷演變的邊界。為了有效地模擬復(fù)雜的幾何形狀和異質(zhì)材料，我們進(jìn)一步開發(fā)了一種降階凸模擬方法，該方法使用神經(jīng)蒙皮特征模式作為形狀和材料感知的變形基，在牛頓動(dòng)力學(xué)下以隨時(shí)間變化的降階自由度對(duì)動(dòng)態(tài)凸場(chǎng)進(jìn)行平流。凸動(dòng)力學(xué)還提供了緊湊、無間隙的體積覆蓋，提高了幾何效率和模擬保真度。實(shí)驗(yàn)表明，PhysConvex能夠從視頻中實(shí)現(xiàn)對(duì)幾何形狀、外觀和物理屬性的高保真重建，優(yōu)于現(xiàn)有方法。

[33] SceneTok: A Compressed, Diffusable Token Space for 3D ScenesSceneTok：用于3D場(chǎng)景的壓縮、可擴(kuò)散令牌空間
摘要：我們提出了SceneTok，這是一種新穎的分詞器，用于將場(chǎng)景的視圖集編碼為一組壓縮且可擴(kuò)散的非結(jié)構(gòu)化令牌。現(xiàn)有的3D場(chǎng)景表示和生成方法通常使用3D數(shù)據(jù)結(jié)構(gòu)或視圖對(duì)齊的場(chǎng)。相比之下，我們引入了第一種將場(chǎng)景信息編碼為一組小的、與空間網(wǎng)格解耦的排列不變令牌的方法。場(chǎng)景令牌由多視圖分詞器根據(jù)許多上下文視圖進(jìn)行預(yù)測(cè)，并通過使用輕量級(jí)整流流解碼器渲染成新視圖。我們表明，與其他表示相比，這種壓縮強(qiáng)度高出1 - 3個(gè)數(shù)量級(jí)，同時(shí)仍能達(dá)到最先進(jìn)的重建質(zhì)量。此外，我們的表示可以從新的軌跡（包括偏離輸入軌跡的軌跡）進(jìn)行渲染，并且我們證明解碼器能夠很好地處理不確定性。最后，高度壓縮的非結(jié)構(gòu)化潛在場(chǎng)景令牌集能夠在5秒內(nèi)實(shí)現(xiàn)簡(jiǎn)單高效的場(chǎng)景生成，比以前的范式實(shí)現(xiàn)了更好的質(zhì)量 - 速度權(quán)衡。

[34] BiMotion: B-spline Motion for Text-guided Dynamic 3D Character GenerationBiMotion：用于文本引導(dǎo)的動(dòng)態(tài)3D角色生成的B樣條運(yùn)動(dòng)
摘要：文本引導(dǎo)的動(dòng)態(tài)3D角色生成取得了快速進(jìn)展，但生成能夠忠實(shí)反映豐富文本描述的高質(zhì)量運(yùn)動(dòng)仍然具有挑戰(zhàn)性?，F(xiàn)有方法由于固定長(zhǎng)度的時(shí)間輸入和離散的逐幀表示無法捕捉豐富的運(yùn)動(dòng)語義，往往會(huì)生成有限的子動(dòng)作或不連貫的運(yùn)動(dòng)。我們通過使用連續(xù)可微的B樣條曲線來表示運(yùn)動(dòng)，在不修改底層生成模型能力的情況下，實(shí)現(xiàn)更有效的運(yùn)動(dòng)生成，從而解決了這些局限性。具體而言，我們的閉式拉普拉斯正則化B樣條求解器能夠?qū)⒖勺冮L(zhǎng)度的運(yùn)動(dòng)序列高效壓縮為具有固定數(shù)量控制點(diǎn)的緊湊表示。此外，我們引入了一種法線融合策略以確保輸入形狀的貼合，并使用對(duì)應(yīng)感知和局部剛性損失來提高運(yùn)動(dòng)恢復(fù)質(zhì)量。為了訓(xùn)練我們的模型，我們整理了BIMO，這是一個(gè)新的數(shù)據(jù)集，包含多樣化的可變長(zhǎng)度3D運(yùn)動(dòng)序列以及豐富、高質(zhì)量的文本注釋。大量評(píng)估表明，我們的前饋框架BiMotion比現(xiàn)有的最先進(jìn)方法生成更具表現(xiàn)力、更高質(zhì)量且更符合提示的運(yùn)動(dòng)，同時(shí)實(shí)現(xiàn)更快的生成速度。我們的項(xiàng)目頁面地址為：https://wangmiaowei.github.io/BiMotion.github.io/。

[35] Enhancing 3D LiDAR Segmentation by Shaping Dense and Accurate 2D Semantic Predictions通過塑造密集且準(zhǔn)確的二維語義預(yù)測(cè)來增強(qiáng)三維激光雷達(dá)分割
摘要：三維激光雷達(dá)點(diǎn)云的語義分割在城市遙感中對(duì)于理解現(xiàn)實(shí)世界的街道環(huán)境至關(guān)重要。通過將激光雷達(dá)點(diǎn)云和三維語義標(biāo)簽投影為稀疏地圖，這項(xiàng)任務(wù)可以重新表述為一個(gè)二維問題。然而，投影后的激光雷達(dá)和標(biāo)簽地圖的固有稀疏性可能導(dǎo)致中間二維語義預(yù)測(cè)稀疏且不準(zhǔn)確，進(jìn)而限制了最終的三維精度。為了解決這個(gè)問題，我們通過塑造密集且準(zhǔn)確的二維預(yù)測(cè)來增強(qiáng)這項(xiàng)任務(wù)。具體而言，我們開發(fā)了一個(gè)多模態(tài)分割模型MM2D3D。通過利用相機(jī)圖像作為輔助數(shù)據(jù)，我們引入了跨模態(tài)引導(dǎo)濾波，通過用從相機(jī)圖像中導(dǎo)出的密集語義關(guān)系來約束中間二維語義預(yù)測(cè)，以克服標(biāo)簽地圖的稀疏性；并且我們引入了動(dòng)態(tài)交叉?zhèn)伪O(jiān)督，通過鼓勵(lì)二維預(yù)測(cè)模仿相機(jī)圖像的語義預(yù)測(cè)的密集分布，來克服激光雷達(dá)地圖的稀疏性。實(shí)驗(yàn)表明，我們的技術(shù)使我們的模型能夠?qū)崿F(xiàn)具有密集分布和更高精度的中間二維語義預(yù)測(cè)，從而有效地提高了最終的三維精度。與先前方法的比較表明，我們?cè)诙S和三維空間中都具有更優(yōu)越的性能。

[36] LaS-Comp: Zero-shot 3D Completion with Latent-Spatial ConsistencyLaS-Comp：基于潛在空間一致性的零樣本3D補(bǔ)全
摘要：本文介紹了LaS-Comp，這是一種零樣本且與類別無關(guān)的方法，它利用3D基礎(chǔ)模型豐富的幾何先驗(yàn)知識(shí)，實(shí)現(xiàn)跨多種類型部分觀測(cè)的3D形狀補(bǔ)全。我們的貢獻(xiàn)主要有三點(diǎn)：首先，LaS-Comp通過互補(bǔ)的兩階段設(shè)計(jì)利用這些強(qiáng)大的生成先驗(yàn)進(jìn)行補(bǔ)全：（i）顯式替換階段，保留部分觀測(cè)的幾何形狀，以確保補(bǔ)全的準(zhǔn)確性；（ii）隱式細(xì)化階段，確保觀測(cè)區(qū)域和合成區(qū)域之間的邊界無縫銜接。其次，我們的框架無需訓(xùn)練，并且與不同的3D基礎(chǔ)模型兼容。第三，我們引入了Omni-Comp，這是一個(gè)綜合基準(zhǔn)，結(jié)合了真實(shí)世界和合成數(shù)據(jù)，具有多樣且具有挑戰(zhàn)性的部分模式，能夠進(jìn)行更全面、更真實(shí)的評(píng)估。定量和定性實(shí)驗(yàn)均表明，我們的方法優(yōu)于先前的最先進(jìn)方法。我們的代碼和數(shù)據(jù)將在[LaS-Comp](https://github.com/DavidYan2001/LaS-Comp)上公開。

[37] WiCompass: Oracle-driven Data Scaling for mmWave Human Pose EstimationWiCompass：用于毫米波人體姿態(tài)估計(jì)的神諭驅(qū)動(dòng)數(shù)據(jù)擴(kuò)展方法
摘要：毫米波人體姿態(tài)估計(jì)（mmWave HPE）在保護(hù)隱私方面具有優(yōu)勢(shì)，但在分布偏移情況下泛化能力較差。我們證明，簡(jiǎn)單粗暴的數(shù)據(jù)擴(kuò)展方法對(duì)于分布外（OOD）魯棒性而言效果不佳；效率和覆蓋范圍才是真正的瓶頸。為解決這一問題，我們引入了WiCompass，這是一個(gè)具有覆蓋感知能力的數(shù)據(jù)收集框架。WiCompass利用大規(guī)模的動(dòng)作捕捉語料庫構(gòu)建了一個(gè)通用的姿態(tài)空間“神諭”，該神諭可以量化數(shù)據(jù)集的冗余度并識(shí)別出代表性不足的動(dòng)作。在這個(gè)神諭的引導(dǎo)下，WiCompass采用閉環(huán)策略來優(yōu)先收集有信息價(jià)值的缺失樣本。實(shí)驗(yàn)表明，在相同的預(yù)算下，WiCompass能夠持續(xù)提高OOD準(zhǔn)確率，并且與傳統(tǒng)的收集策略相比，表現(xiàn)出更優(yōu)的擴(kuò)展性能。通過將關(guān)注點(diǎn)從簡(jiǎn)單的數(shù)據(jù)擴(kuò)展轉(zhuǎn)移到具有覆蓋感知能力的數(shù)據(jù)采集上，這項(xiàng)工作為實(shí)現(xiàn)穩(wěn)健的毫米波傳感提供了一條切實(shí)可行的途徑。

[38] Depth from Defocus via Direct Optimization通過直接優(yōu)化實(shí)現(xiàn)散焦測(cè)距
摘要：盡管基于光學(xué)物理存在合理的模糊正向模型，但從一組散焦圖像中恢復(fù)深度仍然是一個(gè)計(jì)算上具有挑戰(zhàn)性的優(yōu)化問題。在本文中，我們表明，利用當(dāng)代優(yōu)化方法和合理的計(jì)算資源，散焦測(cè)距的全局優(yōu)化方法是可行的。我們的方法基于交替最小化。當(dāng)固定深度圖時(shí)，正向模型相對(duì)于全聚焦圖像是線性的。當(dāng)固定全聚焦圖像時(shí)，每個(gè)像素的深度可以獨(dú)立計(jì)算，從而實(shí)現(xiàn)高度并行計(jì)算。我們表明，在凸優(yōu)化和并行網(wǎng)格搜索之間交替進(jìn)行，可以比當(dāng)前的深度學(xué)習(xí)方法更有效地解決更高分辨率下的散焦測(cè)距問題。我們?cè)诰哂泻铣珊驼鎸?shí)散焦模糊的基準(zhǔn)數(shù)據(jù)集上展示了我們的方法，并與先前的方法相比取得了有前景的結(jié)果。我們的代碼可在http://github.com/hollyjackson/dfd獲取。

[39] Scaling Ultrasound Volumetric Reconstruction via Mobile Augmented Reality通過移動(dòng)增強(qiáng)現(xiàn)實(shí)擴(kuò)展超聲容積重建
摘要：病變的準(zhǔn)確容積表征對(duì)于腫瘤診斷、風(fēng)險(xiǎn)分層和治療規(guī)劃至關(guān)重要。雖然計(jì)算機(jī)斷層掃描（Computed Tomography）等成像方式可提供高質(zhì)量的3D數(shù)據(jù)，但由于成本、便攜性和安全性等因素，二維超聲（2D-US）仍然是乳腺和甲狀腺成像的首選一線檢查方式。然而，即使是經(jīng)驗(yàn)豐富的臨床醫(yī)生，通過2D-US得出的體積估計(jì)也存在較高的用戶間差異。現(xiàn)有的三維超聲（3D-US）解決方案使用專門的探頭或外部跟蹤硬件，但這種配置增加了成本并降低了便攜性，限制了其在臨床上的廣泛應(yīng)用。為解決這些局限性，我們提出了移動(dòng)增強(qiáng)現(xiàn)實(shí)容積超聲（Mobile Augmented Reality Volumetric Ultrasound，MARVUS），這是一個(gè)資源高效的系統(tǒng)，旨在提高準(zhǔn)確且可重復(fù)的容積評(píng)估的可及性。MARVUS可與傳統(tǒng)超聲（US）系統(tǒng)互操作，使用基礎(chǔ)模型來增強(qiáng)跨專業(yè)的泛化能力，同時(shí)相對(duì)于當(dāng)前的3D-US解決方案，將硬件要求降至最低。在一項(xiàng)由經(jīng)驗(yàn)豐富的臨床醫(yī)生對(duì)乳腺模型進(jìn)行測(cè)量的用戶研究中，MARVUS在體積估計(jì)準(zhǔn)確性方面有顯著提高（平均差異：0.469 cm3），并降低了用戶間差異（平均差異：0.417 cm3）。此外，我們證明了增強(qiáng)現(xiàn)實(shí)（AR）可視化可提高客觀性能指標(biāo)和臨床醫(yī)生報(bào)告的易用性。總體而言，我們的研究結(jié)果表明，MARVUS可以以可擴(kuò)展、經(jīng)濟(jì)且資源高效的方式改善基于超聲的癌癥篩查、診斷流程和治療規(guī)劃。使用視頻演示可在（https://youtu.be/m4llYcZpqmM）查看。

[40] Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization通過物理感知的聯(lián)合形狀和姿態(tài)優(yōu)化實(shí)現(xiàn)適用于仿真的雜亂場(chǎng)景估計(jì)
摘要：從現(xiàn)實(shí)世界的觀測(cè)中估計(jì)適用于仿真的場(chǎng)景對(duì)于下游的規(guī)劃和策略學(xué)習(xí)任務(wù)至關(guān)重要。遺憾的是，現(xiàn)有方法在雜亂環(huán)境中表現(xiàn)不佳，通常存在計(jì)算成本過高、魯棒性差以及在擴(kuò)展到多個(gè)相互作用對(duì)象時(shí)通用性受限等問題。我們提出了一種基于統(tǒng)一優(yōu)化的真實(shí)到仿真場(chǎng)景估計(jì)公式，該公式在物理約束下聯(lián)合恢復(fù)多個(gè)剛體的形狀和姿態(tài)。我們的方法基于兩項(xiàng)關(guān)鍵技術(shù)創(chuàng)新。首先，我們利用最近引入的形狀可微接觸模型，其全局可微性允許在建模對(duì)象間接觸的同時(shí)對(duì)對(duì)象幾何形狀和姿態(tài)進(jìn)行聯(lián)合優(yōu)化。其次，我們利用增廣拉格朗日 Hessian 矩陣的結(jié)構(gòu)稀疏性，推導(dǎo)出一種高效的線性系統(tǒng)求解器，其計(jì)算成本隨場(chǎng)景復(fù)雜度的增加而有良好的擴(kuò)展性?；诖斯?，我們開發(fā)了一個(gè)端到端的真實(shí)到仿真場(chǎng)景估計(jì)管道，該管道集成了基于學(xué)習(xí)的對(duì)象初始化、受物理約束的聯(lián)合形狀 - 姿態(tài)優(yōu)化以及可微紋理細(xì)化。在包含多達(dá) 5 個(gè)對(duì)象和 22 個(gè)凸包的雜亂場(chǎng)景上進(jìn)行的實(shí)驗(yàn)表明，我們的方法能夠穩(wěn)健地重建出符合物理規(guī)律、適用于仿真的對(duì)象形狀和姿態(tài)。

[41] Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains用于圖像派生域幾何感知離散化的結(jié)構(gòu)化位圖到網(wǎng)格三角剖分
摘要：我們提出了一種模板驅(qū)動(dòng)的三角剖分框架，該框架將光柵或分割派生的邊界嵌入到規(guī)則三角網(wǎng)格中，以便在圖像派生域上進(jìn)行穩(wěn)定的偏微分方程（PDE）離散化。與可能觸發(fā)全局連通性更新的約束Delaunay三角剖分（CDT）不同，我們的方法僅對(duì)與邊界相交的三角形進(jìn)行重新三角剖分，保留基礎(chǔ)網(wǎng)格，并支持無同步的并行執(zhí)行。為確保確定性和可擴(kuò)展性，我們根據(jù)離散等價(jià)性和三角形對(duì)稱性對(duì)所有局部邊界相交配置進(jìn)行分類，得到一個(gè)有限的符號(hào)查找表，該表將每種情況映射到一個(gè)無沖突的重新三角剖分模板。我們證明了所得網(wǎng)格是封閉的，具有有界角度，并且與基于余切的離散化和標(biāo)準(zhǔn)有限元方法兼容。在橢圓和拋物型PDE、信號(hào)插值和結(jié)構(gòu)度量方面的實(shí)驗(yàn)表明，在復(fù)雜邊界附近，該方法產(chǎn)生的狹長(zhǎng)元素更少，三角形更規(guī)則，并且?guī)缀伪Ｕ娑雀摺Ｔ摽蚣芊浅＿m合在圖像派生域上進(jìn)行實(shí)時(shí)幾何分析和基于物理的模擬。

[42] Compact Hadamard Latent Codes for Efficient Spectral Rendering用于高效光譜渲染的緊湊哈達(dá)瑪潛在代碼
摘要：光譜渲染能夠準(zhǔn)確再現(xiàn)與波長(zhǎng)相關(guān)的外觀，但計(jì)算成本高昂，因?yàn)楸仨氃谠S多波長(zhǎng)樣本上進(jìn)行著色評(píng)估，并且計(jì)算量大致與樣本數(shù)量呈線性關(guān)系。此外，整個(gè)渲染流程都需要光譜紋理和光源。我們提出了哈達(dá)瑪光譜代碼，這是一種緊湊的潛在表示，它允許使用標(biāo)準(zhǔn)的RGB渲染操作進(jìn)行光譜渲染。光譜圖像通過少量的RGB渲染通道進(jìn)行近似，隨后進(jìn)行解碼步驟。我們的關(guān)鍵要求是潛在線性：光譜空間中的縮放和加法對(duì)應(yīng)于代碼的縮放和加法，并且光譜的逐元素乘積（例如反射率乘以光照）可以通過它們潛在代碼的逐元素乘積來近似。我們表明，當(dāng)潛在維度k小于光譜樣本數(shù)量n時(shí)，對(duì)于任意光譜，不存在精確的低維代數(shù)保持表示。因此，我們引入了一種學(xué)習(xí)到的非負(fù)線性編碼器和解碼器架構(gòu)，該架構(gòu)能精確保持縮放和加法，同時(shí)鼓勵(lì)在哈達(dá)瑪積下實(shí)現(xiàn)近似乘法性。當(dāng)k = 6時(shí)，我們使用未修改的RGB渲染器每幀渲染k/3 = 2張RGB圖像，重建潛在圖像，并解碼為高分辨率光譜或XYZ或RGB。對(duì)3D場(chǎng)景的實(shí)驗(yàn)表明，與RGB基線相比，k = 6顯著降低了顏色誤差，同時(shí)比樸素的n樣本光譜渲染快得多。使用k = 9可提供更高質(zhì)量的參考結(jié)果。我們進(jìn)一步引入了一種輕量級(jí)的神經(jīng)上采樣網(wǎng)絡(luò)，它可以將RGB資產(chǎn)直接映射到潛在代碼，從而使傳統(tǒng)RGB內(nèi)容能夠集成到光譜流程中，同時(shí)在渲染圖像中保持感知上準(zhǔn)確的顏色。

業(yè)務(wù)實(shí)施流程

需求調(diào)研 →

團(tuán)隊(duì)組建和動(dòng)員 →

數(shù)據(jù)初始化 →

調(diào)試完善 →

解決方案和選型 →

硬件網(wǎng)絡(luò)部署 →

系統(tǒng)部署試運(yùn)行 →

系統(tǒng)正式上線 →

合作協(xié)議

系統(tǒng)開發(fā)/整合

制作文檔和員工培訓(xùn)

售后服務(wù)

馬上咨詢： 如果您有業(yè)務(wù)方面的問題或者需求，歡迎您咨詢！我們帶來的不僅僅是技術(shù)，還有行業(yè)經(jīng)驗(yàn)積累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 聯(lián)系人：石先生/雷先生

亚洲中文字幕无码日韩精品,亚洲一区制服无码中字,亚洲精品第一国产综合精品99 ,一本大道中文日本香蕉

3D視覺相關(guān)論文42篇