Детально описує конвеєр O3D-SIM для VLN. Він витягує інформацію про семантичні екземпляри відкритого типу (маски, функції CLIP/DINO) з RGB-D зображеньДетально описує конвеєр O3D-SIM для VLN. Він витягує інформацію про семантичні екземпляри відкритого типу (маски, функції CLIP/DINO) з RGB-D зображень

Семантичне вилучення екземплярів: функції CLIP та DINO для 3D-картографування

2025/12/11 03:00

Анотація та 1 Вступ

  1. Пов'язані роботи

    2.1. Навігація на основі зору та мови

    2.2. Семантичне розуміння сцени та сегментація екземплярів

    2.3. 3D реконструкція сцени

  2. Методологія

    3.1. Збір даних

    3.2. Відкрита семантична інформація з зображень

    3.3. Створення відкритого 3D представлення

    3.4. Навігація на основі мови

  3. Експерименти

    4.1. Кількісна оцінка

    4.2. Якісні результати

  4. Висновок та майбутня робота, Заява про розкриття інформації та Посилання

3. Методологія

У цьому розділі ми обговорюємо конвеєр нашого методу навігації на основі зору та мови (VLN), який використовує O3D-SIM. Ми починаємо з огляду нашого запропонованого конвеєра, а потім представляємо глибокий аналіз його складових етапів. Початкова фаза нашої методології включає збір даних, що складається з набору RGB-D зображень та зовнішніх і внутрішніх параметрів камери, які описані спочатку. Згодом ми переходимо до створення відкритої 3D семантичної карти екземплярів. Цей процес поділяється на два основні етапи: спочатку ми витягуємо відкриту семантичну інформацію про екземпляри із зображень; після цього ми використовуємо зібрану відкриту інформацію для організації 3D хмари точок у відкриту 3D семантичну карту екземплярів. Остання частина нашого обговорення зосереджена на модулі VLN, де ми говоримо про його реалізацію та функціональність.

\ Конвеєр створення O3D-SIM зображено на рис.2. Перший крок створення O3D-SIM, представлений у розділі 3.2, - це вилучення відкритої семантичної інформації про екземпляри з RGB-послідовності вхідних зображень. Ця інформація включає для кожного екземпляра об'єкта інформацію про маску та семантичні особливості, представлені вбудованими функціями CLIP [9] та DINO [10]. Другий крок, представлений у розділі 3.3, використовує цю відкриту семантичну інформацію про екземпляри для кластеризації вхідної 3D хмари точок у відкриту семантичну 3D карту об'єктів, див. рисунки 2 і 3. Операція покращується поступово шляхом застосування послідовності RGB-D зображень з часом.

\

:::info Автори:

(1) Лакш Нанвані, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;

(2) Кумарадітья Гупта, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;

(3) Адітья Матур, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;

(4) Свайям Аграваль, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;

(5) А.Х. Абдул Хафез, Університет Хасана Кальйонджу, Шахінбей, Газіантеп, Туреччина;

(6) К. Мадхава Крішна, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія.

:::


:::info Ця стаття доступна на arxiv за ліцензією CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися