Nyheder - OpenAI Point E: Opret en 3D-punktsky fra komplekse bølgeformer på få minutter på en enkelt GPU

I en ny artikel Point-E: Et system til generering af 3D-punktskyer fra komplekse signaler introducerer OpenAI-forskerteamet Point E, et 3D-punktskytekst-betinget syntesesystem, der bruger diffusionsmodeller til at skabe varierede og komplekse 3D-former drevet af kompleks tekst stikord.på få minutter på en enkelt GPU.
Den fantastiske ydeevne af nutidens avancerede billedgenereringsmodeller har stimuleret forskning i generering af 3D-tekstobjekter.Men i modsætning til 2D-modeller, som kan generere output på minutter eller endda sekunder, kræver objektgenererende modeller typisk flere timers GPU-arbejde for at generere en enkelt prøve.
I en ny artikel Point-E: Et system til generering af 3D-punktskyer fra komplekse signaler, præsenterer OpenAI-forskerholdet Point·E, et tekstuelt betinget syntesesystem til 3D-punktskyer.Denne nye tilgang bruger en udbredelsesmodel til at skabe varierede og komplekse 3D-former ud fra komplekse tekstsignaler på blot et minut eller to på en enkelt GPU.
Holdet er fokuseret på udfordringen med at konvertere tekst til 3D, hvilket er afgørende for at demokratisere 3D-indholdsskabelse til applikationer fra den virkelige verden lige fra virtual reality og spil til industrielt design.Eksisterende metoder til konvertering af tekst til 3D falder i to kategorier, som hver har sine ulemper: 1) generative modeller kan bruges til at generere samples effektivt, men kan ikke skaleres effektivt til forskellige og komplekse tekstsignaler;2) en fortrænet tekst-billedmodel til at håndtere komplekse og varierede tekst-cues, men denne tilgang er beregningsintensiv, og modellen kan nemt hænge fast i lokale minima, der ikke svarer til meningsfulde eller sammenhængende 3D-objekter.
Derfor udforskede holdet en alternativ tilgang, der sigter mod at kombinere styrkerne ved de ovennævnte to tilgange, ved at bruge en tekst-til-billede-diffusionsmodel trænet på et stort sæt tekst-billede-par (der gør det muligt at håndtere forskellige og komplekse signaler) og en 3D-billedspredningsmodel trænet på et mindre sæt tekst-billede-par.billede-3D par datasæt.Tekst-til-billede-modellen prøver først inputbilledet for at skabe en enkelt syntetisk repræsentation, og billede-til-3D-modellen opretter en 3D-punktsky baseret på det valgte billede.
Kommandoens generative stak er baseret på nyligt foreslåede generative rammer til betinget generering af billeder fra tekst (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).De bruger en GLIDE-model med 3 milliarder GLIDE-parametre (Nichol et al., 2021), finjusteret på gengivne 3D-modeller, som deres tekst-til-billede transformationsmodel og et sæt diffusionsmodeller, der genererer RGB-punktskyer som deres transformationsmodel.billeder til billede.3D modeller.
Mens tidligere arbejde brugte 3D-arkitekturer til at behandle punktskyer, brugte forskerne en simpel transducer-baseret model (Vaswani et al., 2017) til at forbedre effektiviteten.I deres diffusionsmodelarkitektur føres punktskybilleder først ind i en forudtrænet ViT-L/14 CLIP-model, og derefter føres outputmaskerne ind i konverteren som markører.
I deres empiriske undersøgelse sammenlignede holdet den foreslåede Point·E-metode med andre generative 3D-modeller på scoringssignaler fra COCO-objektdetektion, segmentering og signaturdatasæt.Resultaterne bekræfter, at Point·E er i stand til at generere forskellige og komplekse 3D-former ud fra komplekse tekstsignaler og fremskynde inferenstiden med en til to størrelsesordener.Holdet håber, at deres arbejde vil inspirere til yderligere forskning i 3D-tekstsyntese.
En forudtrænet model for udbredelse af punktsky og evalueringskode er tilgængelige på projektets GitHub.Document Point-E: Et system til at skabe 3D-punktskyer fra komplekse spor er på arXiv.
Vi ved, at du ikke vil gå glip af nogen nyheder eller videnskabelige opdagelser.Abonner på vores populære Synced Global AI Weekly nyhedsbrev for at modtage ugentlige AI-opdateringer.

Indlægstid: 28. december 2022