{"id":294040,"date":"2024-04-05T00:01:00","date_gmt":"2024-04-04T22:01:00","guid":{"rendered":"https:\/\/www.borncity.com\/blog\/?p=294040"},"modified":"2024-04-04T15:35:55","modified_gmt":"2024-04-04T13:35:55","slug":"vlogger-ein-foto-reicht-fr-ein-ki-generiertes-video","status":"publish","type":"post","link":"https:\/\/borncity.com\/blog\/2024\/04\/05\/vlogger-ein-foto-reicht-fr-ein-ki-generiertes-video\/","title":{"rendered":"VLOGGER: Ein Foto reicht f&uuml;r ein KI-generiertes Video"},"content":{"rendered":"<p>Anfang April 2024 bin ich auf das Projekt VLOGGER gesto\u00dfen, welches die Art, wie Menschen \u00fcber Videos beeinflusst werden k\u00f6nnen, arg ver\u00e4ndern k\u00f6nnte. VLOGGER ist ein generisches KI-System zur Generierung eines minutenlangen Videoblogs (d.h. Vlog) von Benutzerbeschreibungen. Ein Foto einer Person reicht &#8211; und das KI-System erstellt eine Videopr\u00e4sentation mit einer Audiospur des betreffenden Menschen.<\/p>\n<p><!--more--><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" alt=\"\" src=\"https:\/\/vg06.met.vgwort.de\/na\/ffb6265f16e1407c9a27529b1ddec810\" width=\"1\" height=\"1\"\/>Der Begriff VLOGGER bzw. VLOG war mir bisher nur aus Plattformen wie YouTube bekannt. <a href=\"https:\/\/de.wikipedia.org\/wiki\/Vlog\" target=\"_blank\" rel=\"noopener\">VLOG<\/a> steht f\u00fcr Video-Blog, und ein VLOGGER ist eine Person, die Videos zu einem Sachverhalt erstellt und diese dann seinen Abonnenten auf YouTube etc. bereitstellt. Hei\u00dft, eine Kamera mitschleppen, die betreffenden Videos mit Ton aufnehmen, schneiden und dann im Internet einstellen. <\/p>\n<h2>KI-L\u00f6sung VLOGGER<\/h2>\n<p>Die KI-L\u00f6sung VLOGGER stammt von Google-Forschern, die es wohl geschafft haben, aus einem einzigen Foto und einem Audiotrack so etwas wie realistische Videos zu erstellen. Ich selbst bin Anfang April 2024 auf die <a href=\"https:\/\/enriccorona.github.io\/vlogger\/\" target=\"_blank\" rel=\"noopener\">GitHub-Projektseite<\/a> von <a href=\"https:\/\/enriccorona.github.io\/\" target=\"_blank\" rel=\"noopener\">Enric Corona<\/a> gesto\u00dfen. Auf der Seite <a href=\"https:\/\/enriccorona.github.io\/vlogger\/\" target=\"_blank\" rel=\"noopener\">VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis<\/a> findet sich ein Vorschlag eines Google-Autorenkollektivs. <\/p>\n<p>Die Forscher schlagen mit VLOGGER eine Methode zur text- und audiogesteuerten Erzeugung sprechender menschlicher Videos aus einem einzigen Eingabebild einer Person vor. VLOGGER baut auf dem Erfolg der j\u00fcngsten generativen Diffusionsmodelle auf. Die benutzte Methode besteht aus:<\/p>\n<ul>\n<li>einem stochastischen Mensch-zu-3d-Bewegungs-Diffusionsmodell und  <\/li>\n<li>einer neuartigen diffusionsbasierten Architektur, die Text-zu-Bild-Modelle sowohl mit zeitlichen als auch r\u00e4umlichen Kontrollen anreichert. <\/li>\n<\/ul>\n<p>Dieser Ansatz erm\u00f6glicht die Generierung von qualitativ hochwertigen Videos mit variabler L\u00e4nge, die sich durch hochgradige Repr\u00e4sentationen menschlicher Gesichter und K\u00f6rper leicht steuern lassen. Im Gegensatz zu fr\u00fcheren Arbeiten erfordert laut den Forschern die verwendete Methode kein Training f\u00fcr jede einzelne Person, ist nicht auf Gesichtserkennung und -beschneidung angewiesen, generiert das komplette Bild (nicht nur das Gesicht oder die Lippen) und ber\u00fccksichtigt ein breites Spektrum von Szenarien (z. B. sichtbarer Torso oder unterschiedliche Identit\u00e4ten der Personen), die f\u00fcr die korrekte Synthese von kommunizierenden Menschen entscheidend sind.<\/p>\n<p>Die KI-L\u00f6sung VLOGGER wurde anhand von drei verschiedenen Benchmarks bewertet. Die Ergebnisse zeigen, so die Forscher, dass das vorgeschlagene Modell andere State-of-the-Art-Methoden in Bezug auf Bildqualit\u00e4t, Identit\u00e4tserhalt und zeitliche Konsistenz \u00fcbertrifft.&nbsp; <\/p>\n<p><img decoding=\"async\" title=\"VLOGGER generierte Inhalte\" alt=\"VLOGGER generierte Inhalte\" src=\"https:\/\/i.postimg.cc\/wBzJMJ6h\/image.png\"\/><\/p>\n<p>Eine ausgiebige Beschreibung des Ansatz samt generierter Beispielvideos findet sich auf der GitHub-Seite <a href=\"https:\/\/enriccorona.github.io\/vlogger\/\" target=\"_blank\" rel=\"noopener\">VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis<\/a>. Auf arXiv gab es bereits im M\u00e4rz 2024 <a href=\"https:\/\/arxiv.org\/abs\/2403.08764\" target=\"_blank\" rel=\"noopener\">diesen Beitrag<\/a> zum Thema &#8211; die PDF-Fassung l\u00e4sst sich <a href=\"https:\/\/enriccorona.github.io\/vlogger\/paper.pdf\" target=\"_blank\" rel=\"noopener\">hier<\/a> schneller abrufen. Andreas Sobing hat das Thema in <a href=\"https:\/\/www.youtube.com\/watch?v=0UnuF0sJyuw\" target=\"_blank\" rel=\"noopener\">diesem Youtube-Video<\/a> aufgegriffen und von Golem gibt es <a href=\"https:\/\/www.golem.de\/news\/vlogger-googles-ki-erweckt-fotos-mit-lebensechten-videos-zum-leben-2403-183364.html\" target=\"_blank\" rel=\"noopener\">diesen Beitrag<\/a> vom M\u00e4rz 2024. <\/p>\n<p>Mir selbst ist das Thema zum 1. April 2024 auf X unter die Augen gekommen. Ich hielt es erst f\u00fcr einen April-Scherz und habe das Ganze zur\u00fcck gestellt, bis ich verifiziert hatte, dass die urspr\u00fcnglichen Ver\u00f6ffentlichungen wirklich existierten und deutlich vor dem 1. April 2024 ver\u00f6ffentlicht wurden. <\/p>\n","protected":false},"excerpt":{"rendered":"<p>Anfang April 2024 bin ich auf das Projekt VLOGGER gesto\u00dfen, welches die Art, wie Menschen \u00fcber Videos beeinflusst werden k\u00f6nnen, arg ver\u00e4ndern k\u00f6nnte. VLOGGER ist ein generisches KI-System zur Generierung eines minutenlangen Videoblogs (d.h. Vlog) von Benutzerbeschreibungen. Ein Foto einer &hellip; <a href=\"https:\/\/borncity.com\/blog\/2024\/04\/05\/vlogger-ein-foto-reicht-fr-ein-ki-generiertes-video\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7459],"tags":[3836],"class_list":["post-294040","post","type-post","status-publish","format-standard","hentry","category-software","tag-software"],"_links":{"self":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/294040","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/comments?post=294040"}],"version-history":[{"count":0,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/294040\/revisions"}],"wp:attachment":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/media?parent=294040"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/categories?post=294040"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/tags?post=294040"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}