Google arbeitet offenbar an einer neuen Funktion für seinen KI-Chatbot Gemini, die es Nutzern ermöglichen soll, KI-generierte Bilder nachträglich anzupassen. Bisher ist es in Gemini nur möglich, Bilder auf Basis von Textbeschreibungen zu erstellen. Wenn das Ergebnis nicht den Vorstellungen entspricht, muss der Nutzer einen völlig neuen Anlauf starten. Doch das könnte sich schon bald ändern, wie ein APK-Teardown der neuesten Google Beta-App für Android (v15.29.34.29) vermuten lässt.
Laut den Erkenntnissen aus dem Teardown wird Gemini zwei Methoden zur Bildbearbeitung bieten: Zum einen sollt ihr durch natürliche Spracheingaben bestimmte Aspekte eines Bildes ändern können, ohne die Gesamtkomposition zu beeinflussen. Ein Beispiel zeigt, wie Gemini versteht, dass der Nutzer kein völlig neues Bild wünscht, sondern nur Details des bestehenden Bildes anpassen möchte.
Die zweite Methode erlaubt es euch, mit dem Finger oder einem Stylus den zu ändernden Bildbereich zu markieren – eine bekannte Geste, die Google auch mit Androids „Circle to Search“-Funktion verstärkt in den Fokus rückt. Anschließend könnt ihr den gewünschten Effekt beschreiben, ohne dass Gemini die genaue Stelle im Bild verbal erklärt werden muss. So eine Funktion, in der KI-Welt auch „Inpainting“ genannt, gibt es schon lange bei Konkurrenten wie DALL-E 3 oder Midjourney.
Obwohl die neuen Funktionen im Code der Beta-App gefunden wurden, ließen sie sich noch nicht aktivieren. Vermutlich muss Google erst einige serverseitige Anpassungen vornehmen, bevor die Feintuning-Werkzeuge für Nutzer verfügbar sind.
Jetzt ist aber erstmal noch abzuwarten, wie gut das Anpassen generierter Bilder tatsächlich funktioniert, das ist unter KI-Bildgeneratoren nämlich noch eine Königsdisziplin. Wenn man ins Beispiel von Android Authority schaut, fällt auf: Nach Anweisung, die Straße zu entfernen und durch ein Haus zu ersetzen, verändert sich das Aussehen der Hunde, die Straße ist aber noch da. Das sollte natürlich eigentlich nicht passieren.