AI-kop II
In een vorige post legden we uit hoe we 1000 foto’s aan een StyleGAN netwerk voedden om nieuwe beelden van koffiekopjes te genereren. We gingen nog een stap verder met dit experiment en probeerden een beeld van een koffiekopje te voeden aan een neuraal netwerk dat is ontworpen om 3D-objecten te genereren op basis van 2D-beelden van het object. We gebruikten een bestaand project, AtlasNet, ontwikkeld door Thibault Groueix, Matthew Fisher, Vladimir G. Kim, Bryan C. Russell, en Mathieu Aubry (École des Ponts en Adobe Research).
AtlasNet is een neuraal netwerk dat vormen van 2D-beelden reconstrueert tot 3D-objecten. In hun project gebruikten de onderzoekers verschillende voorbeeldobjecten om hun modellen te trainen, zoals stoelen en vliegtuigen. We gebruikten een vooraf getraind model om te zien of het netwerk ook een koffiekopje herkent. We hebben aardig wat tijd besteed aan het uitzoeken van de werking van het netwerk en het voorbereiden van de data voor het generatieproces, maar de eerste resultaten waren nogal teleurstellend. Om de resultaten van de onderzoekers te kunnen reproduceren hebben we ook een aantal tests gedaan met plaatjes van vliegtuigen. Dit omdat we wisten dat dit model daarop getraind was. Ook deze resultaten komen niet in de buurt van de kwaliteit van hun eigen resultaten, zie de laatste afbeelding hiernaast. Een ander aspect dat we ontdekten is dat de resolutie erg belangrijk is voor het eindresultaat. In de afbeeldingen zie je 3 soorten resultaten. Allemaal gebaseerd op dezelfde afbeelding maar met een andere resolutie. Het lijkt erop dat de onderzoekers zeer lage resolutie afbeeldingen hebben gebruikt voor de reconstructie van de modellen. De laatste poging met een lage resolutie beker werkte al beter.
Om te achterhalen waarom het ons niet lukte om goede resultaten te krijgen zullen we ons verder moeten verdiepen in de werking van het model en de onderliggende code, en daarnaast ons eigen model te trainen op basis van afbeeldingen van koffiekopjes. Wij denken dat dit zeker de moeite waard is.