width and height should be displayed here dynamically

Het zegbare bepaalt het zichtbare. Fotografie en AI

De plotse opkomst en razendsnelle ontwikkeling van automatisch opererende beeldsystemen aangestuurd door AI is ook de kunstwereld niet ontgaan. Beeldgeneratoren zoals Midjourney, DALL-E en Stable Diffusion, operationeel sinds 2022, oefenen veel invloed uit op het produceren, delen en percipiëren van technische beelden. Recente tentoonstellingen zoals Coded. Art Enters the Computer Age, 1952-1982 in het MoMA in New York, Radical Software. Women, Art & Computing 1960-1991 in Kunsthalle Wien en Electric Dreams. Art and Technology Before the Internet in Tate Modern in Londen (zie De Witte Raaf, nr. 233) proberen die ontwikkelingen inzichtelijk te maken door ze in de historische context te plaatsen van machine- of computerkunst.

Het is een andere optie om actuele artistieke posities te selecteren die kritisch omgaan met de mogelijkheden en limieten van AI. Door de klemtoon te leggen op hedendaags werk en op fotografie gaat de tentoonstelling AImigine – Photography and generative images in Hangar in Brussel daarin het verst. Le monde selon l’IA in het Jeu de Paume in Parijs besteedt ook aandacht aan de historische context en toont werk van kunstenaars die de opkomst van AI in een ruimere geschiedenis plaatsen – ecologisch, economisch, juridisch, artistiek en technologisch. Wat beide expo’s delen, is de vraag of deze nieuwe, synthetische beelden een verdere ontwikkeling zijn van het fotografische systeem of er net radicaal mee breken. Het is geen onverwachte vraag: artificiële beeldgeneratoren ‘werken met’ fotografische afbeeldingen en wat ze produceren is meestal zo fotorealistisch mogelijk. Dat door AI gegenereerde beelden lijken op foto’s, wil echter nog niet zeggen dat ze ook fotografisch zijn.

Omdat generatieve systemen niet opereren als een fotocamera is het ‘realisme’ dat ze beogen niet het gevolg van een opnametechniek (het capteren van gereflecteerd licht op een lichtgevoelige drager), maar van een complex systeem dat op basis van ingewikkelde mathematische operaties nieuwe, samengestelde beelden genereert uit beelden die reeds bestonden. Beelden worden in dit geval dus visualisaties van data; ze refereren niet aan ‘iets’ daarbuiten, maar enkel aan de massa gegevens die opgeslagen ligt binnen het systeem. Om voor realistisch te kunnen doorgaan, moeten generatieve beelden beantwoorden aan twee vereisten. Ze moeten ten eerste leesbaar zijn, dat wil zeggen dat ze, naar het model van de documentaire stijl in fotografie, moeten gelezen kunnen worden als een tekst.[1] Ten tweede moeten ze geloofwaardig zijn. Ze moeten beantwoorden aan onze verwachtingen: handen tonen met zes vingers, iets wat oudere versies van AI weleens overkwam, is dus uitgesloten.[2]

De volgende vraag is dan: hoe test (of weet) het systeem dat aan deze vereisten is voldaan? Een eerste controle gebeurt door een speciaal AI-systeem dat analyseert in welke mate het beeld als realistisch kan worden beschouwd. Dit controlemechanisme werd echter ‘getraind’ met ImageNet, een controversiële database met hoofdzakelijk afbeeldingen van schilderijen, foto’s, stills en – vooral – advertenties, afkomstig uit de westerse, witte cultuur, met alle visuele vooroordelen of voorkeuren van dien. Een tweede, aanvullende controle legt de verantwoordelijkheid bij de gebruiker. Van zodra het beeld, ontstaan na verschillende verfijningen, wordt aanvaard, gaat het systeem ervan uit dat het beantwoordt aan de vereisten van leesbaarheid en geloofwaardigheid.[3] De combinatie van een ingebouwd controlesysteem en het subjectieve gebruikersoordeel staat vervolgens garant voor het ervaren realisme. Uiteindelijk is het zogenaamde fotorealisme binnen de generatieve systemen daarom niet meer dan de nabootsing van een fotografische stijl, net zoals het systeem een generatief schilderij zou kunnen produceren, al dan niet gebaseerd op de persoonlijke signatuur van een specifieke schilder. Generatief ‘realisme’ is een oppervlakte-effect en mist de existentiële angel die fotografische beelden kunnen hebben.[4] In die zin kan het fotografisch realisme van AI in verband worden gebracht met het schilderkunstige fotorealisme van de late jaren zestig.

Dat generatief realisme niets te maken heeft met fotografisch realisme, wordt duidelijk op de tentoonstelling Le monde selon l’IA in het Jeu de Paume, dankzij een installatie van het Cypriotische kunstenaarsduo Theopisti Stylianou-Lambert en Alexia Achilleos: The Archive of Unknown Workers (2022). Het gaat om een eerdere versie van de installatie The Archive of Grigoris Antoniou (2024), eveneens dit voorjaar te zien op de expo Bugs & Metamorphosis. Glitching Photography in het Hasselblad Center in Göteborg. Beide installaties zijn gebaseerd op een analyse van negentiende-eeuwse fotografische archieven van de Britse opgravingen in Cyprus. De archieven bevatten beelden van de opgravingen zelf en van de objecten die op de site gevonden werden, maar ook portretten van archeologen en assistenten. Enkel de Britse archeologen worden met naam en toenaam vermeld in die archieven, terwijl de lokale medewerkers anoniem blijven. Toch speelden zij een belangrijke rol: ze kenden de site beter dan wie ook, wisten de interessantste plekken te vinden en waren onmisbaar voor het welslagen van de archeologische operatie. Een van die Cypriotische voormannen was Grigoris Antoniou (ca. 1849-1940). Alhoewel het archief hem nergens vermeldt, zijn Stylianou-Lambert en Achilleos zijn portret op het spoor gekomen. Op basis van die foto en van afbeeldingen van voorwerpen gevonden tijdens de opgravingen, creëerden ze met AI een nieuw, fictief archief van zo’n veertig dia’s toegeschreven aan Antoniou. Door de integratie van twee ‘echte’ dia’s in de reeks (met onder meer beelden van arbeiders in lokale gewaden), kan de kijker zelf ervaren in hoeverre de verbeelding van AI spoort met de realiteit ter plekke. Al snel blijkt dat een archeoloog volgens het generatieve systeem hollywoodiaanse trekken heeft, en eerder lijkt op Harrison Ford in de films over Indiana Jones dan op de afbeeldingen in archieven. Stylianou-Lambert en Achilleos wijzen zo op de eenzijdige herkomst van de trainingsdata van AI, en op de culturele vooringenomenheid die eruit volgt.

Net zoals het fotografische systeem opereren generatieve systemen als een black box, zoals gedefinieerd door Vilém Flusser in Fur eine Philosophie der Fotografie uit 1983.[5] Zowel de input als de output van het gebruikte systeem zijn bekend, maar niet wat er zich in het binnenste van het systeem afspeelt. Om van input output te maken, moet het generatieve systeem gevoed en getraind worden. Een model voeden komt neer op het koppelen van beelden aan woorden. Deze koppeling is noodzakelijk omdat de gebruiker beelden zal genereren via een tekstuele opdracht (de prompt) en dus moet het systeem ‘leren’ welke woorden of begrippen verbonden kunnen worden met welke beelden. Vaak kan dat volautomatisch, door combinaties van teksten en beelden van websites te plukken. Soms wordt er gebruikgemaakt van mechanical turks: menselijke operatoren die micro-opdrachten toebedeeld krijgen en in een zo kort mogelijke tijdspanne een aantal beelden moeten labelen, waarbij ze kunnen kiezen uit een vooraf samengestelde woordenlijst. In het Jeu de Paume zijn twee installaties te zien waarin mechanical turks de hoofdrol spelen. Mechanical Kurds is een nieuw videowerk van Hito Steyerl dat gemaakt werd in een Koerdisch kamp: voor vluchtelingen is werken als een operator voor AI vaak de enige mogelijkheid om een inkomen te garanderen. De installatie van Meta Office, Behind the Screens of Amazon Mechanical Turks (2021-2025), bestaat uit een zuil van schermen waarop werkruimtes van mechanical turksworden getoond, terwijl een ander scherm weergeeft waar ze zich bevinden, hoelang hun laatste opdracht duurde en hoeveel geld ze verdiend hebben.

Nederig werk ligt dus aan de basis van de huidige hypergesofisticeerde, digitale systemen, uitgevoerd door mensen in een precaire economische situatie, die voor weinig geld en zonder garantie op duurzame tewerkstelling deze zogenaamd volautomatische systemen voeden. Deze belangrijke kritiek raakt echter niet aan het wezenlijke probleem van datavergaring. De gigantische datasets die vandaag gebruikt worden – die van LAION-5B bevat ondertussen meer dan vijf miljard gegevens – vragen om een andere benadering. De analyse van de trainingsbeelden voor AI is nu meer en meer gericht op de identificatie van de objecten die in een afbeelding voorkomen, zonder oog te hebben voor de sociale realiteit waarvan het beeld echter ook getuigt.[6] Beelden worden begrepen als niet meer dan vaten vol objecten. Die gerichtheid op objectanalyse komt voort uit een verlangen naar extreme neutraliteit, alsof de betekenis van een beeld stopt bij de pure opsomming van de elementen waaruit het bestaat, en alsof objecten een universele betekenis hebben, losgezongen van elke culturele of maatschappelijke context.

AI vereist niet alleen gigantische databases, maar ook een convoluted neural network om de verzamelde teksten en beelden te verwerken – te reduceren – tot een reeks van abstracte datapunten.[7] Dit gebeurt via een proces van opeenvolgende reducties: de ingevoerde teksten met beeld worden gecomprimeerd tot een serie datapunten. Eigenlijk bestaat deze procedure uit het stelselmatig toevoegen van ruis, totdat het beeld niet meer is dan een (op het eerste gezicht) rommelige en willekeurige opeenhoping punten. Wat het systeem via die procedure extraheert, zijn datapatronen: karakteristieke elementen van de beelden (met betrekking tot kleur, vormen, textuur enzovoort), maar dus niet de ‘inhoud’ van het beeld als dusdanig. Het geheel van de aldus bekomen datapatronen wordt ondergebracht in een ‘latente ruimte’, een multidimensionale vectorruimte. Deze voor de mens onvoorstelbare en onrepresenteerbare ‘ruimte’ distribueert en organiseert de datapatronen als evenzovele coördinaten. Verwante beelden en begrippen vertoeven in elkaars ‘nabijheid’, terwijl begrippen en beelden die verschillen zich ‘verder’ van elkaar bevinden. Wanneer de gebruiker van de beeldgeneratoren het systeem vraagt om een nieuw beeld te maken op basis van een ingevoerde tekst of afbeelding, volgt het de omgekeerde weg: het begint met pure ruis om dan via verschillende stappen (‘generaties’) tot het gevraagde beeld te komen.

Op de tentoonstelling in Hangar in Brussel zijn beelden te zien van Jordan Beal, getiteld Linéaments (2024), die generatief geproduceerde landschappen van Martinique moeten voorstellen. Ze illustreren mooi hoe dit proces van geleidelijke opbouw ingezet wordt voor de creatie van beelden die ontsnappen aan het generatief fotorealisme. Door het proces te stoppen vooraleer het zijn eindtoestand bereikt, creëert Beal wazige beelden die niet zijn uitgekristalliseerd. In een volgende stap fotografeert hij deze beelden met een Polaroid, wat niet alleen een materiële laag toevoegt aan een immaterieel proces op een scherm, maar het geheel ook drenkt in het irreële kleurenschema dat zo kenmerkend is voor de polaroidfoto. Deze combinatie van digitale en analoge procedures leidt tot puur fictieve landschappen die eerder suggereren dan een ‘werkelijkheid’ stellig vast te leggen. Door het strikt documentaire fotorealisme te weigeren, creëert Beal onaffe beelden met de suggestieve en ‘open’ beeldtaal van het negentiende-eeuwse pictorialisme. Zo vermijdt hij dat de verbeelding van Martinique zich plooit naar de generieke invulling door het systeem.

De neurale netwerken waarop beeldgeneratoren gebaseerd zijn, opereren niet als een zoekmachine in bekende opslagplaatsen van beelden, zoals de archieven van musea of de commerciële beeldbanken van Corbis of Getty Images. Dit zijn immers statische archieven waarin afbeeldingen volgens specifieke categorieën en kernwoorden opgezocht kunnen worden, maar die zelf geen nieuwe beelden genereren. Wat er gebeurt wanneer dit verschil wordt miskend, blijkt duidelijk uit Une Histoire parallèle, een project dat het kunstenaarsduo Brodbeck & De Barbuat aanving in 2020 en dat ook te zien is in Hangar. Op basis van 250 bekende beelden uit de geschiedenis van de fotografie proberen zij een generator ertoe te bewegen replica’s te produceren. Ze doen dat op basis van een beschrijving die als prompt wordt ingevoerd. De beelden die zo ontstaan lijken op het historische beeld, maar vertonen telkens weer cruciale afwijkingen. Soms kunnen die verschillen verbonden worden met allerlei grenzen opgelegd aan AI, zoals het verbod om naakten te produceren. Elke poging om bijvoorbeeld het beroemde beeld te repliceren van een naakte John Lennon die zich krult rond een geklede Yoko Ono, leidt telkens weer tot een aangeklede John. Toch ligt de betekenis van deze reeks ‘mislukkingen’ elders: niet het blootleggen van de opgelegde limieten maakt ze interessant, maar wel dat ze de onderliggende structuur van de latente ruimte ‘zichtbaar’ maken. Hier wordt duidelijk dat die latente ruimte geen vijver is waaruit beelden kunnen worden opgevist, maar een systeem dat telkens weer nieuwe, afwijkende beelden moet genereren.

Om beelden te maken moet de latente ruimte geactiveerd worden. Dat kan in principe op twee manieren: door een beeld in te voeren als vertrekpunt, aangevuld met een verbale opdracht, of door het louter formuleren van een verbale opdracht (de prompt). Het beschrijven van beelden gaat aan de creatie vooraf: taal wordt beeld. Het gewicht van de tekst bij het genereren van beeld is zo groot dat deze nieuwe vorm van beelden maken ook wordt omschreven als ‘promptografie’. Het leidt tot een nieuwe verhouding tussen tekst en beeld: het zegbare bepaalt het zichtbare, en dat verschilt radicaal van de manier waarop foto en tekst zich tot nu toe tot elkaar verhielden. Eerst was er de foto, dan de tekst die de foto ‘leesbaar’ moest maken. Een foto bevat altijd te veel informatie en is van nature wat rommelig en breedsprakerig. Door tekst (een ondertitel of een bijschrift) toe te voegen, wordt de inherente polysemie van fotografische beelden aan banden gelegd. Teksten dienen om het fotografische beeld te temmen: ze duiden hoe het beeld moet worden gelezen, en dus begrepen.

AI werkt omgekeerd: generatieve beeldsystemen vertrekken van tekst en creëren beelden die zo nauw mogelijk bij die tekst aansluiten. Dat wil niet zeggen dat dezelfde prompt exact hetzelfde beeld zal genereren, integendeel. Door de complexiteit van de latente ruimte zal elke prompt variaties van hetzelfde beeld opleveren, en het is precies deze ‘onvoorspelbaarheid’ die generatieve systemen tot een black box maken. Die afhankelijkheid van tekst verklaart echter ook waarom AI-beelden vaak zo voorspelbaar en clichématig overkomen. Ze zijn te letterlijk, worden ingesnoerd door de strikte logica van de beschrijving die eraan ten grondslag ligt. Dat het ook anders kan, wordt duidelijk in het werk van Mathieu Bernard-Reymond, te zien in Hangar en een van de weinige uitzonderingen waarin tekst een creatieve rol krijgt toebedeeld. In de reeks D’après Ramuz (2023-2024) combineert hij eigen opnames van de Zwitserse Alpen met tekstfragmenten van Charles-Ferdinand Ramuz, een vooroorlogse, Zwitserse auteur, bekend om zijn evocatieve beschrijvingen van het plattelandsleven. Door het generatieve systeem alle vrijheid te geven om de beeldspraak van Ramuz te laten interageren met zijn foto’s, ontstaan beelden die het gefotografeerde herinterpreteren en transformeren tot een bizar, onmogelijk berglandschap. Rotsen lijken te zweven; gletsjers richten zich plots op tot een loodrechte muur of vervellen tot een doek dat zich kronkelend een weg zoekt. Deze onverwachte transformaties zijn het gevolg van de literaire stijl van Ramuz, die grossiert in suggestieve beelden en metaforen, waarop een generatief systeem moeilijk greep krijgt en dus ‘vreemd’ reageert.

Synthetische beelden zijn nooit zomaar fotografisch: het fotorealisme is een simulatie, ze zetten de hiërarchie tussen taal en beeld volledig op z’n kop, hun relatie met de ‘werkelijkheid’ is onbestaand. Terwijl een foto nog altijd het spoor is van ‘iets’, is een AI-gegenereerd beeld een synthetisch beeld dat nergens naar verwijst (het heeft geen referent). Het is daarom erg voorbarig om te stellen dat dergelijke generatoren een lacune binnen de fotografie zouden opvullen. Delphine Dumont, de directeur van Hangar, schrijft in haar inleidende tekst bij de tentoonstelling AImagine dat de komst van deze systemen kan toelaten historische gebeurtenissen te herinterpreteren of er zelfs voor de eerste keer beeldend toegang toe te krijgen. Het is een idee dat geen hout snijdt. De AI-beelden van Cubaanse vluchtelingen, gefabriceerd op vraag van Michael Christopher Brown (90 Miles, 2023), mogen dan gebaseerd zijn op de opgetekende ervaringen van vluchtelingen, toch slagen ze er op geen enkele manier in dezelfde emotionele betrokkenheid op te wekken als fotografische getuigenissen.

Hetzelfde euvel keert in zekere zin terug in het Jeu de Paume, wanneer generatieve systemen in het verlengde worden geplaatst van verre technologische voorouders. Zo wordt elk hoofdstuk van Le monde selon l’IA ingeleid door een vitrine met historische voorbeelden van het thema dat wordt aangesneden. Die keuze zorgt ervoor dat het radicale verschil dat deze nieuwe technologie in de contemporaine beeldcultuur installeert onvoldoende tot uitdrukking komt. Maar misschien is het daarvoor simpelweg nog te vroeg? Zoals Marshall McLuhan al wist: het is niet vanzelfsprekend om de impact te vatten van een technologie die zich nog volop aan het ontwikkelen is. De neiging bestaat dan om die nieuwe ontwikkeling te analyseren vanuit een bekend referentiekader. Een meer prikkelende hypothese over de opkomst van synthetische beelden kan gevonden worden in het boek Beyond Digital van architectuurhistoricus Mario Carpo.[8] Hij suggereert dat we door generatieve beeldsystemen in een nieuw tijdperk zijn verzeild, waarin de nadruk op originaliteit en authenticiteit, bepalend voor de moderne kunst sinds pakweg het einde van de negentiende eeuw, wegvalt. We bewegen weer in de richting van een premoderne beeldcultuur, waarin imitatie belangrijker wordt dan originaliteit. Het probleem, zo gaat Carpo verder, is dat we niet meer over criteria of woorden beschikken om deze nieuwe situatie helder te beschrijven, laat staan te beoordelen.

 

AImagine. Photography & Generative Images, 24 januari tot 15 juni, Hangar Gallery, Kasteleinsplein 18, Brussel; Le monde selon l’IA, 11 april tot 21 september, Jeu de Paume, Place de la Concorde 1, Parijs.

 

Noten

1. Voor een grondige analyse van dit begrip en de rol die het speelt in de documentaire stijl, zie: Olivier Lugon, Le Style documentaire. D’August Sander à Walker Evans, 1920-1945, Parijs, Macula, 2004, pp. 189-214.

2. Roland Meyer, ‘Le ‘réalisme de platforme’. L’intelligence artificielle génerative et l’essor du contenu visuel générique’, in: Estelle Blaschke (red.), Photographie et algorithmes. Transbordeur photographie, n°9, Parijs, Macula, 2025, pp. 21-31.

3. Zie: Maria Eriksson, ‘Sur la mésure du réalisme dans les images de synthèse’, in: Idem, pp. 32-43.

4. Zie: Noam M. Elcott, Tim Trombley, ‘AI Imagining, or, The End of Photography and the Affordances of Latent Specificity’, in: Ada Ackerman, Antonio Somaini (red.), The World Through AI, Parijs, JPE Books, 2025, pp. 152-166.

5. Vilém Flusser, Een filosofie van de fotografie, Utrecht, IJzer, 2007, pp. 22-34, vertaling Marc Geerards.

6. Thierry Sugitani, ‘Formater le visible. Dans la fabrique des datasets photographiques (2005-2021)’, in: Estelle Blaschke (red.), op. cit. (noot 2), pp. 107-117.

7. Antonio Somaini, ‘A Theory of Latent Spaces’, in: Ada Ackerman, Antonio Somaini (red.), op. cit. (noot 4), pp. 21-51.

8. Mario Carpo, Beyond Digital. Design and Automation at the End of Modernity, Cambridge/Londen, MIT Press, 2023, pp. 132-134.