Es gibt eine Aufgabe bei der Bildpflege, die fast jeder kennt und fast jeder aufschiebt: Alt-Texte schreiben.
Bei einer Website mit hunderten Bildern bedeutet das hunderte manuelle Beschreibungen. Also wird es vertagt, vergessen oder schlicht ignoriert.
Das war bis vor Kurzem noch eine Entscheidung. Seit Juni 2025 ist sie es Pflicht, und seit lokale KI-Modelle die Arbeit übernehmen, gibt es auch keine Ausrede mehr. Ein Vision-Modell auf dem eigenen Rechner erzeugt brauchbare Alt-Texte in Sekunden, kostenlos, ohne dass ein einziges Bild das Gerät verlässt.
Dieser Guide zeigt den kompletten Weg: vom Originalfoto bis zum fertig beschriebenen Bild im CMS.
Warum Alt-Texte plötzlich nicht mehr optional sind
Alt-Texte wurden jahrelang unterschätzt. Sie kosten Zeit, werden selten gesehen, und ihr Nutzen ist nicht sofort sichtbar. Das ändert sich gerade aus zwei Richtungen gleichzeitig.
Der erste Grund ist SEO.
Suchmaschinen können Bilder nicht sehen, sie lesen den Alt-Text. Ein Bild ohne Alt-Text existiert für Google schlicht nicht als inhaltliches Element. Wer Alt-Texte konsequent befüllt, erschließt sich die Google Bildersuche als zusätzlichen Kanal, mit Inhalten, die ohnehin schon auf der Seite liegen, ohne dass eine einzige neue Seite entstehen muss.
Der zweite Grund ist rechtlich.
Seit Juni 2025 gilt in der EU der European Accessibility Act. Er verpflichtet Unternehmen, ihre digitalen Angebote barrierefrei zu gestalten, und Alt-Texte sind ein zentraler Bestandteil davon. Menschen mit Sehbehinderung nutzen Screenreader, die Webseiteninhalte vorlesen. Fehlt der Alt-Text, liest die Software entweder gar nichts oder den nackten Dateinamen vor. Beides war schon immer eine schlechte Nutzererfahrung. Jetzt ist es zusätzlich keine rechtliche Option mehr.
Zwei gute Gründe, eine mühsame Aufgabe: Das war die Pattsituation, die den Schritt so oft hat scheitern lassen. Genau hier kommt die Automatisierung ins Spiel.
Eine kurze Übersicht: das korrekte Bild
Bevor die KI beschreibt, sollte das Bild in einem brauchbaren Zustand sein. Drei Dinge gehören erledigt, und alle drei lassen sich mit einem einzigen Werkzeug abhaken.
Die Datei muss kleiner werden.
Ein 4-Megabyte-Foto direkt von der Kamera hat auf der Website nichts verloren. Der Browser zeigt es in einem 800-Pixel-Container an, die restlichen Millionen Pixel werden ignoriert. Was bleibt, ist eine Seite, die langsam lädt, und Besucher, die abspringen, bevor sie etwas gesehen haben.
Die Metadaten müssen weg.
Kamera und Smartphone schreiben unsichtbare EXIF-Daten in jede Datei: GPS-Koordinaten, Gerätemodell, Aufnahmezeitpunkt. Für den Betrachter unsichtbar, für jeden auslesbar, der die Datei herunterlädt. Wer ein Foto vom Heimarbeitsplatz hochlädt, legt damit unter Umständen seine Privatadresse offen. Große Plattformen wie Instagram entfernen diese Daten beim Upload automatisch, bei der eigenen Website verlassen Sie sich besser nicht darauf.
WebP ist das neue JPG
JPG und PNG sind alte Standards. WebP liefert bei gleicher oder besserer Qualität deutlich kleinere Dateien; ein 300-KB-JPG schrumpft als WebP oft auf unter 100 KB, ohne sichtbaren Unterschied. Das verbessert die Core Web Vitals, die Google direkt ins Ranking einfließen lässt. ImageMagick gibt WebP übrigens direkt aus: statt .jpg einfach .webp als Dateiendung angeben.
Komprimieren und Metadaten entfernen erledigt ImageMagick, ein freies Kommandozeilentool (imagemagick.org), in einem einzigen Befehl:
convert test.jpg -resize "1600x900>" -define jpeg:extent=250kb -strip test-lg.jpgDer Befehl liest test.jpg ein, verkleinert es auf maximal 1600 x 900 Pixel (kleinere Bilder bleiben unangetastet), begrenzt die Dateigröße auf 250 KB und entfernt mit -strip sämtliche Metadaten, GPS und Geräteinfos inklusive. Aus 4,2 MB werden so rund 250 KB.
Wer für unterschiedliche Bildschirmgrößen mehrere Auflösungen ausliefern will, erzeugt einfach eine zweite, kleinere Variante und überlässt dem Browser per srcset die Wahl. Die Details dazu erklärt web.dev/learn/images.
Vorbereitung fürs Modell: eine kleine Variante erzeugen
Das Bild wird beim Versand an das Modell als Base64-String mitgeschickt, und je größer die Datei, desto länger dauert die Verarbeitung. Für die reine Bilderkennung braucht das Modell keine hohe Auflösung; eine kleine Variante reicht völlig und beschleunigt den Durchlauf spürbar. Auch hier erledigt ImageMagick die Arbeit:
convert test.jpg -resize "500x500>" test-sm.jpgDer Befehl verkleinert das Bild auf maximal 500 x 500 Pixel. Das Ergebnis ist test-sm.jpg, genau die Datei, die das folgende Script an das Modell übergibt. Metadaten spielen hier keine Rolle: Diese Variante wird nur an die KI geschickt und landet nie auf der Website.
Alt-Texte lokal von der KI generieren
Was bisher hunderte Handgriffe bedeutete, übernimmt ein lokales Vision-Modell.
Ollama ist ein kostenloses Tool, das KI-Modelle direkt auf dem eigenen Rechner ausführt. Die Einrichtung dauert wenige Minuten (docs.ollama.com/quickstart). Für die Bilderkennung braucht es ein Vision-Modell; gemma3:4b ist ein guter Einstieg und läuft auf den meisten Rechnern auch ohne dedizierte Grafikkarte.
Entscheidend ist die Frage, die man dem Modell stellt. Dieser Prompt liefert konsistent verwendbare Ergebnisse:
Beschreibe dieses Bild so detailliert wie möglich. Die Beschreibung wird für einen Webseiten-Alternativtext benutzt. Halte deine Antwort kurz, maximal 15 Wörter. Antworte nur mit der Beschreibung.
Das folgende Script schickt ein Bild an das lokale Modell und gibt den fertigen Alt-Text aus:
IMG=$(base64 < test-sm.jpg | tr -d '\n')
curl -s -X POST http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "gemma3:4b",
"messages": [{
"role": "user",
"content": "Beschreibe dieses Bild so detailliert wie möglich. Die Beschreibung wird für einen Webseiten-Alternativtext benutzt. Halte deine Antwort kurz, maximal 15 Wörter. Antworte nur mit der Beschreibung.",
"images": ["'"$IMG"'"]
}],
"stream": false
}' | jq -r '.message.content'Das Ergebnis im Test: „Detailaufnahme einer blauen Blume mit gelbem Staubteil und weißen Blütenblättern." Sachlich, konkret, genau das, was ein guter Alt-Text leisten soll: Er beschreibt, was tatsächlich abgebildet ist, nicht was man sich dabei denkt. Kein Ort übrigens für Keyword-Stuffing: Wer dort wahllos Suchbegriffe einträgt, wird von Google nicht belohnt, sondern abgestraft.
Der letzte Schritt: den Text ins Bild einbetten
Ein generierter Alt-Text nützt wenig, wenn er in einer Textdatei verloren geht. Mit ExifTool lässt er sich direkt als Metadatum in die Bilddatei einbetten:
exiftool -AltTextAccessibility="Detailaufnahme einer blauen Blume mit gelbem Staubteil und weißen Blütenblättern." test-lg.jpgDer praktische Vorteil zeigt sich beim Upload: Viele CMS wie WordPress lesen dieses Metadatum automatisch aus und befüllen das Alt-Text-Feld damit. Sie beschreiben das Bild einmal, beim Upload ist alles bereits erledigt. Kein manuelles Nachpflegen, kein vergessenes Feld.
Damit schließt sich die Kette: Originalfoto rein, komprimiertes Bild mit eingebettetem, KI-generiertem Alt-Text raus. Was früher der am häufigsten übersprungene Schritt war, läuft jetzt fast von allein, und das Bild bringt dabei nicht nur Ladezeit und Ranking, sondern auch die rechtliche Compliance gleich mit.