KI findet in zwei Wochen mehr als 100 Firefox Luecken: Was die CVE Serie von Claude Opus 4.6 wirklich zeigt

A blue and black abstract background with lines
Photo by Logan Voss on Unsplash

Stand: 9. Maerz 2026

Mit CVEs: KI findet 100 Firefox-Luecken in zwei Wochen klingt zunaechst wie eine Schlagzeile, die man fuer ueberzogen halten koennte. Doch genau darum geht es in dem nun bekannt gewordenen Test zwischen Anthropic und Mozilla: Ein grosses Sprachmodell wurde nicht nur als Assistent fuer Sicherheitsforscher eingesetzt, sondern als skalierbares Analysewerkzeug fuer einen der am intensivsten geprueften Open-Source-Browser ueberhaupt. Das Ergebnis ist bemerkenswert: In nur zwei Wochen identifizierte die KI nach bereitgestellten Recherchedaten 22 Firefox-Schwachstellen mit CVE-Kennungen, dazu 90 weitere bestaetigte Bugs. Entscheidend ist dabei nicht nur die Zahl, sondern die Art der Fehler, die dieses Vorgehen sichtbar gemacht hat.

  • Anthropics Modell Claude Opus 4.6 fand laut bereitgestellter Deep-Dive-Recherche in zwei Wochen 22 Firefox-Schwachstellen mit CVE-Kennungen, darunter 14 hochschwere Luecken.
  • Zusammen mit 90 weiteren durch KI gestuetzte Analyse bestaetigten Bugs ergibt sich ein Befund von mehr als 100 entdeckten Firefox-Luecken.
  • Die KI analysierte dafuer laut Anthropic fast 6.000 C++-Dateien und reichte 112 einzigartige Reports ein.
  • Mozilla wertet das Verfahren als neue Ergaenzung im Werkzeugkasten von Security Engineers und hat grosse Teile der Befunde in Firefox 148 behoben.
  • Das Experiment zeigt zugleich eine Grenze: Beim Bau tatsaechlicher Exploits gelangen der KI laut den vorliegenden Angaben nur 2 Erfolge in Hunderten Versuchen.

Was genau passiert ist

Im Kern geht es um ein internes Sicherheitsprojekt von Anthropic und Mozilla, das deutlich ueber klassische Codeanalyse hinausgeht. Nach den bereitgestellten Recherchedaten setzte Anthropic Claude Opus 4.6 auf den Firefox-Quellcode an. Innerhalb von zwei Wochen im Januar 2026 entdeckte das Modell 22 Schwachstellen, die mit CVE-Kennungen erfasst wurden. Darunter waren 14 High-Severity-Befunde, ausserdem 7 mittelschwere und 1 niedrigschwere Luecke. Ein Grossteil dieser Schwachstellen wurde spaeter in Firefox 148 behoben.

Die groessere Nachricht liegt jedoch nicht nur in diesen 22 CVEs. Laut der aufbereiteten Deep-Dive-Recherche scannte die KI fast 6.000 C++-Dateien und generierte 112 einzigartige Reports. Mozilla bestaetigte darueber hinaus 90 weitere Bugs, die durch die KI-gestuetzte Analyse sichtbar wurden. In der Summe sprechen die vorliegenden Angaben deshalb von ueber 100 gefundenen Luecken. Golem fasst die Entwicklung entsprechend so zusammen, dass Anthropics Claude in einem internen Test mehr als 100 Sicherheitsluecken im Firefox-Browser aufgedeckt habe und Mozilla nun mit verstaerktem KI-Einsatz reagiere, wie Golem berichtet.

Das ist bemerkenswert, weil Firefox kein vernachlaessigtes Nebenprojekt ist. Der Browser wird seit Jahren mit klassischen Sicherheitsverfahren geprueft, darunter Fuzzing, statische Analysen, manuelle Audits und Bug-Bounty-Prozesse. Wenn eine KI hier in so kurzer Zeit noch eine dreistellige Zahl relevanter Befunde produziert, stellt das nicht nur die Leistungsfaehigkeit aktueller Modelle heraus. Es wirft auch die Frage auf, welche Teile moderner Software-Sicherheit bislang schlicht nicht effizient genug durchsucht wurden.

Warum die Zahl von mehr als 100 Luecken so brisant ist

Die nackte Zahl laesst sich leicht missverstehen. Sie bedeutet nicht, dass Firefox ploetzlich unsicherer geworden waere als bisher. Eher zeigt sie, dass ein zusaetzlicher Analysepfad Sicherheitsprobleme sichtbar gemacht hat, die zuvor trotz intensiver Pruefung unentdeckt geblieben waren. Genau deshalb ist die Meldung fuer die Branche so wichtig: Sie sagt weniger ueber den Browser allein aus als ueber den Stand der Werkzeuge, mit denen grosse Codebasen untersucht werden.

Besonders relevant ist die Verteilung der Schweregrade. 14 High-Severity-Schwachstellen in einem so kurzen Zeitraum sind kein Randbefund. High Severity bedeutet nicht automatisch sofortige Massenkompromittierung, aber sehr wohl, dass die Folgen bei erfolgreicher Ausnutzung gravierend sein koennen. In einem Browser betreffen solche Fehler oft Speicherverwaltung, JavaScript-Ausfuehrung, Medienbibliotheken oder Bildverarbeitung. Das sind genau die Bereiche, in denen komplexe, historisch gewachsene C++-Codepfade auf Leistung optimiert wurden und dadurch notorisch anfaellig fuer schwer erkennbare Fehler sind.

Hinzu kommt, dass laut den vorliegenden Angaben nicht nur klassische Speicherfehler identifiziert wurden, sondern auch logische Fehler, die traditionelle Fuzzing-Tools uebersehen hatten. Das ist der eigentliche Wendepunkt. Fuzzing ist stark, wenn es durch massenhaft zufaellige oder halbstrukturierte Eingaben Abstuerze, Speicherverletzungen oder unerwartete Zustandswechsel provozieren kann. Aber Fuzzing denkt nicht in Zusammenhaengen. Ein grosses Sprachmodell kann dagegen Codepfade, Besitzverhaeltnisse von Objekten, Lebensdauern von Referenzen und semantische Nebenwirkungen viel eher im Kontext betrachten. Es arbeitet nicht wie ein Mensch, aber es kann Muster erkennen, die aehnlich wie menschliche Hypothesen funktionieren.

Dass die KI laut Deep-Dive-Recherche einen Use-after-Free-Bug im JavaScript-Code nach nur 20 Minuten fand, ist deshalb symbolisch so stark. Ein Use-after-Free entsteht, wenn auf bereits freigegebenen Speicher spaeter noch zugegriffen wird. Gerade in Browsern sind solche Fehler gefaehrlich, weil sie je nach Kontext zu Abstuerzen, Speicherbeschädigung oder unter Umstaenden zu kontrollierbaren Ausfuehrungspfaden fuehren koennen. Wenn ein Modell solche Probleme schnell erkennt, veraendert das die Taktung, in der Sicherheitsteams arbeiten koennen.

Welche Firefox Schwachstellen konkret genannt werden

Die bereitgestellten Recherchedaten nennen exemplarisch mehrere CVEs, die das Bild greifbar machen. Dazu gehoert CVE-2026-2789, beschrieben als Use-after-Free in ImageLib. Ebenfalls genannt wird CVE-2026-2792, das sich auf Memory-Safety-Bugs in Firefox 147 und ESR 140.7 bezieht. Hinzu kommt CVE-2026-2447 als Heap Buffer Overflow in libvpx. Schon diese Auswahl zeigt, dass die Befunde nicht aus einem einzelnen Modul stammen, sondern verschiedene sicherheitskritische Schichten betreffen: Bildverarbeitung, allgemeine Speichersicherheit und Multimedia-Bibliotheken.

Gerade Memory-Safety ist hier der Schluesselbegriff. Darunter fallen Fehlerklassen wie Use-after-Free, Buffer Overflow oder andere Formen fehlerhafter Speicherbehandlung. Browser sind traditionell besonders betroffen, weil sie untrusted Input aus dem Web in grosser Menge verarbeiten muessen: HTML, JavaScript, Bilder, Audio, Video, Schriften und Netzwerkdaten. Jede Parserkette und jede Optimierungsschicht vergroessert die Angriffsoberflaeche. Dass viele der genannten Befunde genau in diesem Feld liegen, bestaetigt ein Problem, das die Branche seit Jahren begleitet.

Mozilla integrierte die Korrekturen laut den bereitgestellten Informationen unter anderem in MFSA2026-13, also in den Advisory-Kontext rund um Firefox 148. Auch fruehere Releases wie 147.0.4 wurden demnach zur Fehlerbehebung genutzt. Das ist wichtig, weil es zeigt, dass die KI-Funde nicht als experimentelle Hinweise im Raum stehen blieben. Sie wurden in den normalen Sicherheitsprozess ueberfuehrt, verifiziert und gepatcht. Genau dieser Uebergang von Modell-Ausgabe zu reproduzierbarem Security-Report ist der entscheidende Unterschied zwischen Marketing und realer Sicherheitsarbeit.

Warum klassische Tools einen Teil dieser Fehler uebersehen haben

Die vielleicht wichtigste Lehre aus diesem Fall lautet: KI ersetzt Fuzzing nicht, sondern schliesst eine Luecke zwischen Fuzzing und manueller Analyse. Klassische Verfahren bleiben unverzichtbar. Sie sind reproduzierbar, gut automatisierbar und bei vielen Fehlerklassen extrem effektiv. Aber sie haben bekannte Grenzen. Ein Fuzzer prueft Verhalten ueber Eingaben. Er entwickelt jedoch keine semantische Hypothese darueber, welche Besitzuebertragung zwischen Objekten unsauber ist oder welche unguenstige Reihenfolge von Operationen zu einem spaeten Speicherzugriff fuehren koennte.

Ein grosses Sprachmodell arbeitet anders. Es kann grosse Codemengen schnell ueberfliegen, wiederkehrende Muster vergleichen und daraus Kandidaten fuer riskante Stellen ableiten. Wenn es dann noch reproduzierbare Testfaelle liefert, wie Golem in seiner Einordnung hervorhebt, wird daraus ein erstaunlich nuetzliches Werkzeug fuer Security-Teams. Mozilla betont laut bereitgestellter Recherche genau diesen Punkt: Die KI habe reproduzierbare Testfaelle erzeugt, was die Pruefung erleichtert habe. Das ist ein unschaetzbarer Vorteil, weil Security-Teams nicht auf vage Verdachtsmomente reagieren muessen, sondern auf konkret nachvollziehbare Reports.

Hier liegt auch die eigentliche Skalierungswirkung. Menschen koennen tief und kreativ analysieren, aber nicht gleichzeitig tausende Dateien in kurzer Zeit mit derselben Aufmerksamkeit durchsuchen. Ein Modell kann genau das. Es wird dabei Fehler machen, Halluzinationen erzeugen oder harmlose Stellen ueberschaetzen. Doch wenn die Trefferquote hoch genug ist und die Nachpruefung effizient erfolgt, verschiebt sich das Kosten-Nutzen-Verhaeltnis der Sicherheitsanalyse fundamental.

Wie Mozilla und Anthropic das Ergebnis einordnen

Die zitierten Aussagen aus der bereitgestellten Recherche sind bemerkenswert klar. Anthropic schreibt: „By the end of this effort, we had scanned nearly 6,000 C++ files and submitted a total of 112 unique reports“. Das ist keine vage Werbeaussage, sondern eine konkrete Beschreibung von Reichweite und Output. Ebenfalls zentral ist die weitere Anthropic-Einschaetzung: „Claude could succeed at automatically developing a crude browser exploit, even if only in a few cases, [what] is concerning“. Diese Formulierung zeigt, dass Anthropic den eigenen Test nicht nur als Erfolgsgeschichte verkauft, sondern auch als Warnsignal versteht.

Mozilla wiederum wird in der bereitgestellten Recherche mit einem Satz zitiert, der strategisch fast noch wichtiger ist: „The AI-assisted approach has discovered 90 other bugs […]. We view this as clear evidence that large-scale, AI-assisted analysis is a powerful new addition to security engineers‘ toolbox“. Das ist eine bemerkenswert nuancierte Formulierung. Mozilla spricht nicht davon, dass KI die Sicherheitsingenieure ersetzt. Die KI ist eine powerful new addition, also ein starkes neues Zusatzwerkzeug. Genau darin liegt die angemessene Interpretation des Falls.

Diese Zurueckhaltung ist glaubwuerdig. Wer Browser-Sicherheit ernst nimmt, weiss, dass Fehlalarme, Kontextverluste und unklare Priorisierungen in der Praxis teuer sind. Die Aussage, KI sei nun Teil des Werkzeugkastens, ist deshalb realistischer als die oft gehoerte Behauptung, LLMs wuerden Security-Research automatisieren. Sie automatisieren nicht den gesamten Prozess. Sie beschleunigen vor allem die Suche nach verdächtigen Mustern und erweitern die Reichweite menschlicher Pruefung.

Wo die Grenzen der KI klar sichtbar werden

So spektakulaer die Zahl von mehr als 100 Firefox-Luecken ist, genauso wichtig ist die Kehrseite des Experiments. Laut den bereitgestellten Angaben gelang der KI die Exploit-Entwicklung nur in 2 von Hunderten Versuchen, bei ungefaehr 4.000 US-Dollar API-Credits. Das relativiert einen Teil der Alarmrhetorik, die bei solchen Meldungen schnell aufkommt.

Zwischen dem Auffinden einer Schwachstelle und dem Bau eines praktisch nutzbaren Exploits liegt ein erheblicher Unterschied. Eine Sicherheitsluecke kann theoretisch schwerwiegend sein, ohne dass sie sich unter realen Bedingungen leicht oder stabil ausnutzen laesst. Exploit-Entwicklung verlangt tiefe Systemkenntnis, Iteration, Debugging, Nebenbedingungen der Zielumgebung und oft erhebliche Kreativitaet. Dass ein Modell hier deutlich schlechter abschneidet als beim eigentlichen Bug Hunting, ist plausibel.

Genau das ist aber keine Entwarnung, sondern eine differenzierte Einordnung. Wenn KI das Finden von Schwachstellen massiv verbilligt, waehrend Exploit-Entwicklung schwer bleibt, verschiebt sich die Bedrohungslage trotzdem. Denn auch Verteidiger profitieren davon. Browser-Hersteller koennen mit derselben Technologie ihre Codebasen schneller durchsuchen, Fehlerklassen systematischer priorisieren und Patches frueher ausrollen. Die Asymmetrie ist also nicht zwangslaeufig zugunsten von Angreifern. Sie haengt davon ab, wer solche Werkzeuge schneller und verantwortungsvoller operationalisiert.

Was der Fall fuer Firefox und andere grosse Open Source Projekte bedeutet

Firefox ist als Testfeld besonders aussagekraeftig, gerade weil der Browser bereits stark gehaertet ist. Wenn ausgerechnet dort in kurzer Zeit noch so viele relevante Befunde auftauchen, duerfte die Wirkung in weniger gut gepflegten Projekten potenziell groesser sein. Das heisst nicht automatisch, dass jedes Open-Source-Projekt ploetzlich hunderte kritische Fehler hat. Aber es bedeutet, dass bisherige Pruefprozesse vermutlich systematische Blindstellen hatten, die nun besser adressierbar werden.

Fuer Mozilla folgt daraus fast zwingend, KI-gestuetzte Analyse nicht als einmalige PR-Episode zu behandeln, sondern als kontinuierlichen Sicherheitsprozess. Golem berichtet entsprechend, dass Mozilla kuenftig KI-gestuetzte Codeanalyse in seine Sicherheitsprozesse integrieren wolle. Das ist folgerichtig. Denn der eigentliche Nutzen entsteht nicht durch einen zweiwoechigen Einmaleffekt, sondern durch wiederholte, breit angelegte Scans entlang neuer Commits, riskanter Komponenten und historisch auffaelliger Fehlerklassen.

Auch fuer andere grosse Projekte ist das Signal deutlich. Wer heute komplexe Software mit nativem Code pflegt, insbesondere mit viel Altlast und Performance-Druck, wird sich fragen muessen, wie viel unentdeckte technische Schuld noch in Parsern, Rendering-Pipelines, Medienbibliotheken und JIT-Komponenten steckt. KI duerfte hier zum Standardwerkzeug werden, nicht weil sie perfekt ist, sondern weil das Weglassen dieses Werkzeugs kuenftig wie ein vermeidbarer Nachteil wirkt.

Warum dieser Fall mehr ist als nur eine Browser Meldung

Die Meldung laesst sich leicht als isolierte Firefox-Geschichte lesen. In Wahrheit markiert sie einen breiteren Trend: KI wird vom produktiven Textwerkzeug zum operativen Infrastrukturwerkzeug. In diesem Fall nicht fuer Marketing, Support oder Prototyping, sondern fuer Sicherheitsanalyse in einer der sensibelsten Softwareschichten ueberhaupt. Das macht den Vorgang fuer die gesamte Tech-Branche relevant.

Bislang wurde der Nutzen grosser Sprachmodelle in der Softwareentwicklung oft an Geschwindigkeit im Coding, an Dokumentation oder an Agenten-Workflows gemessen. Der Firefox-Fall zeigt einen anderen Hebel: Sicherheit als Skalierungsproblem. Wenn ein Modell in kurzer Zeit tausende Dateien pruefen, Reports formulieren und reproduzierbare Testfaelle liefern kann, wird Sicherheit zum Feld, in dem KI besonders schnell konkreten Mehrwert erzeugt. Anders gesagt: Die Technik wird dort am glaubwuerdigsten, wo sie nicht nur Text erzeugt, sondern reale Defekte in produktiver Software sichtbar macht.

Zugleich hat der Fall eine politische und industrielle Dimension. Browser sind kritische Infrastruktur des Alltags. Jede Verbesserung ihrer Sicherheit hat unmittelbare Wirkung fuer Millionen Nutzer. Wenn KI hier hilft, reduziert das nicht nur potenzielle Angriffsfenster. Es verschiebt auch die Erwartungen an Hersteller. Kuenftig wird schwer zu erklaeren sein, warum grosse Anbieter diese Art von Analyse nicht einsetzen, wenn sich damit nachweislich relevante Schwachstellen finden lassen.

Fazit: Mehr als ein PR Erfolg, aber noch keine automatische Sicherheitsrevolution

Mit CVEs: KI findet 100 Firefox-Luecken in zwei Wochen ist eine Schlagzeile, die haengen bleibt. Und in diesem Fall steckt dahinter tatsaechlich Substanz. Die Kombination aus 22 CVE-bewerteten Firefox-Schwachstellen, 90 weiteren bestaetigten Bugs, 112 einzigartigen Reports und der Analyse von fast 6.000 C++-Dateien zeigt, dass grosse Sprachmodelle in der Sicherheitspruefung eine neue praktische Rolle gefunden haben.

Die wichtigste Erkenntnis ist dabei nicht, dass KI magisch besser waere als menschliche Forscher oder klassische Fuzzer. Entscheidend ist, dass sie eine neue Schicht zwischen Massenautomatisierung und Expertenanalyse bildet. Genau dort scheint im Firefox-Fall der Mehrwert zu liegen: bei der schnellen Identifikation logischer und speicherbezogener Problemstellen, die bislang nicht systematisch genug auffielen.

Gleichzeitig bleibt die Grenze klar. Die KI ist nach den vorliegenden Angaben beim Bau tatsaechlicher Exploits nur in 2 von Hunderten Versuchen erfolgreich gewesen. Sicherheitsforschung wird also nicht vollautomatisch. Aber sie wird skaliert. Und fuer Browser-Hersteller, Open-Source-Projekte und wahrscheinlich bald die gesamte Softwareindustrie ist das bereits gross genug. Mozilla hat den richtigen Schluss gezogen: nicht Ersatz, sondern Erweiterung des Werkzeugkastens. Wenn sich dieser Ansatz bestaetigt, duerfte genau das die nachhaltigste Folge dieses Firefox-Tests sein.

Quellen

Hinweis: Weitere im Text genannte Zahlen und Zitate stammen aus der vom Nutzer bereitgestellten Auto-Deep-Dive-Recherche zum selben Thema, fuer die im Quellen-Verzeichnis keine oeffentliche URL angegeben wurde.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen