AWS Bedrock: Neue API verarbeitet 3.000 Seiten in einem Durchlauf

Tech-Giganten und Startups präsentieren neue KI-Lösungen zur automatisierten Dokumentenverarbeitung. AWS, OpenAI und weitere treiben die Entwicklung voran.

Achtzig Prozent aller Unternehmensdaten liegen in unstrukturierten Dokumenten – ein enormes Potenzial, das nun endlich gehoben wird. Gleich mehrere Tech-Giganten und innovative Startups haben in dieser Woche neue Lösungen vorgestellt, die Dokumente automatisch erfassen, verstehen und verarbeiten können. Für deutsche Unternehmen bedeutet das: Prozesse, die bisher händisch erledigt wurden, lassen sich künftig in Sekundenschnelle automatisieren.

Anzeige

Die rasante Entwicklung bei der KI-gestützten Dokumentenverarbeitung erfordert von Unternehmen nicht nur technisches Know-how, sondern auch die Einhaltung neuer rechtlicher Rahmenbedingungen. Dieser kostenlose Leitfaden hilft Ihnen, die Anforderungen der EU-KI-Verordnung und wichtige Übergangsfristen für Ihre Projekte sicher im Blick zu behalten. EU AI Act in 5 Schritten verstehen: Fristen, Pflichten und Risikoklassen kompakt erklärt

AWS setzt auf All-in-One-API

Amazon Web Services hat am Freitag mit Bedrock Data Automation (BDA) eine einheitliche Schnittstelle vorgestellt, die Dokumente, Bilder, Videos und Audiodateien verarbeitet. Die Besonderheit: Die API versteht nicht nur Text, sondern erfasst auch den Kontext eines Dokuments und liefert Vertrauenswerte für die extrahierten Daten. Pro Anfrage verarbeitet die Pipeline bis zu 3.000 Seiten oder 500 Megabyte – ein Wert, der selbst große Vertrags- oder Rechnungskonvolute in einem Durchlauf bewältigt.

Parallel dazu veröffentlichte das Startup Zyphra seine offenen Zamba2-VL-Modelle. Diese Vision-Language-Modelle kombinieren die Mamba2-Architektur mit klassischen Transformer-Technologien und sind mit 1,2 bis 7 Milliarden Parametern erhältlich. Entscheidender Vorteil: Sie benötigen für die erste Textausgabe nur ein Zehntel der Zeit herkömmlicher Modelle – ein entscheidender Faktor für Echtzeitanwendungen in der Dokumentenverarbeitung.

Neue Werkzeuge für Entwickler

Die Entwicklungstools für die Dokumentenverarbeitung haben ebenfalls ein umfangreiches Update erfahren. Text Control erweiterte seine SDKs für ASP.NET Core, .NET und Angular um Unterstützung für das Model Context Protocol (MCP) und sogenannte „Agent Skills“. Hinzu kommen neue PDF-Sicherheitsfunktionen wie Verschlüsselung und elektronische Signaturen.

Für .NET-Entwickler gibt es zudem OfficeAgent.NET 0.1, eine Open-Source-Bibliothek, die am Mittwoch veröffentlicht wurde. Das Tool erlaubt KI-Agenten, Änderungen an Word-Dokumenten als Plan zu beschreiben – die Software setzt diese dann automatisch um, indem sie die Open-XML-Details im Hintergrund erledigt. 15 verschiedene Operationen für Text, Tabellen und Formatvorlagen werden unterstützt.

Telerik wiederum brachte am Montag ein neues Command Line Interface (CLI) für seine Dokumentenbibliotheken auf den Markt. Es automatisiert Aufgaben wie die Konfiguration von NuGet-Paketquellen und die Projekterstellung – Voraussetzung ist das .NET SDK 6.0 oder höher.

Anzeige

Während neue Tools die Automatisierung beschleunigen, stellen die EU-Vorgaben für KI-Systeme viele Compliance-Abteilungen vor große Herausforderungen. Erfahren Sie in diesem kostenlosen Report, welche Dokumentationspflichten auf Ihr Unternehmen zukommen und wie Sie KI-Lösungen rechtssicher implementieren. Umsetzungsleitfaden zum EU AI Act jetzt kostenlos herunterladen

Der Aufstieg der KI-Agenten

Die Branche bewegt sich zunehmend in Richtung agentischer Systeme, die komplexe Arbeitsabläufe eigenständig ausführen können. OpenAI gab am Freitag die Übernahme von Ona bekannt, um die Ausführung von Codex-Agenten für langlebige Cloud-Workflows zu ermöglichen. Codex wird bereits von über fünf Millionen Nutzern verwendet und hat kürzlich einen Entwicklermodus für Chrome mit CDP-Integration erhalten.

Im Bereich Customer Communications Management (CCM) launchte Messagepoint am Donnerstag MARCIEAssist. Das Tool wird als agentische KI beschrieben, die Aufgaben mit Inhaltsregeln und Vorlagen automatisiert – bei gleichzeitiger Wahrung von Governance und Audit-Trails. Contentstack stellte zudem seine Agentic Experience Platform (AXP) vor, die ein „Agent OS“ und ein spezielles Beschleunigerprogramm für Entwickler umfasst.

Präzision als entscheidender Faktor

Die Zuverlässigkeit automatisierter Extraktion bleibt das zentrale Thema für Unternehmen. Octonomy meldete am Donnerstag eine Trefferquote von 96 Prozent in einem unabhängigen Benchmark der Tolly Group für technische Fertigungsdokumentationen. Das Unternehmen, das über 25 Millionen US-Dollar (rund 23 Millionen Euro) an Finanzierung eingesammelt hat, fordert Entwickler nun auf, Lücken in seinem System zu finden.

Eine aktuelle technische Analyse zeigt zudem: Die Qualität von Retrieval-Augmented Generation (RAG) aus PDFs lässt sich deutlich verbessern, wenn Dokumente als relationale Tabellen modelliert werden. Durch die Strukturierung von Zeilen, Seiten und Inhaltsverzeichnissen bleiben die Beziehungen zwischen Datenpunkten erhalten, die bei einfacher Textextraktion oft verloren gehen.

Leistungssprung bei der Textdarstellung

Auch bei der Performance gibt es Fortschritte: Die Veröffentlichung von Pragtical 3.12 am Montag führte ein SDL-GPU-Rendering-Backend ein. Die Textdarstellungsgeschwindigkeit stieg um das bis zu 3,36-Fache, die Zeit für das Kalt-Rendering von Glyphen sank von 6,675 Millisekunden auf 1,986 Millisekunden – bei einem Speicherverbrauch von unter 50 Megabyte.

Die aktuellen Entwicklungen zeigen: Der Wettlauf um die intelligente Dokumentenverarbeitung ist in vollem Gange. Für Unternehmen bedeutet das nicht nur Effizienzgewinne, sondern auch die Chance, bisher ungenutzte Datenquellen zu erschließen. Die Frage ist nicht mehr, ob KI Dokumente verstehen kann – sondern wie schnell Unternehmen die neuen Werkzeuge in ihre Prozesse integrieren.