Das KI-Update für die Woche 16-2025

12.04. - 18.04.

Apr. 20, 2025

Liebe KI-Enthusiasten,

herzlich willkommen zu einer neuen Ausgabe unseres KI-Newsletters, der Sie über die neuesten Entwicklungen und Innovationen in der Welt der künstlichen Intelligenz auf dem Laufenden hält.

Wichtigste Punkte heute

👁️ OpenAI bringt o3 & o4-mini: Neue visuelle KI-Modelle analysieren Bilder als Teil ihrer Denkprozesse – präziser und vielseitiger.
💾 GPT-4.1 mit 1 Mio. Tokens: OpenAI launcht Modelle für Softwareentwicklung & Agenten mit riesigem Kontextfenster.
🧠 Claude wird smarter: Neue „Research“-Funktion & Google-Workspace-Integration machen Anthropic’s KI deutlich leistungsfähiger.
💡 Große Sprachmodelle bleiben ein Rätsel: Neue Studien zeigen: Die erstaunlichen Fähigkeiten von LLMs sind wissenschaftlich noch kaum verstanden.

Viel Spaß

Ihr

Martin Blaha

🔥 Gefällt Ihnen unser Newsletter? Unterstützen Sie unsere Arbeit, in dem Sie uns Ihren Freunden und Kollegen empfehlen:

Einem Freund empfehlen

Produktneuheiten

OpenAI's visuelle Intelligenz der nächsten Generation: o3 und o4-mini

OpenAI präsentiert mit o3 und o4-mini die neuesten Modelle der o-Serie, die imstande sind, Bilder nicht nur zu sehen, sondern auch im Rahmen ihrer Denkprozesse aktiv zu nutzen. Diese Modelle können hochgeladene Bilder transformieren, um Details zu erkennen und Probleme zu lösen. ChatGPT's verbesserte visuelle Intelligenz ermöglicht es, komplexe Aufgaben durch die Analyse von Bildern genauer und zuverlässiger zu bewältigen. Beispiele umfassen das Lösen von Wirtschaftsaufgaben anhand von Fotos oder die Fehleranalyse von Screenshots. Die Modelle können Texte in Bildern erkennen, physikalische Probleme lösen und Informationen aus Straßenschildern extrahieren, was sie zu einem vielseitigen Werkzeug für diverse Anwendungen macht.

👉 Mitteilung von OpenAI

GPT-4.1: OpenAI präsentiert leistungsstarke KI-Modelle mit bis zu 1 Million Token Kontext

OpenAI hat die GPT-4.1 Modellreihe vorgestellt, bestehend aus GPT-4.1, GPT-4.1 mini und GPT-4.1 nano, die speziell für Coding und Instruktionsbefolgung optimiert sind und eine enorme Kontextlänge von bis zu 1 Million Tokens bieten – das entspricht etwa 750.000 Wörtern. GPT-4.1 erzielt auf dem SWE-bench Verified Benchmark eine Spitzenleistung von bis zu 54,6 %, übertrifft damit GPT-4o deutlich und nähert sich den Konkurrenten Google Gemini 2.5 Pro und Anthropic Claude 3.7 an.

Die Modelle sind darauf ausgelegt, komplexe Softwareentwicklungsaufgaben zu meistern, einschließlich Frontend-Coding, zuverlässiger Formatierung und konsistenter Werkzeugnutzung. GPT-4.1 nano ist das schnellste und kostengünstigste Modell, ideal für Klassifikation und Autovervollständigung. OpenAI plant, mit diesen Modellen den „agentischen Softwareingenieur“ zu realisieren, der komplette Apps inklusive QA und Dokumentation autonom entwickelt. GPT-4.1 ist ausschließlich über die API verfügbar und ersetzt bis Juli 2025 die GPT-4.5 Preview-

👉 Mitteilung von OpenAI | 👉 Artikel bei TechCrunch

Gemma 3: State-of-the-Art KI jetzt auf Consumer-GPUs dank Quantization-Aware Training

Google hat mit Gemma 3 seine neueste Generation offener KI-Modelle vorgestellt, die Spitzenleistung auf nur einer High-End-GPU wie der NVIDIA H100 bieten. Durch Quantization-Aware Training (QAT) wurden Modelle wie Gemma 3 27B so optimiert, dass sie mit stark reduzierten Speicheranforderungen (z.B. von 54 GB auf 14,1 GB VRAM) auf Consumer-GPUs wie der NVIDIA RTX 3090 laufen können – bei nahezu unverändert hoher Qualität. QAT integriert die Quantisierung bereits während des Trainings, was Qualitätsverluste minimiert. Gemma 3 unterstützt multimodale Eingaben, 140+ Sprachen und einen riesigen Kontext von bis zu 128.000 Tokens. Die Modelle sind offen verfügbar und kompatibel mit Tools wie Hugging Face und llama.cpp, was Entwicklern den Zugang zu leistungsstarker KI auf erschwinglicher Hardware erleichtert.

👉 Mitteilung von Google

Microsoft Copilot Studio erweitert Automatisierung mit "Computer Use" für UI-Interaktionen

Microsoft Copilot Studio führt "Computer Use" als Early Access Research Preview ein. Diese Funktion ermöglicht es Copilot Studio Agents, Webseiten und Desktop-Anwendungen als Werkzeuge zu nutzen und mit jeder Benutzeroberfläche zu interagieren. "Computer Use" automatisiert Dateneingabe, Marktforschung und Rechnungsverarbeitung, indem es auf Änderungen in Apps und Webseiten reagiert und Aufgaben auch ohne API-Verbindung bewältigt. Es transformiert die Robotergesteuerte Prozessautomatisierung (RPA), indem es intelligenter, intuitiver und anpassungsfähiger ist. Interessenten können sich über ein Formular für die Teilnahme anmelden und weitere Details auf der Microsoft Build im Mai 2025 erfahren.

👉 Mitteilung von Microsoft

IBM Granite 3.3: Neue Sprachmodelle, verbesserte Texterkennung und RAG-Funktionen

IBM hat Granite 3.3 vorgestellt, eine Erweiterung seiner multimodalen KI-Modelle. Das Highlight ist Granite Speech 8B, das erste offizielle Speech-to-Text-Modell von IBM, das den Auftakt zur Erforschung von Audiofähigkeiten markiert. Zusammen mit den verbesserten Textmodellen Granite 3.3 8B Instruct und 2B Instruct, die Fill-in-the-Middle (FIM)-Funktionen bieten, wird die Vielseitigkeit der Granite-Serie für Unternehmensanwendungen erweitert.

Granite Speech 3.3 8B übertrifft Mitbewerber bei der Genauigkeit und bietet Übersetzungen in mehrere Sprachen. IBM Research arbeitet bereits an Granite 4.0, der nächsten Generation von Modellen, die noch schneller und effizienter sein sollen. Zusätzlich werden LoRA-Adapter für RAG (Retrieval-Augmented Generation) über Granite Experiments bereitgestellt, um die Leistung weiter zu verbessern. Die neuen Modelle und Adapter sind auf Hugging Face und IBM watsonx.ai verfügbar.

👉 Mitteilung von IBM

Claude erweitert seine Fähigkeiten durch Forschung und Google Workspace Integration

Anthropic stellt neue Funktionen für Claude vor, die ihn zu einem noch informierteren und leistungsfähigeren Partner machen. Die neuen Möglichkeiten umfassen die Funktion "Research", mit der Claude sowohl interne Arbeitskontexte als auch das Web durchsuchen kann, sowie eine Google Workspace-Integration, die E-Mails, Kalender und Dokumente mit Claude verbindet.

"Research" ermöglicht es Claude, selbstständig Recherchen durchzuführen und Informationen zu verarbeiten, um umfassende Antworten mit überprüfbaren Zitaten zu liefern. Die Google Workspace-Integration erlaubt es Claude, sicher auf E-Mails, Dokumente und Kalender zuzugreifen, um Besprechungsnotizen zusammenzufassen, Aktionspunkte zu identifizieren und relevante Dokumente zu durchsuchen. Administratoren von Claude Enterprise können die Katalogisierung aktivieren, um die Qualität und Genauigkeit der Informationsbeschaffung zu verbessern. Diese Erweiterungen sind erst der Anfang, und in den kommenden Wochen werden weitere Inhaltsquellen und Forschungsmöglichkeiten hinzukommen.

👉 Mitteilung von Anthropic

Grok Studio startet mit Code-Ausführung und Google Drive Integration

Elon Musks KI-Assistent Grok hat mit der ersten Version von „Grok Studio“ neue Funktionen erhalten: Nutzer können nun Code ausführen und Google Drive direkt einbinden. Dies erweitert die Einsatzmöglichkeiten von Grok erheblich, indem es Programmieraufgaben und Dateiverwaltung nahtlos integriert. Grok ist auf verschiedenen Plattformen wie iOS, Android und Web verfügbar und wurde kürzlich mit verbesserter Geschwindigkeit, Präzision und Mehrsprachigkeit aktualisiert.

👉 Beitrag von Grok auf X

Industrienachrichten

CoreWeave Bringt NVIDIA GB200 NVL72 Systeme für KI-Innovationen auf den Markt

CoreWeave hat als einer der ersten Cloud-Anbieter NVIDIA GB200 NVL72-Systeme im großen Maßstab für Kunden verfügbar gemacht. Unternehmen wie Cohere, IBM und Mistral AI nutzen diese bereits, um ihre KI-Modelle und -Anwendungen der nächsten Generation zu trainieren und einzusetzen. Die NVIDIA Grace Blackwell-basierten Systeme transformieren Rechenzentren in KI-Fabriken, die Echtzeit-Einblicke mit hoher Geschwindigkeit und Genauigkeit liefern. Kunden profitieren von erheblichen Leistungssteigerungen, insbesondere bei der Entwicklung und dem Einsatz von KI-Agenten und großen Sprachmodellen.

👉 Mitteilung von NVIDIA

Phase Zwei der Militär-KI: Generative KI verändert Aufklärung und Entscheidungen

Die zweite Phase der KI-Nutzung im US-Militär bringt generative KI wie ChatGPT in die Analyse von Überwachungsdaten ein. US-Marines im Pazifik nutzen sie, um nicht nur Daten auszuwerten, sondern auch Handlungsempfehlungen und Zielvorschläge zu erstellen. Während dies präzisere Einsätze ermöglichen kann, warnen Experten vor Risiken bei der Interpretation komplexer Informationen und ethischen Fragen. Die schnelle Entwicklung erfordert neue Testverfahren, da KI-Systeme ständig aktualisiert werden. Parallel modernisiert das Heer seine Netzwerke mit generativer KI, um realistische Szenarien zu simulieren und schnelle Entscheidungen zu unterstützen.

👉 Artikel bei MIT Technology Review

Zahlen, Studien, Wissenschaft

Große Sprachmodelle: Faszinierend, aber ihr inneres Funktionieren bleibt ein Rätsel

Große Sprachmodelle (LLMs) wie GPT-4 oder Google DeepMind’s Gemini beeindrucken durch ihre Fähigkeit, komplexe Aufgaben zu generalisieren – etwa mathematische Probleme in verschiedenen Sprachen zu lösen. Doch trotz ihres Erfolgs verstehen Forscher nicht genau, warum und wie diese Modelle so gut funktionieren. Klassische Statistik und bekannte Theorien reichen nicht aus, um Phänomene wie „Grokking“ oder die erstaunliche Generalisierungsfähigkeit zu erklären. Die Komplexität der Modelle zwingt Wissenschaftler, kleinere Proxy-Modelle zu untersuchen, um neue Theorien zu entwickeln. Dieses Verständnis könnte entscheidend sein, um die nächste Generation von KI-Technologien zu erschließen und Risiken besser zu kontrollieren.