Autonomes Coding und Token-Ökonomie dominieren den Tag: Cognition schreibt 89 % intern mit KI, OpenRouter verfünffacht Durchsatz — während neue offene Modelle (NVIDIA Cosmos 3, MiniMax M3) und Self-hosted-Tooling die Builder-Infrastruktur neu vermessen. Die Woche, die hinter uns liegt, lässt sich auf eine einzige Gleichung reduzieren: Token = Arbeit = Geld. Am prägnantesten zeigt das Cognitions Devin-Ankündigung: 89 % des intern committed Codes stammt heute von der KI — im Dezember waren es 13 %. Gleichzeitig verfünffachte OpenRouter seinen wöchentlichen Token-Durchsatz von 5 auf 25 Billionen Tokens in sechs Monaten und schloss eine Runde über 113 Millionen Dollar bei 1,3 Milliarden Dollar Bewertung ab — das Geschäftsmodell ist denkbar simpel: rund 5 % der Inference-Ausgaben abschöpfen, die durch den Router fließen. Anthropic untermauert das Bild: Claude Opus 4.8 verbessert agentic Coding von rund 64 % auf rund 69 % und Reasoning-with-Tools von rund 55 % auf rund 58 %, zu identischem Preis wie 4.7. Wichtiger als die Benchmark-Deltas sind drei strukturelle Features: ein Effort Control, das den Compute-Einsatz pro Task steuerbar macht; Dynamic Workflows, bei denen das Modell große Aufgaben plant, parallele Sub-Agenten startet, deren Outputs prüft und zurückmeldet; und eine deutlich reduzierte Rate, mit der 4.8 eigene Code-Fehler unkommentiert durchlässt — laut Anthropic rund viermal seltener als 4.7. Snowflake schließt den Kreis auf der Daten-Infrastrukturseite: Produktumsatz plus 34 %, Guidance angehoben, und die Akquisition von Natoma, einer MCP-Plattform zur Governance von Agentenzugriffen, signalisiert, dass sich die Datenschicht gerade rund um konsumierende Agenten neu kalibriert. Während die proprietären Stacks an Größe gewinnen, vermessen offene Modelle und Self-hosted-Tooling gleichzeitig die untere Infrastrukturschicht neu. NVIDIA Cosmos 3 ist als erstes offenes Omni-Modell speziell für Physical-AI-Anwendungen wie Robotik und autonome Systeme auf Hugging Face verfügbar — ein direktes Angebot an Builder, die multimodales Reasoning in realen Umgebungen brauchen, ohne Vendor-Lock-in. Parallel dazu ist MiniMax M3 im Vercel AI Gateway integriert: Das Modell bringt ein 1-Millionen-Token-Kontextfenster, native Multimodalität via MiniMax Sparse Attention sowie agentic Web Browsing und Terminal-Tool-Use mit — und lässt sich über die unified API ohne Aufpreis, inklusive BYOK und dynamischer Latenz-/Kostenoptimierung, ansprechen. Wer noch einen Schritt weiter von der Cloud weg will, findet mit Odysseus 1.0 einen Self-hosted AI Workspace, der Chat, Agents, Deep Research und persistentes Memory via ChromaDB unter einem Dach vereint — mit Anbindung an vLLM, llama.cpp und Ollama, aber ohne Cloud-Abhängigkeit. Die Werkzeugschicht für Daten und Pipelines entwickelt sich mit ähnlicher Geschwindigkeit. DuckDB Quack, ein neues HTTP-Protokoll, erweitert die eingebettete Analysedatenbank um echte Client-Server-Fähigkeiten: Mehrere DuckDB-Instanzen können dieselbe Datenbank gleichzeitig über Standard-HTTP-Verbindungen nutzen, wobei das Team 3,5-fach höhere Übertragungsgeschwindigkeit gegenüber Arrow Flight beansprucht. Die Integration in DuckLake ist geplant, eine produktionsreife Version soll mit DuckDB 2.0 noch 2026 erscheinen. Ergänzend dazu adressiert VibeETL das lokale Pipeline-Problem: Die in drei Monaten entwickelte Open-Source-Alternative zu Alteryx setzt auf Polars, Rust und React Flow — und lässt sich durch ein manifest-getriebenes Back…