44 episodes

Techtiefen Nico Kreiling

- Teknologi

Entwicklern und Nerds spannende und innovativen Technologien näher bringen -
das ist das Ziel von Techtiefen. In jeder Folge wird ein Thema in einem intensiven Gespräche mit wechselnden Experten und Expertinnen ausführlich erklärt. Dabei haben wir den Anspruch Neugierigen die jeweilige Technologie und ihren Nutzen näher zu bringen und anschließend tiefe Einblicke und handfeste Tipps zu bieten.

- 23 APR 2024
Big Data auf K8s mit Stackable

Big Data auf K8s mit Stackable

Diese Folge bietet von allem etwas: Einen Rückblick auf die frühen Hadoop-Zeiten, einen Einblick in moderne verteilte Datenverarbeitung, Kubernetes, Rust und einen Blick auf zukünftige Herausforderungen des Cyber Resilience Acts. Alles wird vorgestellt von Lars Francke, einem Committer bei Apache-Projekten wie etwa Hive und HBase, sowie CEO von Stackable. Sein Startup bündelt Big-Data-Tools des Apache-Ökosystems in einer lauffähigen Distribution auf Basis von Kubernetes. Im Gespräch werfen wir einen Blick auf die Herausforderungen bei der Verarbeitung großer Datenmengen, die uns heute in der öffentlichen Cloud weitgehend abgenommen werden. Lars erzählt davon, wie die Lizenzänderungen der bestehenden Hadoop-Distributoren zur Initiative führten, die letztlich zur Gründung von Stackable führte. Er berichtet von den Herausforderungen bei der Erstellung zahlreicher Kubernetes Operators und warum sie sehr glücklich damit sind, diese in Rust entwickelt zu haben. Darüber hinaus sprechen wir über Open Source, die Zuverlässigkeit von Software und vieles mehr.
- 1 hr 14 min
- 23 FEB 2024
43 Frauen in der IT

43 Frauen in der IT

In Folge 43 spricht Mareen Döring über ihren Werdegang als Frau in der IT-Branche. Vom Informatikunterricht über das Studium bis hin zu ihrer aktuellen Rolle als VP Engineering & Business Systems bei Zeal hat sie zahlreiche Erfahrungen gesammelt und teilt ihre Einsichten zu den verschiedenen Stationen ihrer Laufbahn. Gemeinsam erörtern wir, warum es wichtig ist, dass in der IT-Branche nicht ausschließlich Männer arbeiten, und wieso sich das Geschlechterungleichgewicht hartnäckig hält. Wir sind uns einig, dass dieses Ungleichgewicht idealerweise so früh wie möglich im Ausbildungsweg angegangen werden sollte. Zum aktuellen Umgang mit diesem Ungleichgewicht verfolgen wir jedoch unterschiedliche Ansätze, die wir im Gespräch diskutieren.
- 49 min
- 26 APR 2023
#42 AI Chatbots & Open-Assistant

#42 AI Chatbots & Open-Assistant

In der 42. Folge dieses Podcasts geht es um die Technologie, die derzeit als die Antwort auf alles und nichts gesehen wird. Andreas Köpf von Open Assistant wird interviewt und es wird diskutiert, wie ChatGPT die Technologie-Revolution angestoßen hat und welche Auswirkungen sie auf die Zukunft hat. Es werden die Grundlagen von ChatGPT wiederholt und ein ausführlicher Blick auf das Refinforcement Learning from Human Feedback (RLHF) geworfen, das den Large Language Models hilft, den Absichten der Nutzer zu folgen. Open-Assistant wird als eine Open-Source-Alternative zu ChatGPT vorgestellt, die von einer engagierten Community aufgebaut wurde und deren Datensatz veröffentlicht wurde. Es wird auch diskutiert, welche Hardware und Modelle für das Training verwendet wurden. Ethik ist ein wichtiges Thema, da bei der Erstellung der Trainingsdaten darauf geachtet werden muss, welche Antworten auf potenziell gefährliche Fragen die richtigen sind. Schließlich wird ein Blick auf die gesellschaftliche Dimension geworfen und über die bevorstehenden Transformationen und nächsten Entwicklungsschritte diskutiert.
- 2 hrs 32 min
- 5 FEB 2023
WebAssembly

WebAssembly

Webassembly ermöglicht es, viele verschiedene Programmiersprachen im Browser auszuführen und kann dabei sogar deutlich schneller sein als JavaScript. Mein Gast Golo Roden hat nicht nur jahrelange Erfahrung im Bereich der Web-Entwicklung und Software-Architektur, sondern hat sich auch länger mit WebAssembly auseinander gesetzt und darüber ein ausführliches YouTube Tutorial produziert.
Mit ihm spreche ich über das Ziel von WebAssembly, den Browser mit Hilfe einer Intermediate Language (ähnlich wie Java bytecode oder CIL) für mehr Entwickler zugänglich zu machen. Und seit der Einführung 2015 haben sich inzwischen zahlreiche Projekte gefunden, die es ermöglichen etwa C, Rust, Go, Java, C#, .NET oder neuerdings Python mittels Pyodide in WebAssembler zu kompilieren. Golo erklärt, warum WebAssembler weder eine Konkurrenz zu JavaScript noch zu Docker darstellt, wie das WebAssembler System Interface (WASI) funktioniert und wann WebAssembler schneller ist als JavaScript. Schließlich sprechen wir noch etwas über das ganze Ökosystem rund um WebAssembly, die ByteCodeAlliance und wo uns WebAssembler heute im Netz so begegnet.
Links

Golos Youtube Channel “the native web”
Ältere, aber schöne Einführung von Lin Clark: Cartoon introduction to WebAssembly
State of WebAssembly 2022
- 1 hr 8 min
- 11 DEC 2022
#40 Semantic Search

#40 Semantic Search

Informationen sind vielfältig, sie existieren nicht nur in geschriebenen Text, sondern auch in Bilder, Töne, Videos und vielem mehr. Wähend klassischer a.k.a. lexikalischer Suche diese Informationen nur mit viel Aufwand über Umwege zugänglich gemacht werden können, so bietet semantische Suche den direkten Zugriff auf Informationen nicht nur jeder Sprache, sondern auch jeder Modalität wie etwa Bildern und Videos.

In Folge 40 habe ich Joschka Braun von Jina.AI zu Gast. Jina ist ein Startup aus Berlin, welches Entwickler bei der Erstellung multi-modaler ML Anwendungen hilft. Gemeinsam erkären wir zunächst, wieso multi-modalität, also dem Zusammenwirken von unterschiedlichen Medientypen wie etwa Text, Bild, Ton etc. die Zukunft gehört. Wir gehen auf Clip- und Dall-E als erste populäre Vertreter multimodaler Machine Learning Modelle ein und erklären wie sie Dokumenten-Vektoren generieren. Anschließend sprechen wir über geeignete Verfahren zur performanten Durchsuchung der generierten Vektoren mittels Approximate Nearest Neighbor (ANN) Search. Diese können entweder direkt mittels Bibliotheken wie etwa HNSWLib, Annoy oder Faiss genutzt werden, oder als Retrieval-Verfahren innerhalb einer Vektordatenbank. Diese verbinden die Transaktions- und Skalierungsqualtiäten von Datenbanken mit der effizienten Vektorabfrage. Hier reden wir insbesondere über die Vorzüge und Nachteile der dedizierten Vektordatenbanken wie Weaviate, Milvus und Qdrant sowie den klassischen Datenbanken mit Vektorsuche wie beispielsweise ElasticSearch.

Zum Abschluss sprechen wir noch einmal über JinaAI, DocArray, ihren neuen Dienst JinaNow und NLP-Modell-Finetuning.

Links:
ANN BenchmarkBuch zu Neural SearchJinaAI Bootcamp
- 1 hr 2 min
- 27 JUN 2022
#39 Suchmaschinen-Optimierung (SEO)

#39 Suchmaschinen-Optimierung (SEO)

In Folge 39 berichtet SEO-Experte Niklas Büllesbach von seinen Erfahrungen im Suchmaschinen-Umfeld. Natürlich gibt Niklas einige Tipps zur Optimierung der eigenen Seite, darüber hinaus werfen wir aber auch einen Blick auf die Funktionsweise von Suchmaschinen. Dabei starten wir bei AltaVista, besprechen die ersten On-Page (TF/IDF) und Off-Page (PageRank) Optimierungen und schließen bei aktuellen Entwicklungen sie Semantischer Suche, hochdimensionale A/B-Tests, Tools wie Google-Search-Console (ehemals WebMaster-Tools) und den Core Web-Vitals sowie Best Practices für sensible Bereiche: Expertise, Authority, Trust.

Darüber hinaus skizzieren wir die typsichen Verarbeitungsschritte einer Suchmaschine:

Crawling: Der GoogleBot besucht eine Homepage und hangelt sich von hier in die verschiedenen Bereiche der Website. Bei großen Online-Portalen wie etwa Nachrichtenseiten kann das managen des sogenannten Crawl-Budgets eine Herausforderung darstellen.Rendering: Google Caffeein rendert die gecrawlte Websitenstruktur, um anschließend revelante Inhalte zu extrahieren. Bei nicht serverseitige gerenderten Websiten wie etwa Single-Page Applikations kann dies insbesondere auf Grund des zeitlichen Versatzes eine komplizierte Angelegenheit darstellen.Indexing: Die gespeicherten Inhalte werden in Shards unterteilt und auf verschiedene Daten-Center verteilt, die nach URL-Keywords (Reverse-Index) strukturiert werden.Ranking: Die Reihenfolge der zurückgelieferten Suche wird gerade in den letzten Jahren immer mehr durch semantische Suche bestimmt und mittels Neuronaler Netze und dem Google Knowledge Graph bestimmt.
- 1 hr 30 min