Die technische Umsetzung konzentrierte sich auf die Entwicklung eines KI-basierten Chatbots, der vollständig auf der Azure-Plattform gehostet wird. Als Grundlage dienten Forschungsberichte in verschiedenen Formaten (Word, XML, PDF), die zunächst in einen geschützten Datenraum integriert wurden, um höchste Datensicherheit zu gewährleisten.
Der Datenaufbereitungsprozess umfasste mehrere kritische Schritte: die systematische Bereinigung von Dubletten, die Digitalisierung gescannter Dokumente mittels OCR-Technologie (Optical Character Recognition) sowie die automatische Anreicherung mit strukturierten Metadaten. Diese aufbereiteten Daten bildeten die Basis für durchsuchbare Indizes, die eine präzise und effiziente Abfrage der Dokumentenbestände ermöglichen.
Zur automatischen Verarbeitung und Nutzerbereitstellung der Informationen entwickelte das Team komplexe Datenverarbeitungs-Pipelines in Python, die eine nahtlose Integration in den Chatbot gewährleisten. Dabei kamen bewährte Open-Source-Bibliotheken für Natural Language Processing zum Einsatz, um die Textverarbeitung und -analyse zu optimieren.
Die Chatbot-Entwicklung selbst erfolgte mit Azure AI Foundry und Azure OpenAI, wobei durch gezieltes Prompt Engineering eine präzise Antwortqualität erreicht und eine vollständige Integration in die bestehende Systemlandschaft realisiert wurde. Das Hosting in der sicheren Azure-Umgebung des DVGW stellt dabei kontinuierlich die erforderlichen Datensicherheitsstandards sicher.
Die Entwicklung begann mit einem ersten Prototyp im Azure Playground, der für umfassende interne Tests genutzt wurde, um durch iteratives Prompt Engineering die Fragen-Antwort-Paare zu evaluieren und die Funktionalität zu validieren. Basierend auf diesen Erkenntnissen erfolgte die Implementierung einer Production-Ready Anwendung unter Verwendung verschiedener Services der Azure AI Foundry, ergänzt durch Python-basierte NLP-Komponenten für erweiterte Textverarbeitung.