Was passiert, wenn jemand, der seit 2008 ViciDial-Cluster betreibt, eine KI-Telefonie-Architektur von Grund auf neu denkt? Es entsteht kein weiteres SaaS-Produkt. Es entsteht ein Call Control Layer, der die Zukunft der Arbeit in Callcentern fundamental verändern wird.
Wir setzen LiveKit und KI-Sprachagenten seit Anfang 2024 produktiv in Callcentern ein — Monate bevor OpenAI und LiveKit im Oktober 2024 ihre „Advanced Voice"-Partnerschaft bekanntgaben. Was OpenAI heute als bahnbrechend vermarktet, haben wir nicht nur früher eingesetzt, sondern durch unseren selbstentwickelten Call Control Layer fundamental weiterentwickelt: Warm Transfer, Multi-Tenant-Isolation und 7-Emotionen-TTS existierten in dieser Kombination nirgendwo auf der Welt — auch nicht bei OpenAI.
GoFonIA ist kein Startup, das „KI-Telefonie" als Trend entdeckt hat. Es ist das Ergebnis von 17 Jahren operativer Callcenter-Erfahrung — komprimiert in eine Architektur, die alles weiß, was ein Callcenter braucht, bevor der erste Anruf eingeht.
Aufbau und Betrieb produktiver ViciDial-Installationen. Predictive Dialing, Agent-Scripting, Campaign-Management — die gesamte Palette klassischer Callcenter-Technologie auf Open-Source-Basis.
Betrieb von Multi-Carrier-Setups mit SIP-Trunking über Telekom, Plusnet, dus.net, voip2gsm. Asterisk-Tuning auf Kernel-Ebene. Entwicklung eigener Monitoring- und Reporting-Tools. Das Wissen, wo Callcenter-Technologie an ihre Grenzen stößt — und warum.
Erste Experimente mit Sprachmodellen in Telefonie-Kontexten. Die Erkenntnis: Kein existierendes Framework kann das, was ein echtes Callcenter braucht. Weder die US-Cloud-Anbieter noch die europäischen Alternativen.
Beginn der Eigenentwicklung. Die Kernfrage: Wie baut man eine Telefonie-Steuerung, die nicht nur „Anruf annehmen und antworten" kann, sondern die komplette Logik eines Callcenters abbildet — inklusive Warm Transfer, Warteschleifen, Tenant-Isolation und SIP-Orchestrierung?
Fertigstellung der Single-Room-Architektur mit 5-Phasen-Transfer-Logik, 7-Emotions-TTS, Multi-Tenant DID-Routing und Watchdog-Engine. Produktiveinsatz bei ersten Kunden.
Das Herzstück von GoFonIA ist kein KI-Modell. Es ist eine selbstentwickelte Steuerungsschicht, die zwischen dem Telefonnetz und der KI operiert — und die gesamte Anruflogik orchestriert. Diese Schicht existiert in dieser Form kein zweites Mal im DACH-Raum.
Weil Standard-Telefonie-Frameworks nicht dafür gebaut wurden, vier Teilnehmer in einem Raum zu halten und die Audioströme zwischen ihnen in Echtzeit umzuschalten. Weil konventionelle KI-Telefonie nur „Anruf → Antwort" kennt — aber kein „Agent stellt vor, Kollege hört zu, Musik läuft, Anrufer wartet, alle im selben Raum". Weil Tenant-Isolation auf DID-Ebene, Tool-Registry zur Laufzeit und SIP-Orchestrierung mit Fallback-Strategien in keinem SaaS-Baukasten der Welt vorgesehen sind.
Der Control Layer operiert auf fünf Ebenen gleichzeitig:
DID-basierte Tenant-Erkennung beim SIP-Handshake. Dynamische Teilnehmererzeugung per outbound SIP. BYE-Management bei Verbindungsende.
Single-Room-Architektur: Alle Teilnehmer im selben Raum. Subskriptions-Matrix regelt, wer wen hört. Phasengesteuerte Audio-Umschaltung ohne Verbindungsabbruch.
5-Phasen-Zustandsmaschine mit Timeouts und Fallbacks. Tenant-spezifische MOH (Music-on-Hold, 8 GB lizenzfreie Bibliothek). Agent-Briefing an Ziel-Kollegen. Rückkehr bei Nicht-Erreichbarkeit.
Pro Mandant: eigene API-Keys, Prompts, Stimmen, Emotions-Matrix, Wissensdatenbank, Tools, SIP-Credentials. Redis-basierte Session-Engine. Kein Cross-Tenant-Leak.
Autonome Überwachung aller aktiven Räume. Timeout-Erkennung, Raum-Löschung per API, Redis-State-Bereinigung, E-Mail-Transkript-Versand. Vollautomatisch in < 2 Sekunden.
Jeder Anruf durchläuft in Millisekunden eine Entscheidungskette, die auf sieben unabhängigen Ebenen parallel operiert:
SIP-Teilnehmer im Raum
LLM + 7 Emotions-Stimmen
WebRTC Warteschleife
Outbound SIP im Raum
GoFonIA nutzt kein generisches TTS. Jeder Tenant bekommt eine kalibrierbare Emotions-Matrix mit sieben dimensionalen Stimmprofilen — pro Mandant, pro Kampagne, pro Anruftyp individuell konfigurierbar. Die Stimme reagiert nicht nur semantisch, sondern paraverbal.
Grundzustand. Sachlich, informationsdicht. Für Statusabfragen und Faktenkommunikation.
Warm, zugewandt, offen. Für Begrüßung, Smalltalk, Service-Gespräche.
Verständnisvoll, geduldig, deeskalierend. Für Beschwerden und sensible Themen.
Verbindlich, präzise, distanziert-höflich. Für B2B, Banken, Versicherungen, Behördenkontext.
Treibend, lösungsorientiert, energisch. Für Vertriebsgespräche und Conversion-orientierte Kampagnen.
Ruhig, tief, vertrauensbildend. Für First-Level-Support, Warteschleifen, technische Hotlines.
Klar, direkt, grenzsetzend. Für Inkasso, Compliance-Prüfungen, Eskalation.
Die Emotions-Matrix arbeitet auf zwei paraverbalen Achsen: Sprechgeschwindigkeit (0.6×–2.4×) und Stimmfarbe (Frequenz-Shift ±18%). Plus kontextabhängige Pausenlogik: Der Agent weiß, wann Schweigen das mächtigere Werkzeug ist als Sprechen.
Kein AWS. Kein Google Cloud. Kein Azure. GoFonIA läuft auf dedizierten Hetzner-Rootservern in Frankfurt am Main und Nürnberg — virtualisiert über Proxmox, orchestriert in isolierten LXC-Containern.
Pro Mandant: isolierter LXC-Container mit eigenem Redis-Store, eigenen API-Keys, eigenen Prompt-Versionen und eigener SIP-Registrierung. Kein Shared Memory. Kein Cross-Tenant-Datenfluss. Jeder Container ist ein autarkes Telefonie-System, das einzeln gesichert, migriert und skaliert werden kann.
In besonders sensiblen Bereichen setzen wir ausschließlich europäische KI ein — Mistral AI (Paris) und Infomaniak (Schweiz) für LLM, TTS und STT. Auf Wunsch vollständig on-premise: Unser gesamter Stack — LLM, TTS, STT und Call Control Layer — läuft auf Ihrer eigenen Hardware. Konzipiert für Banken, Versicherungen, Behörden, Rechtsanwälte und das Gesundheitswesen. Der Betrieb erfolgt vollständig DSGVO-konform auf Servern der Hetzner Online GmbH mit Auftragsverarbeitungsvertrag nach Art. 28 DSGVO.
Jedes Byte, das GoFonIA verarbeitet, bleibt auf Servern der Hetzner Online GmbH in Frankfurt am Main und Nürnberg. Die eingesetzten KI-Modelle — Mistral AI (Paris) und Infomaniak (Schweiz) — haben ihren rechtlichen Sitz in der Europäischen Union. Standardmäßig US-frei. Für sensible Branchen (Banken, Versicherungen, Behörden, Rechtsanwälte, Gesundheitswesen) liefern wir den gesamten Stack on-premise auf Kundenhardware aus.
Kein US-Cloud Act. Keine Drittland-Übermittlung. Kein stillschweigender Datenabfluss. §203 StGB-konform. DSGVO-auditiert. Einmalig im DACH-Raum.
Der Call Control Layer von GoFonIA ist nicht darauf ausgelegt, menschliche Agenten zu ersetzen. Er ist darauf ausgelegt, die Arbeitsteilung zwischen Mensch und Maschine neu zu definieren.
Routine-Anrufe — Terminvereinbarungen, Statusabfragen, einfache FAQ — werden vollständig autonom vom KI-Agenten abgewickelt. Komplexe Fälle — Reklamationen, Verhandlung, Beratung — werden mit vollständigem Kontext und strukturiertem Briefing an einen menschlichen Kollegen übergeben. Der Kollege übernimmt das Gespräch ohne Einarbeitungszeit, weil der Agent bereits alles geklärt und dokumentiert hat.
Das Ergebnis: Callcenter werden nicht kleiner. Sie werden besser. Die repetitive Arbeit verschwindet. Die anspruchsvolle Arbeit bleibt — und wird durch perfekte Vorbereitung entlastet. Das ist keine Automatisierung. Das ist Augmentierung.
Wir bauen keine KI, die Menschen ersetzt. Wir bauen eine Steuerungsschicht, die 17 Jahre Callcenter-Wissen in Echtzeit orchestriert — damit die Menschen im Callcenter endlich das tun können, wofür sie eigentlich da sind: komplexe Probleme lösen. Nicht Formulare ausfüllen.