AudioMagic TX per USB

Worum gehts ?

Moderne Transceiver (TRX) werden immer noch mit "old-fashioned" PTT-Mikrofonen bei Voice-Betrieb genutzt. Im Gegensatz dazu werden die digitalen Betriebarten aber per USB betrieben. Warum eigentlich ? Wir quälen uns unnötiger Weise mit Übertragern, Mischpulten, Equalizern, Filtern und ähnlichem herum um das Optimum bei SSB herauszuholen. Warum nutzen wir nicht den (fast) rein digital Weg. Zugegeben, der erste Schritt wird immer noch durch Schallwellen (unsere Sprache) initiiert. Aber von dort an könnten wir eigentlich digital weitermachen. Was fehlt eigentlich und welche Vorteile bieten sich ?

Zuerst einmal die Steuerung. Das ist im Falle von ICOM (aber auch allen anderen in ähnlicher Art und Weise) durch das CI-V Protokoll recht perfekt umgesetzt. Wir müssen also die digitalen Audiosignale und die digitalen Steuersignale an den TRX senden und empfangen, um einen Funkbetrieb zu bekommen. Betrachten wir einmal die digitalen Schnittstellen moderner Transceiver am Beispiel des ICOM 7300.

ICOM bedient sich eines Silicon Labs CP2102 Chips (einer USB-TO-UART BRIDGE) für die Steuerung per CI-V Protokoll und eines Texas Instruments PCM2901 Audio Codec Chips für die digitale Audio Übertragung.

Wichtiger Hinweis bei Anschluss des TRX an einen Computer oder an den AudioMagic Server: Bitte verwenden Sie immer einen USB Digital Audio Signal Isolator um Brumm- und Masseschleifen zu verhindern.

Mit der gleichen Einstellung wie wir sie auch für die Nutzung digitaler Betriebsarten verwenden, können wir genauso gut auch Stimme übertragen und den Transceiver steuern. Was braucht es dazu ? Im simpelsten Fall (Theorie) eine schlichte Verbindung eines USB-Headsets (so wie sie auch Gamer verwenden) mit einer Fußtaste, die wie ein Computer-Keybard arbeitet. Nicht fehlen darf etwas Software, was das Keyboard (Fußtaste) in den Befehl "PTT" im CI-V Protokoll abschickt. Soweit die Theorie.

Nun zur Praxis und was man damit anstellen kann:

Mit dem richtigen Hang zur Programmierung und der Hilfe künstlicher Intelligenz eine unglaubliche Menge, denn wenn wir schon den analogen Pfad verlassen und ins Digitale wechseln, machen wir es richtig ! Betrachten wir erstmal die "alten Zöpfe" die wir damit abschneiden können !

Beim Senden: Brummen, Pegel( zu leise, zu laut Übersteuert), Modulation des Grauens, speziell in SSB (DX, PileUp, Ragchew)
Beim Empfangen: Rauschen, Prasseln, schwer verständlich, bei längerem Zuhören Ermüdung. (siehe Blog-Beitrag: AudioMagic RX per USB)

Um diesen beiden Problemen zu begegnen, habe ich ca. 6 monate recherchiert und einen "Schlachtplan" entworfen, was eine Software können muss, bevor es an die Umsetzung ging.

Beim Senden

Problemstellung 1:

Menschliche Stimmen unterscheiden sich stark, nicht nur zwischen den Geschlechtern. Als Konsequenz muss also eine Stimmencharacterisierung her, die eine Stimmen-DNA erstellen kann bei der das Mikrofon ebenfalls eine Rolle spielt. Mikrofone haben unterschiedliche Characteristiken nicht nur in Bezug auf die Art der Schallwandlung (ein Kondensatormikrofon reagiert wesentlich empfindlicher als ein dynamische Mikrofon), sondern auch in Bezug auf die Richtcharcteristik wie Niere, Kugel, Acht und Keule, sowie die Größe des Schallwandlers (eine Großmembran klingt voller als ein kleines Ansteckmikrofon).

Wie characterisiert man nun diese "Klangwelt". Hier fiel mir bei der Recherche das Projekt "VOXplot" auf. VOXplot ist eine Open-Source-Software für die objektive, akustische Stimmqualitätsanalyse. Sie dient Fachleuten wie Logopäden und Sprachwissenschaftlern dazu, Stimmstörungen (wie Heiserkeit oder Behauchtheit) zuverlässig zu bewerten. Soweit die Beschreibung und damit eigentlich nicht das was wir suchen. Aber die Idee dahinter ist bestechend. Ein System bestimmt die Stimm & Mikrofon DNA nach bestimmten Kriterien einfach durch Sprechen eines Mustersatzes, gefolgt von "AAAAAAA". Hier einmal die durch die Analyse zu bestimmenden Werte:

Screenshot%202026-05-20%20at%2013.40.14

Die Charakteristik selbst wie Körper, Boom, Klarheit, Dynamik, Hart, Nasal, Rumpel, Zischlaute; Die Energie der Stimme in Peak_dB, sowie RMS_dB; und die Umgebungs-Geräusche Noise_floor_dB.

Problemstellung 2:

Soweit, so gut - die Stimme ist also standardisiert characterisierbar! Jetzt galt es ein "Modulationssystem" (Voice-Engine) zu kreieren, welches jede Stimme in Richtung DX, PileUp, Ragchew und Broadcast zu verfeinern. Bei einer tiefgehenden Recherche kamen dabei folgende notwendigen Characteristiken heraus, würde die Stimme "neutral" sein, was sie aber niemals ist. Daher beeinflusst schon hier der Equalizer das Klangbild entsprechend der Stimm-DNA:

RAGCHEW (Der natürliche Plauder-Modus)

Ziel: Entspanntes Zuhören über längere Zeit. Die Stimme soll warm, nah und ermüdungsfrei klingen, ohne künstlich zu wirken.

Bandbreite (Filter): Sanft beschnitten. Hochpass (HPF) bei 80 Hz entfernt tiefes Rumpeln, Tiefpass (LPF) bei 3200 Hz kappt unnötiges Rauschen.
Equalizer (EQ): * Low: +4.0 dB bei 150 Hz (Fügt der neutralen Stimme deutlich Wärme/Körperbau hinzu).
- Mid: -3.0 dB bei 800 Hz (Nimmt den "Pappkarton"- oder "Matsch"-Klang heraus).
- High: +3.0 dB bei 2700 Hz (Hebt die Sprachverständlichkeit leicht an).
Dynamik (Kompression): Sehr sanft. Eine Ratio von 2.5:1 fängt nur die lauten Spitzen ab. Die Attack-Zeit ist entspannt (15 ms), wodurch Konsonanten natürlich durchkommen.
Effekte: Nur ein minimaler Exciter (10 % / Amount 0.1) ab 4000 Hz, um den Höhen etwas "Glanz" (Sparkle) zu verleihen.

DX (Weitverkehr)

Ziel: Die Stimme muss durch Rauschen (QRN) und atmosphärische Störungen lesbar bleiben. Natürlichkeit wird zugunsten von Artikulation geopfert.

Bandbreite (Filter): Stark beschnitten. Der Hochpass schneidet aggressiv alles unter 250 Hz bis 320 Hz ab (je nachdem, wie viel "Body" die Stimm-DNA von Haus aus hat). Die gesamte Energie wird auf die wichtigen Frequenzen fokussiert.
Equalizer (EQ):
- Low: -2.0 dB bei 400 Hz (Entfernt den Restwärme-Matsch, der im Rauschen untergehen würde).
- Mid: +6.0 dB bei 2400 Hz (Massiver Boost im Präsenzbereich! Hier sitzt die menschliche Artikulation).
- High: 0.0 dB bei 4000 Hz.
Dynamik (Kompression): Deutlich härter. Ratio 4.0:1 mit sehr schnellem Zugriff (Attack 2 ms). Der Durchschnittspegel (RMS) der Stimme wird massiv angehoben (+6 dB Makeup Gain), damit auch leise Silben mit voller Leistung gesendet werden.
Effekte: Der Exciter wird auf 30 % (Amount 0.3) hochgefahren und leicht übersteuert (Drive 1.5). Er generiert künstliche Oberwellen ab 2000 Hz, die das menschliche Gehör selbst dann noch wahrnimmt, wenn das Originalsignal im Rauschen verschwindet.

PILEUP (Der Brecher)

Ziel: Absolute Dominanz auf der Frequenz. Durchdringen von starkem QRM (anderen Stationen). Die Stimme wird zu einer akustischen Waffe geformt.

Bandbreite (Filter): Extrem. HPF liegt variabel zwischen 300 Hz und 450 Hz. Es existieren de facto keine Bässe mehr. LPF bei 2800 Hz.
Equalizer (EQ):
- Low: 0.0 dB bei 500 Hz.
- Mid: +12.0 dB bei 2100 bis 2400 Hz (Ein brutaler, nadelartiger Boost, um exakt die Frequenzen zu treffen, auf die das menschliche Ohr am empfindlichsten reagiert).
- High: +4.0 dB bei 3200 Hz (Scharfe Artikulation).
Dynamik (Kompression): Brickwall-Limiting! Ratio 8.0:1 mit 1 ms Attack. Jede Silbe wird praktisch auf das gleiche Maximum gepresst. +14 dB Makeup Gain bedeuten, dass der Sender durchgehend fast 100 % der erlaubten Leistung abstrahlt.
Effekte: Der psychoakustische Exciter läuft auf Hochtouren (Amount 0.5, Drive 3.0). Er fügt dem Signal aggressive harmonische Verzerrungen hinzu, die es messerscharf machen.

BROADCAST (Der Studio-/FM-Sound)

Ziel: "Voice of God". Breitbandig, extrem bassig, wie ein Radiomoderator (Podcaster). Benötigt ein sehr gutes, störungsfreies Signal.

Bandbreite (Filter): Weit offen! HPF erst bei 150 Hz, LPF geht bis hoch auf 10.000 Hz.
Equalizer (EQ):
- Low: 0.0 dB bei 150 Hz.
- Mid: -5.0 dB bei 600 Hz (Ein starker "Scoop" der Mitten. Das ist der klassische Trick für den modernen Radiosound).
- High: +6.0 dB bei 2800 Hz (Sehr crispe, klare Höhen).
Dynamik (Kompression): Sehr dickflüssig. Ratio 3.0:1 bei 10 ms Attack und 200 ms Release. Hält die Lautstärke konstant hoch, atmet aber noch natürlich.
Effekte: Hier wird der Psychoakustische Sub-Harmonic Synthesizer (Bass Enhancer) aktiviert! Er liest den Bereich zwischen 60-150 Hz aus und generiert künstliche tiefe Bass-Obertöne, um auch dünneren Stimmen das "FM-Radio-Gewicht" zu geben.

Smarte Stimm-DNA-Korrekturen (Die notwendige "Intelligenz" im Code)

Das System wendet diese Werte nicht blind an. Die Sensorik misst die Stimm-DNA (z.B. Body, Nasal, Harsh, Sibilance) und modifiziert die oben genannten Zielwerte dynamisch:

Die Anti-Nasal-Korrektur: Wenn die reine Stimm-DNA extrem nasal ist, zieht die Voice-Engine im Ragchew-, DX- und Pileup-Modus automatisch weitere -3.0 dB aus den Mitten ab, damit es nicht wie durchs Telefon klingt.
Der De-Esser (Zischlaute): Wenn die Analyse viele scharfe S-Laute misst, wird der psychoakustische Höhen-Exciter sofort um 40 % gedrosselt, um dem Zuhörer nicht im Ohr weh zu tun.
Das Auto-Ceiling (Clipping-Schutz): Der Code berechnet im Voraus, ob die massiven EQ-Boosts (z. B. die +12 dB im Pileup-Modus) das Signal über die digitale 0-dBFS-Grenze schieben würden. Falls ja, drosselt er mathematisch exakt das Makeup-Gain des Kompressors, sodass das Endsignal immer perfekt bei -2.0 dBFS (True Peak) landet, ohne jemals zu verzerren.

Kurz und gut hiermit haben wir das hypergeniale Amateurfunk Software Mischpult erfunden !!

Was könnten wir noch hinzufügen ? Profile: In der jetzigen Softwareversion stehen eine Anzahl Profile für Stimm / Mikro Kombinationen bereit sowie ein Profil für das Mikrofon des Computers bereit. Um die Stimm / Mikro DNA zu nehmen sind nur wenige Schritte notwendig. Einpegeln des Mikrofons, Aufnahme der "Stille" um das Raumprofil zu bestimmen, den Testsatz sprechen, fertig. Damit ist AudioMagic auch gleichzeitig entweder für mehrere Mikrofone und einer Person gerüstet, oder mehrere Personen und ein Mikrofon oder auch eine Kombination von beidem.

Ach ja, ein Workflow orientierter Voice-Keyer wäre auch noch schön ! - Keine Sorge ist auch drin !

Hier ein Screenshot aus der Praxis Screenshot%202026-05-20%20at%2014.39.10

OK...und was nützt mir das ?

Die Antwort ist relativ einfach:

Eine Modulation wo der Gegenüber ohne gefragt zu werden, diese lobt.
Bei DX und insbesondere bei PileUp der TRX zu Höchstleistungen animiert wird, man dümpelt nicht mehr bei 20 % der möglichen Ausgangsleistung herum, sondern bei 70 - 95% (bei korrekter Einstellung aller beeinflussenden Parameter)
Die Möglichkeit selbst innerhalb eines Durchgangs z.B. von DX auf PileUp umzuschalten
Keine tagelangen Tests mit "alten Zöpfen" um Einstellungen zu erhalten, die immer noch nicht stimmen! Neues Profil erstellen kostet 2 Minuten!!
Sich auf das wesentliche Konzentrieren, das Funken - Unbezahlbar, speziell wenn man gehört wird.

Und wie hört sich das jetzt an ?

Testaufnahmen mit einem Behrnger Ultravoice XM8500 (ca. 20 Euro) PassThru DX PileUp Ragchew Broadcast

Testaufnahme mit einem Electrovoice RE20 (ca. 670 Euro) PassThru DX PileUp Ragchew Broadcast

Testaufnahme mit einem Corsair HS80 USB Gamer Headset PassThru DX PileUp Ragchew Broadcast