![]() Systems architecture for an acoustic man/machine dialogue system
专利摘要:
公开号:WO1989003083A1 申请号:PCT/DE1988/000596 申请日:1988-09-27 公开日:1989-04-06 发明作者:Lothar Glasser;Harald Höge;Erwin Marschall;Gerhard Niedermair;Montserrat Meya-Llopart;Jorge Romano-Rodriguez;Robert J. Sommer;Otto Schmidbauer;Gregor Thurmair;Hendrich Bunt;Jan B. Van Hemert;Kees Van Deemter;Dieter Mergel;Hermann Ney;Andreas Noll;John H. M. De Vet 申请人:Siemens Aktiengesellschaft;N.V. Philips' Gloeilampenfabrieken; IPC主号:G10L15-00
专利说明:
[0001] System-Architektur für ein akustisches Mensch/Maschine- Dialogsystem [0002] Die vorliegende Erfindung betrifft eine System-Architektur für ein akustisches Mensch/Maschine-Dialogsystem mit einer Spracheingabe-Einrichtung zur Spracheingabe in das Dialogsystem einem Konfigurationssystem und einem Adaptionssystem, wobei die Spracheingabe-Eiπrichtung ein Eingangssprachsignal erzeugt. [0003] Die Mensch-Maschine Kommunikation wird heutzutage zum großen Teil mit mechanischen Hilfsmitteln, wie Tastatur, Maus, Lichtgriffel etc., geführt. Bei einem Dialogsystem der eingangs genannten Art erfolgt die Kommunikation über die menschliche Sprache. Das Dialogsystem übersetzt die sprachlich formulierten Wünsche eines Benutzers in die Sprache der Maschine. Bei der Maschine handelt es sich meist um eine EDV-Anlage, auf der eine Anwendung mit stark formalisierten Ein/Ausgabeprozeduren der Maschinensprache - implementiert ist (siehe Fig. 1). [0004] Die Sprachein/ausgabe kann über ein Sprach-Terminεl mit zusätzlichen Hilfsmitteln (Bildausgabe, Lichtgriffel etc.) oder über ein Telefon erfolgen. Als EDV-Anwendungen sind z. B. automatische Auskunfts- und Beratungsdienste, wie Bahn- und Flugauskunft, automatische Transferdienste, wie Buchung oder Bestellung nach Katalog, oder Büroverwaltungsdienste denkbar. [0005] Zur Realisierung eines Dialogsystems müssen Methoden der automatischen Spracherkennung, der linguistischen Texterschließung und der Dialogführung miteinander in einem Gesamtsystem mit einer geeigneten Architektur vereinigt werden. Einige Architekturen sind bereits vorgeschlagen worden, die jedoch im Sinne eines Gesamtsystems unvollständig sind und zum Teil zu sehr ineffizienten Realisierungen führen, vergl. z. E. G. Goodman, R. Reddy "Alternative Control Structures for Speech Understanding Systems" in 'Trends in Speech Recognition', Prentice-Hall, Signal/Processing Series, 1980. [0006] Die Interpretation fließend gesprochener Sprache wurde bisher für sehr eingeschränkte Anwendungen nur im Forschungsbereich realisiert, wobei noch kein technischer Reifegrad für den praktischen Einsatz erreicht wurde, vergl. z. B. B. Lowerre, R. Reedy "The Harpy Speech Understanding System" in 'Trends in Speech Recognition', Prentice-Hall, Signal Processing Series, 1980. [0007] Fig. 2 zeigt den prinzipiellen Aufbau eines Mensch-Maschine-Dialogsystems, das aus den Systemen Konfigurierungssystem, Adaptionssystem und Dialogsystem besteht. Der Kern des Systems stellt das Dialogsystem dar, welches den Dialog zwischen einem Benutzer und einer EDV-Anwendung führt. Das Konfigurierungssystem dient zur Anpassung des Dialogsystems an die jeweilige EDV-Anwendung. Hier wird der für den Dialog benötigte anwendungsspezifische Wortzschatz mit seinen begrifflichen Beziehungen (syntaktisch/semantisch/pragmatische Relationen) eingegeben. [0008] Aufgabe des Adaptionssystem ist es, das Dialogsystem an die Stimmcharakteristik des jeweiligen Benutzers anzupassen. Hierdurch erhöht sich die Erkennungsleistung des Dialogsystems, was zu einem reibungsloseren Dialogbetrieb führt. [0009] Der vorliegenden Erfindung liegt die Aufgabe zugrunde, eine System-Architektur der eingangs genannten Art zu schaffen, mit dere Hilfe es möglich ist, ein arbeits- und leistungsfähiges Mensch/Maschine-Dialogsystem zu realisieren, das mittels vorgegebener gesprochener Wortfolgen Anweisungen, Befehle, Fragestellungen usw. an eine EDV-Anlage richten kann und Antworten oder Rückfragen der EDV-Anlage verarbeiten und fallweise in Form synthetischer Sprache und/oder in Form einer Eildschirmanzeige an den Benutzer weitergeben kann. Die der vorliegenden Erfindung zugrundeliegende Aufgabe wird durch eine System-Architektur der eingangs genannten Art und gemäß dem Oberbegriff des Patentanspruchs 1 gleöst, die erfindungsgemäß durch die im kennzeichnenden Teil des Patentanspruchs 1 angegeben Merkmale charakterisiert ist. [0010] Vorteilhafte Weiterbildungen der Erfindung sind durch die in den Unteransprüchen angegebenen Merkmale gekennzeichnet. [0011] Im folgenden wird die vorliegende Erfindung anhand mehrerer Figuren im einzelnen beschrieben. [0012] Fig. 1 zeigt wie bereits erläutert, den grundsätzlichen Aufbau eines Blockschaltbildes eines zu realisierenden Gesamtsystems, wie es bereits in der Fachwelt diskutiert wurde. [0013] Fig. 2 zeigt, wie ebenfalls bereits erläutert, in mehr Einzelheiten ein Blockschaltbild des gemäß Fig. 1 vorzusehenden Mensch/Maschine-Dialogsystems. [0014] Fig. 3 zeigt ein Blockschaltbild der erfindungsgemäßen SystemArchitektur des in Fig 2 dargestellten Mensch/MaschineDialogsystems. [0015] Die Architektur des Dialogsystems 30 wie sie in Fig. 3 gezeigt ist, besteht aus einem Erkennungsmodul mit den Einheiten "Signalanalyse" 31, "Wortfolgengenerierung" 32 und "Syntaktischsemantisch-pragmatische Inhaltsanalyse" 33, einer Dialogsteuerungs-Einheit 34 mit Anpassung zur EDV-Anwendung und Antwortgenerierungs-Einheit 35. [0016] Im Erkennungsmodul wird das von einem Mikrofon kommende Sprachsignal eines Benutzers interpretiert und in eine inhaltsorientierte Darstellung gebracht. Hierbei erfolgt zunächst eine Analyse des Sprachsignals im Hinblick auf sprachspezifische Merkmale. In der Wortfolgengenerierungseinheit werden die Merkmale mit Hilfe eines phonetischen Wortlexikons 322 auf Wortfolgen abgebildet. Im allgemeinen ist diese Abbildung wegen der begrenzten akustischen Signalanalyse nicht eindeutig, dem durch paralleles Verfolgen von möglichen Wortfolgen (Wortfolgenhypothesen) Rechnung getragen wird. Die Anzahl der Wortfolgenhypothesen kann sehr groß werden. Dieser Aufwand kann durch ein Sprachmodell 323, in welchem die mögliche Reihenfolge von Worten auf Grund der EDV-Anwendung abgespeichert ist, erfolgen, wodurch nur "gültige" Wortfolgenhypothesen betrachtet werden müssen. Die Prüfung auf gültige Wortfolgenhypothesen kann auch bei der Inhaltsanalyse durchgeführt werden, wobei aufgrund linguistischer Regeln die sinnvollen Wortfolgen aus den Wortfolgehypothesen herausgefiltert werden. Zur Gewinnung der einzig richtigen Wortfolge werden zusätzlich statistische Methoden angewendet, indem die Wahrscheinlichkeit, mit der die akustischen Merkmale auf die Wortfolge abgebildet wird, berechnet und diejenige Folge mit der höchsten Wahrscheinlichkeit als interpretierte Äußerung des Benutzers an die Dialogsteuerungs-Einheit 35 weitergegeben wird. Die Dialogsteuerungs-Einheit 35 entscheidet, ob der Inhalt der Äußerung für die Anwendung einen "Sinn" ergibt, oder ob noch ein weiterer Dialog mit dem Benutzer geführt werden muß. Bei einer sinnvollen Anfrage wird die inhaltsorientierte Äußerungsdarstellung des Dialogsystems in einen für die EDV-Anwendung verständliche Maschinensprache überführt. Bei Rückmeldungen der EDV-Anwendung wird diese wieder in eine inhaltsorientierte Darstellung des Dialogsystems 30 gebracht und für diese Antwort generiert. Die Ausgabe der Antwort erfolgt entweder akustisch durch Sprachsynthese oder bildhaft durch ein Bildterminal. [0017] Die Architektur des Dialogsystems 30 erlaubt eine einfache Konfigulierung an verschiedenartige EDV-Anwendungen durch Umstrukturierung der Datenbasen "Phonetisches Lexikon", "Sprachmodell", "Linguistische Regeln" und "Wortlexikon" und durch Neugestaltung der Anpassung an die E/A-Prozedur. Die Adaption an die Sprechercharakteristik des Benutzers erfolgt über ein Lautlexikon 321, bei dem durch ein Benutzertraining die sprecherspezifischen Daten eingetragen werden. [0018] Die erfindungsgemäße Architektur eignet sich auch für eine Echtzeitrealisierung. Aufgrund der benötigten hohen Rechenleistungen können die verschiedenen Moduln als getrennte Verarbeitungseinheiten realisiert werden, so daß parallel mit mehreren Moduln gleichzeitig gearbeitet werden kann.
权利要求:
ClaimsPatentansprüche 1. System-Architektur für ein akustisches Mensch/Maschine-Dialogsystem, mit einer Spracheingabe-Einrichtung zur Spracheingabe in das Dialogsystem, einem Konfigurationssystem und einem Adaptionssystem, wobei die Spracheingabe-Einrichtung ein Eingangssprachsignal erzeugt, g e k e n n z e i c h n e t durch - eine Signalanalyse-Einheit (31), die eine Eingangseinrichtung des Dialogsystems (30) bildet und der das Eingangssprachsignal zugeführt wird, - eine der Signalanalyse-Einheit (31) nachgeschaltete Wortfolgengenerierungs-Einheit (32) zum Generieren von Wortfolgen, wobei der Wortfolgengenerierungs-Einheit (32) ein Lautlexikon-Baustein (321), ein phonetischer Wortlexikon-Baustein (322) und ein Sprachmodell-Baustein (323) zugeordnet sind, - eine der Wortfolgengenerierungs-Einheit (32) nachgeschaltete Inhaltsanalyse-Einheit (33) zur Durchführung einer syntaktisch-semantisch-pragmatischen Inhaltsanalyse, wobei der Inhaltsεnalyse-Einheit (33) ein Baustein für syntaktischsemantisch-pragmatische Regeln (331) und ein Baustein für ein linguistisches Wortlexikon (332) zugeordnet sind, - eine der Inhaltsanalyse-Einheit (33) nachgeschεltete Dialogsteuerungs-Einheit (34), der ein Baustein (341) zur Anpassung an eine Eingabe/Ausgabe-Prozedur für EDV-Anwendungen zugeordnet ist, - eine Antwortgenεrierungs-Einheit (35) der ein Baustein "phonetisch-linguistisches Wortlexikon" (351) zugeordnet ist, zum. Erzeugen eines synthetischen Sprachsignals und eines Bildsignals, und dadurch - daß der Lautlexikon-Baustein (321) an einer Schnittstelle zwischen der Architektur und dem Adaptionssystem (ADS) und alle übrigen Bausteine (322, 323, 331, 332, 341, 351) an einer Schnittstelle zwischen der Architektur und der Konfigurationssystem (KFS) angeordnet sind. 2. Architektur nach Anspruch 1, dadurch g e k e n n z e i c h n e t , daß das von einem Mikrophon erzeugte Sprachsignal eines Benutzers in dem Erkennungsmodul, das aus der Signalaπalyse-Einheit (31), der Wortfolgengenerierungs- Einheit (32) und der Inhaltsanalyse-Einheit (33) gebildet ist, interpretiert wird und in eine inhaltsorientierte Darstellung umgesetzt wird. 3. Architektur nach Anspruch 1, dadurch g e k e n n z e i c h n e t , daß in der Wortfolgengenerierungs-Einheit (32) die Sprachsignal-Merkmale mit Hilfe des phonetischen Wortlexikon-Bausteins (322) auf Wortfolgen abgebildet werden . 4. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i e h n e t , daß ein Sprachmodell in dem Sprachmodell-Baustein (323) in welchem mögliche Reihenfolgen von Worten auf Grund bestimmter EDV-Anwendungen abgespeichert ist, mit dessen Hilfe nur "gültige" Wortfolgenhypothesen geprüft werden müssen. 5. Architektur nach einem der Ansprüche 1 bis 3, dadurch g e k e n n z e i c h n e t , daß die Prüfung auf "gültige" Wortfolgenhypothesen durch eine Inhaltsanalyse in der Inhaltsanalyse-Einheit (33) durchgeführt wird, wobei aufgrund linguistischer Regeln die jeweils sinnvollen Wortfolgen aus den Wortfolgenhypothesen herausgefiltert werden. 6. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß zur Gewinnung der einzig richtigen Wortfolge für einen bestimmten Vorgang zusätzlich statistische Methoden angewendet werden, in dem die Wahrscheinlichkeit, mit der die akustischen Merkmale auf die Wortfolge abgebildet wird, berechnet und diejenige Folge mit der höchsten Wahrscheinlichkeit als interpretierte Äußerung des Benutzers an den Dialogsteuerungsmodul weitergegeben wird. 7. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß der Dialogsteuerungsmodul entscheidet, ob der Inhalt der Äußerung für die EDV-Anwendung einen "Sinn" ergibt oder ob noch ein weiterer Dialog mit dem Benutzer geführt werden muß. 8. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß die inhaltsorientierte Äußerungsdarstellung des Dialogsystems bei einer "sinnvollen" Anfrage in eine für die betreffende EDV-Anwendung verständliche Maschinensprache umgesetzt wird. 9. Architektur nach einem der Ansprüche 1 bis 7, dadurch g e k e n n z e i c h n e t , daß bei einer Rückmeldung anläßlich der betreffenden EDV-Anwendung diese Rückmeldung in eine inhaltsorientierte Darstellung des Dialogsystems umgesetzt wird und daß ein Antwortsignal generiert wird. 10. Architektur nach Anspruch 9, dadurch g e k e n n z e i c h n e t , daß eine Ausgabe des Antwortsignals entweder akurtisch durch Sprachsynthese oder bildhaft durch ein Bild-Terminal durchgeführt wird. 11. Architektur nach Anspruch 1, dadurch g e k e n n z e i c h n e t , daß für verschiedenartige EDV-Anwendungen eine Umstrukturierung der Datenbasen "phonetisches Lexikon", "Sprachmodell", "linguistische Regeln" und "Wortlexikon" sowie eine Neugestaltung der Anpassung an die betreffende Eingabe/Ausgabe-Prozedur zur einfachen Konfigurierung für verschiedenartige EDV-Anwendungen durchgeführt wird. 12. Architektur nach Anspruch 1, dadurch g e k e n n z e i c h n e t , daß eine Adaption an die Sprechercharakteristik des Benutzers über das Lautlexikon erfolgt, in das durch ein Benutzertraining die speichersoezifischen Daten einoetraαen werden. 13. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß ein Echtzeitbetrieb vorgesehen ist. 14. Architektur nach einem der vorhergehenden Ansprüche, dadurch g e k e n n z e i c h n e t , daß zur Erhöhung der Rechengeschwindigkeiten verschiedene Moduln in getrennten Verarbeitungseinheiten realisiert sind, so daß eine Vielzahl von Moduln zeitparallel arbeiten kann.
类似技术:
公开号 | 公开日 | 专利标题 US9548051B2|2017-01-17|System and method of spoken language understanding in human computer dialogs US9626959B2|2017-04-18|System and method of supporting adaptive misrecognition in conversational speech US10027662B1|2018-07-17|Dynamic user authentication Chow et al.1987|BYBLOS: The BBN continuous speech recognition system Bahl et al.1988|Acoustic Markov models used in the Tangora speech recognition system Ward1990|The CMU air travel information service: Understanding spontaneous speech Zue1994|Toward systems that understand spoken language Soong et al.1990|A Tree. Trellis Based Fast Search for Finding the N Best Sentence Hypotheses in Continuous Speech Recognition Black et al.2003|Building synthetic voices US7197460B1|2007-03-27|System for handling frequently asked questions in a natural language dialog service EP0838073B1|2002-07-24|Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz US7383182B2|2008-06-03|Systems and methods for speech recognition and separate dialect identification EP0867857B1|2005-03-09|Registrierung für die Spracherkennung US8180647B2|2012-05-15|Automated sentence planning in a task classification system US6073091A|2000-06-06|Apparatus and method for forming a filtered inflected language model for automatic speech recognition Glass1999|Challenges for spoken dialogue systems US5933804A|1999-08-03|Extensible speech recognition system that provides a user with audio feedback US8036893B2|2011-10-11|Method and system for identifying and correcting accent-induced speech recognition difficulties JP5142720B2|2013-02-13|デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話 ES2391454T3|2012-11-26|Identificación automática de llamadores telefónicos en base a las características de voz US20140149121A1|2014-05-29|Method of Handling Frequently Asked Questions in a Natural Language Dialog Service US7143035B2|2006-11-28|Methods and apparatus for generating dialog state conditioned language models EP1163665B1|2009-01-28|System und verfahren zur zweiseitigen kommunikation zwischen benutzer und system US8209186B2|2012-06-26|Method for automated sentence planning in a task classification system Averbuch et al.1987|Experiments with the TANGORA 20,000 word speech recognizer
同族专利:
公开号 | 公开日 DE3732849A1|1989-04-20|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
法律状态:
1989-04-06| AK| Designated states|Kind code of ref document: A1 Designated state(s): JP US | 1989-04-06| AL| Designated countries for regional patents|Kind code of ref document: A1 Designated state(s): AT BE CH DE FR GB IT LU NL SE |
优先权:
[返回顶部]
申请号 | 申请日 | 专利标题 相关专利
Sulfonates, polymers, resist compositions and patterning process
Washing machine
Washing machine
Device for fixture finishing and tension adjusting of membrane
Structure for Equipping Band in a Plane Cathode Ray Tube
Process for preparation of 7 alpha-carboxyl 9, 11-epoxy steroids and intermediates useful therein an
国家/地区
|