Das Studium artikulatorischer Bewegungen hat ein breites Anwendungsspektrum, insbesondere bei der Generierung und Erkennung von Sprache. Es existieren sprachspezifische Mengen von Phonemen sowie deren Artikulation; dennoch enthalten aktuelle MRT-Datensätze meist Englischsprachige. In diesem Artikel stellen wir einen Datensatz zur Verfügung, der aus MRT-Scans von 10 gesunden französischen Muttersprachlern abgeleitet wurde. Um eine gute Darstellung der französischen phonetischen Umgebung zu bieten, wurde ein Korpus synthetischer Phrasen verwendet.
Die Vokaltraktbilder der Teilnehmer wurden mit Echtzeit-MRT-Geräten mit einer zeitlichen Auflösung von 20 Millisekunden aufgenommen. Der Ton wurde gleichzeitig mit dem MRT aufgenommen, dann entrauscht und mit den Bildern zeitlich abgeglichen. Die Stimme wurde transkribiert, um eine Phonem-für-Phonem-Tonsegmentierung bereitzustellen. Für eine große Anzahl französischer Phoneme haben wir auch statische 3D-MR-Bilder gesammelt. Anmerkungen zum spontanen Schlucken sind ebenfalls enthalten.
Die Untersuchung der Sprachartikulatorbewegung hat eine Vielzahl von Anwendungen, einschließlich der Sprachproduktion1, der Spracherkennung2 und einiger medizinischer Anwendungen, wie der Diagnose und Rehabilitation von abnormalem Sprechen und Schlucken sowie der Untersuchung von ortho-fazialen Strukturen, die am Schlafapnoe-Syndrom beteiligt sind3. Zur Erfassung von Bewegungsinformationen können verschiedene Techniken wie elektromagnetische Artikulographie (EMA)4, Röntgen5 und Ultraschall6 verwendet werden. Aufgrund ihrer Nicht-Invasivität und des Fehlens langfristiger Gesundheitsrisiken ist die Magnetresonanztomographie (MRT) heute eine der am häufigsten verwendeten Datenerhebungsmethoden in der Sprachwissenschaft7,8,9,10.
Matplotlib 3D Plot
Im Gegensatz zu anderen Methoden wie Ultraschall, die die vom Sensor durch Luft getrennten Artikulatoren nicht sichtbar machen, oder EMA, die nur die Trajektorien der Sensoren an den oberen Artikulatoren des Vokaltrakts zeigt, gelingt es, den gesamten Vokaltrakt zu sehen.
Aufgrund der schnellen Bewegung von Artikulatoren ist die MR-Bildgebung einer sprechenden Person ein schwieriges Thema. Cine-MRI11,12 ist eine der Methoden, die eine gute räumlich-zeitliche Auflösung der aufgezeichneten Sprache ermöglicht. Diese Technik erfordert jedoch viele identische Wiederholungen derselben Zielphrase, was in nicht periodischen Situationen Artefakte verursacht und die Erfassungszeit verlängert. Echtzeit-MRT, die typischerweise auf verdorbenen Gradientenechosequenzen basiert8,13,14, bietet eine große räumlich-zeitliche Auflösung ohne Wiederholung. Die Verwendung nichtkartesischer (normalerweise unterabgetasteter) Verfahren, die eine ausreichende Abdeckung des k-Raum-Zentrums gewährleisten, kann die Erfassung beschleunigen. Mehrere Forschungsorganisationen haben diese Methode verwendet, um Sprache zu untersuchen. In15,16 wurde eine Spiralcodierungstechnik verwendet, und dann wurden sparse-SENSE Constrained Rekonstruktionsmethoden verwendet8,17. Ein radiales Kodierungsverfahren wurde mit einer komprimierten SENSE-Rekonstruktion in 18,19 verwendet. Bei der Technik werden radiale Abtastung und regularisierte nichtlineare Inversionsrekonstruktion verwendet20. Für die dynamische 3D-Bildgebung des Vokaltrakts wurde ein anderer Ansatz14,21 verwendet, der keine nicht-kartesische Kodierung erforderte.
Die gemeinsame Nutzung von Daten kann die Forschung in diesem Bereich erheblich beschleunigen, da die oben genannten Tools nicht allgemein zugänglich sind. In diesem Bereich existieren mehrere Datenbanken für Englischsprachige. In 22 und 16 wurden Echtzeit-MRT-Datensätze mit 460 Sätzen von 4 bzw. 10 Sprechern gesprochen. Sowohl Echtzeit- als auch statische 3D-MRT sind in den Datenbanken23 und24 enthalten, die von 17 bzw. 8 Sprechern bezogen wurden. Im Jahr 2015 wurde ein Datensatz emotionaler Sprache von zehn Sprechern veröffentlicht. Kürzlich wurde ein umfangreicher Datensatz mit 75 englischsprachigen Personen präsentiert25. Andere Sprachen hingegen haben extrem eingeschränkte MRT-Datensätze. Ein dynamisches 2D-MRT einer portugiesischen Sprecherin mit einer zeitlichen Auflösung von 7 Bildern pro Sekunde wurde in 26 berichtet. 27 zeigt statische 3D-MR-Bilder von fünf japanischen Vokalen, die von einem einzelnen männlichen Sprecher gesprochen werden. Eine Sammlung von 3D-Geometrien des Vokaltrakts für zwei deutsche Muttersprachler wurde kürzlich veröffentlicht28. Eine 2D-Dynamik mit einer statischen 3D-MRT-Datenbank wurde ebenfalls früher erstellt29, die zwei männliche Französischsprecher umfasste. Dennoch erlauben die bereitgestellten Daten keine gründliche Untersuchung dieser Sprachen. Da sie alle von demselben Forschungsteam gesammelt werden, verwenden alle aktuellen öffentlich zugänglichen Datensätze, die eine dynamische MRT mit hoher räumlich-zeitlicher Auflösung bieten, vergleichbare Erfassungsmethoden. Die Verfügbarkeit von Datensätzen verschiedener Qualitätsstufen kann dazu beitragen, die Genauigkeit in bestimmten Bereichen zu verbessern.
Wir bieten eine multimodale MRT-Sammlung von 10 Vokaltrakten französischer Sprecher, die 2D-Echtzeit- und statische 3D-MR-Bilder umfasst. Mehrere Gruppen haben die Methodik für Echtzeit-MRT-Erfassungen für unseren Datensatz im Rahmen der Artikulatorbewegungsforschung erfolgreich eingesetzt30,31,32,33. Es ist wichtig, die Vielfalt der Bewegungen der Stimmtraktorgane während der Sprachproduktion zu untersuchen, während man sie erforscht. 35 Phoneme (18 Konsonanten, 14 Vokale, 3 Halbvokale) bilden die französische Standardsprache, was zu 1290 Diphonen34 und vielen komplizierten Konsonantenklusionen führt ter. Ein Korpus wurde zuvor entwickelt29, um so viel Vielfalt wie möglich zu umfassen. Das Korpus ermöglicht es Forschern, eine Vielzahl von französischsprachigen Phänomenen zu untersuchen, darunter Nasenvokale, Zäpfchen //35, Französisch /y/, kurz // und eine signifikante Antizipation von Labialmerkmalen36. Die Sammlung enthält Anmerkungen zur Sprache und zum spontanen Schlucken und liefert den Forschern Daten, die ein breites Spektrum der französischen Phonetik abdecken und es ihnen ermöglichen, die französische Sprachproduktion und physiologische Prozesse rund um den Vokaltrakt besser zu untersuchen.