Durch die Digitalisierung werden zunehmend umfangreiche Text- und Datenbestände verfügbar. Das Projekt stellt sich der Herausforderung, dass es für deren effiziente Nutzung in den Geisteswissenschaften notwendig ist, innovative Verfahren zu entwickeln, welche die automatische Informationsextraktion erlauben und die darauf aufbauende Wissensgenerierung befördern.
Das Vorhaben befasst sich mit der automatischen Extraktion, Strukturierung und Vernetzung von Fachinformationen aus Text- und Datensammlungen. Außerdem wird die Nutzung solcher Informationsnetzwerke für die Beantwortung geisteswissenschaftlicher Fragestellungen behandelt. Erster Anwendungskontext ist die deutsche und französische Literaturgeschichte. Die Übertragbarkeit der Verfahren auf andere Disziplinen wird aber von Anfang an mitgedacht. Das Projekt berücksichtigt unterschiedliche Arten von Texten: von leicht strukturierten Texten (bspw. bibliografische Verzeichnisse) über geisteswissenschaftliche Sachtexte (bspw. literaturgeschichtliche Fachliteratur) bis hin zu literarischen Texten (bspw. Romane).
Als Kernanliegen werden interdisziplinäre Lösungsansätze entwickelt, wobei konzeptuelle, geisteswissenschaftliche, informatische, rechtliche und infrastrukturelle Fragestellungen und Verfahren ineinandergreifen.
Rechtswissenschaftliche Handreichungen
Im Rahmen der rechtswissenschaftlichen Begleitung des Projekts werden rechtliche Themenfelder identifiziert, die im Projektkontext exemplarisch auftauchen. Diese werden dann in Form von Handreichungen abstrahiert aufbereitet. Die verfassten Handreichungen erscheinen in der PAPERSERIES des IRDT. Sie machen es sich u.a. zum Ziel, rechtliche Rahmenbedingungen beim Einsatz von Text und Data Mining in den Geisteswissenschaften über den Projektkontext hinaus darzustellen.
Die Präsentation von Textteilen als Ergänzung von Textanalysen
Werden kurze Teile analysierter Ausgangstexte präsentiert, kann dies Dritten möglich machen, Analyseergebnisse nachzuvollziehen und zu überprüfen – insbesondere im Kontext von Text und Data Mining. Solche kurzen Teile eines Werkes können eigenständig urheberrechtlich geschützt sein, sodass ihre Nutzung urheberrechtlichen Restriktionen unterliegt. [...]
Kriterien der urheberrechtlichen Schutzfähigkeit von Texten und Sammelwerken
Werden Texte und Sammlungen von Texten oder Daten gesammelt, aufbereitet und hieraus Informationen extrahiert, sind urheberrechtliche Rahmenbedingungen zu beachten. Sind die genutzten Texte und Sammlungen urheberrechtlich geschützt, können Kopiervorgänge Vervielfältigungshandlungen nach § 16 UrhG begründen. [...]
Die Nutzung wissenschaftlicher Ausgaben für Textanalysen
Wer jüngere Editionen von Primärtexten in Text und Data Mining-Verfahren einsetzt, kann die maschinenlesbare Aufbereitung wesentlich vereinfachen. Daneben können wissenschaftliche Editionen Quellen für zusätzliche Informationen sein, beispielsweise für Metadaten, orthographische Erklärungen und Interpretationen sowie vorhandene fachliterarische Analysen des Editors. [...]
Projektvorstellung
Das Projekt MiMoText wurde im Jahr 2021 ausgewählt, auf der virtuellen Jahrestagung der Digital Humanities im deutschsprachigen Raum (vDHd2021) vorgestellt zu werden, die unter dem übergeordneten Thema „Experimente“ stand. In sechs Stationen wurden am 24.03.2021 in einem interaktiven, virtuellen Format Einblicke in das Projekt MiMoText gegeben.
Als Einstieg für die Projektvorstellung wurden die einzelnen Teilprojekte von den jeweiligen Projektverantwortlichen in sechs Videos präsentiert. Diese Impulsvideos sollten einerseits der Vorstellung der Teilprojekte dienen und andererseits den Einstieg in den Dialog im virtuellen Raum mit seinen Projektstationen ermöglichen. Es wurden in den Videos die Teilbereiche „Bibliographie“, „Romankorpus“, „Sekundärliteratur“, „Modeling“, „Recht“ und „Infrastruktur“ vertieft dargestellt. Anhand von konkreten Beispielen und eines Projektpiloten wurden die Teilprojekte und deren Ansätze illustriert. Ein virtueller Raum (wonder.me) ermöglichte es, ein Konzept für Diskussionen an sechs flexibel wechselbaren Stationen umzusetzen. So wurde eine realitätsnahe und interaktive Kommunikationsplattform geschaffen.
Das Teilprojekt Recht sowie der Modus der interdisziplinären Zusammenarbeit mit den Digital Humanities wurde an Station 5 präsentiert. Im Impulsvideo wurde zunächst der Modus der interdisziplinären Zusammenarbeit entlang der iterativen Verfahrensschritte beim Einsatz von Text und Data Mining in den Geisteswissenschaften erläutert. Sodann wurde auf das Beispiel des Einsatzes wissenschaftlicher Ausgaben bei Textanalysen eingegangen und das Leistungsschutzrecht nach § 70 UrhG diskutiert. Auf diese Weise wurde verdeutlicht, wie aus den laufenden Projektarbeiten heraus rechtswissenschaftliche Themen identifiziert werden, die für die Digital Humanities auch über den Projektkontext hinaus relevant sind.
Unter dem Thema „Linked Open Data für die Literaturgeschichtsschreibung“ wurde das Projekt MiMoText und sein Stand in der Postersession auf der 8. Jahrestagung des Verbandes der Digital Humanities im deutschsprachigen Raum (DHd2022) präsentiert. Anknüpfend an das Generalthema („Kulturen des digitalen Gedächtnisses“) der Jahrestagung setzte das Projekt an die Potentiale systematischer Datenerschließung und Wissensrepräsentation für die Literaturgeschichtsschreibung an. Es wurde das Projektvorhaben präsentiert, ein literaturgeschichtliches Informationssystem aufzubauen. Dargestellt wurde, wie im Projekt quantitative Methoden der Informationsextraktion („Mining“) mit der Datenmodellierung („Modeling“) verbunden werden. Es steht im Vordergrund, Verfahren zur Extraktion und Modellierung geisteswissenschaftlich weiterführender Informationen interdisziplinär zu erforschen – also geistes-, informatik-, und rechtswissenschaftlich.
Das IRDT steuert seine rechtliche Expertise an dem Projekt bei. Vom Institut an dem Projekt beteiligt sind Prof. Dr. Raue und Frau Erler-Fridgen.