Durch die Digitalisierung werden zunehmend umfangreiche Text- und Datenbestände verfügbar. Das Projekt stellt sich der Herausforderung, dass es für deren effiziente Nutzung in den Geisteswissenschaften notwendig ist, innovative Verfahren zu entwickeln, welche die automatische Informationsextraktion erlauben und die darauf aufbauende Wissensgenerierung befördern.

 

„Iterative Verfahrensschritte bei dem Einsatz von Text und Data Mining in den Geisteswissenschaften“ von Katharina Erler-Fridgen und Prof. Dr. Benjamin Raue, CC BY-SA 4.0.
„Iterative Verfahrensschritte bei dem Einsatz von Text und Data Mining in den Geisteswissenschaften“ von Katharina Erler-Fridgen und Prof. Dr. Benjamin Raue, CC BY-SA 4.0.

 

Das Vorhaben befasst sich mit der automatischen Extraktion, Strukturierung und Vernetzung von Fachinformationen aus Text- und Datensammlungen. Außerdem wird die Nutzung solcher Informationsnetzwerke für die Beantwortung geisteswissenschaftlicher Fragestellungen behandelt. Erster Anwendungskontext ist die deutsche und französische Literaturgeschichte. Die Übertragbarkeit der Verfahren auf andere Disziplinen wird aber von Anfang an mitgedacht. Das Projekt berücksichtigt unterschiedliche Arten von Texten: von leicht strukturierten Texten (bspw. bibliografische Verzeichnisse) über geisteswissenschaftliche Sachtexte (bspw. literaturgeschichtliche Fachliteratur) bis hin zu literarischen Texten (bspw. Romane).

Als Kernanliegen werden interdisziplinäre Lösungsansätze entwickelt, wobei konzeptuelle, geisteswissenschaftliche, informatische, rechtliche und infrastrukturelle Fragestellungen und Verfahren ineinandergreifen.

„Ineinandergreifen rechtswissenschaftlicher Themenfelder beim Einsatz von Text und Data Mining in den Geisteswissenschaften“ von Katharina Erler-Fridgen, CC BY-SA 4.0.

Rechtswissenschaftliche Handreichungen

Im Rahmen der rechtswissenschaftlichen Begleitung des Projekts werden rechtliche Themenfelder identifiziert, die im Projektkontext exemplarisch auftauchen. Diese werden dann in Form von Handreichungen abstrahiert aufbereitet. Die verfassten Handreichungen erscheinen in der PAPERSERIES des IRDT. Sie machen es sich u.a. zum Ziel, rechtliche Rahmenbedingungen beim Einsatz von Text und Data Mining in den Geisteswissenschaften über den Projektkontext hinaus darzustellen.

  • Das Zitat und dessen Rahmen für Belege bei Textanalysen

    Werden Ergebnisse von Textanalysen präsentiert, können Texte oder Textteile als Beleg für deren Qualität oder zur Überprüfung der Plausibilität hilfreich sein. Neben dem Rahmen der Text und Data Mining-Schranken für Vervielfältigungen im Verlauf der Textanalyse bietet das Zitatrecht einen Freiraum für die geistige Auseinandersetzung mit urheberrechtlich geschützten Texten und Textteilen. Im Folgenden soll die Schranke der Zitierfreiheit nach § 51 UrhG und deren Voraussetzungen erläutert werden. [...][...]

  • Die Text und Data Mining-Schranken und ihr Rahmen für Textanalysen in den Digital Humanities

    Werden Informationen aus urheberrechtlich geschützten Texten extrahiert und zu diesem Zweck Quellen, beispielsweise aus Datenbanken, gesammelt, aufbereitet und die Ergebnisse der Textanalyse sowie die Ausgangstexte schließlich aufbewahrt, so werden Vervielfältigungshandlungen oder Entnahmen vorgenommen, die einer urheberrechtlichen Gestattung bedürfen. Die Text und Data Mining-Schranken in § 44b UrhG und § 60d UrhG schaffen hierfür einen Rahmen, der im Folgenden erläutert werden soll. [...][...]

  • Verfahrensschritte bei dem Einsatz von Text und Data Mining-Verfahren in den Geisteswissenschaften

    Werden urheberrechtlich geschützte Texte mit Hilfe von Text und Data Mining Verfahren analysiert, unterliegen die vorgenommenen Handlungen grundsätzlich urheberrechtlichen Restriktionen. Denn werden Vervielfältigungen oder Entnahmen aus Datenbanken vorgenommen oder der Analyse zugrundeliegende Text(teil)e präsentiert, können die Verwertungsrechte des Urhebers beeinträchtigt werden. [...][...]

  • Datenbanken als Quelle oder Ergebnis von Textanalysen

    Werden Texte gesammelt und Informationen extrahiert und zusammengeführt, so gewinnt der Schutz von Datenbanken in zweierlei Weise an Bedeutung: Zum einen kann die Entnahme von Material aus Datenbanken urheberrechtlichen Restriktionen unterliegen, wenn Datenbanken etwa als Quelle für Textanalysen genutzt werden. [...][...]

  • Die Präsentation von Textteilen als Ergänzung von Textanalysen

    Werden kurze Teile analysierter Ausgangstexte präsentiert, kann dies Dritten möglich machen, Analyseergebnisse nachzuvollziehen und zu überprüfen – insbesondere im Kontext von Text und Data Mining. Solche kurzen Teile eines Werkes können eigenständig urheberrechtlich geschützt sein, sodass ihre Nutzung urheberrechtlichen Restriktionen unterliegt. [...][...]

  • Kriterien der urheberrechtlichen Schutzfähigkeit von Texten und Sammelwerken

    Werden Texte und Sammlungen von Texten oder Daten gesammelt, aufbereitet und hieraus Informationen extrahiert, sind urheberrechtliche Rahmenbedingungen zu beachten. Sind die genutzten Texte und Sammlungen urheberrechtlich geschützt, können Kopiervorgänge Vervielfältigungshandlungen nach § 16 UrhG begründen. [...][...]

  • Die Nutzung wissenschaftlicher Ausgaben für Textanalysen

    Wer jüngere Editionen von Primärtexten in Text und Data Mining-Verfahren einsetzt, kann die maschinenlesbare Aufbereitung wesentlich vereinfachen. Daneben können wissenschaftliche Editionen Quellen für zusätzliche Informationen sein, beispielsweise für Metadaten, orthographische Erklärungen und Interpretationen sowie vorhandene fachliterarische Analysen des Editors. [...][...]

Projektvorstellung

Das Projekt MiMoText wurde im Jahr 2021 ausgewählt, auf der virtuellen Jahrestagung der Digital Humanities im deutschsprachigen Raum (vDHd2021) vorgestellt zu werden, die unter dem übergeordneten Thema „Experimente“ stand. In sechs Stationen wurden am 24.03.2021 in einem interaktiven, virtuellen Format Einblicke in das Projekt MiMoText gegeben.

Als Einstieg für die Projektvorstellung wurden die einzelnen Teilprojekte von den jeweiligen Projektverantwortlichen in sechs Videos präsentiert. Diese Impulsvideos sollten einerseits der Vorstellung der Teilprojekte dienen und andererseits den Einstieg in den Dialog im virtuellen Raum mit seinen Projektstationen ermöglichen. Es wurden in den Videos die Teilbereiche „Bibliographie“, „Romankorpus“, „Sekundärliteratur“, „Modeling“, „Recht“ und „Infrastruktur“ vertieft dargestellt. Anhand von konkreten Beispielen und eines Projektpiloten wurden die Teilprojekte und deren Ansätze illustriert. Ein virtueller Raum (wonder.me) ermöglichte es, ein Konzept für Diskussionen an sechs flexibel wechselbaren Stationen umzusetzen. So wurde eine realitätsnahe und interaktive Kommunikationsplattform geschaffen.

Das Teilprojekt Recht sowie der Modus der interdisziplinären Zusammenarbeit mit den Digital Humanities wurde an Station 5 präsentiert. Im Impulsvideo wurde zunächst der Modus der interdisziplinären Zusammenarbeit entlang der iterativen Verfahrensschritte beim Einsatz von Text und Data Mining in den Geisteswissenschaften erläutert. Sodann wurde auf das Beispiel des Einsatzes wissenschaftlicher Ausgaben bei Textanalysen eingegangen und das Leistungsschutzrecht nach § 70 UrhG diskutiert. Auf diese Weise wurde verdeutlicht, wie aus den laufenden Projektarbeiten heraus rechtswissenschaftliche Themen identifiziert werden, die für die Digital Humanities auch über den Projektkontext hinaus relevant sind.

 

Unter dem Thema „Linked Open Data für die Literaturgeschichtsschreibung“ wurde das Projekt MiMoText und sein Stand in der Postersession auf der 8. Jahrestagung des Verbandes der Digital Humanities im deutschsprachigen Raum (DHd2022) präsentiert. Anknüpfend an das Generalthema („Kulturen des digitalen Gedächtnisses“) der Jahrestagung setzte das Projekt an die Potentiale systematischer Datenerschließung und Wissensrepräsentation für die Literaturgeschichtsschreibung an. Es wurde das Projektvorhaben präsentiert, ein literaturgeschichtliches Informationssystem aufzubauen. Dargestellt wurde, wie im Projekt quantitative Methoden der Informationsextraktion („Mining“) mit der Datenmodellierung („Modeling“) verbunden werden. Es steht im Vordergrund, Verfahren zur Extraktion und Modellierung geisteswissenschaftlich weiterführender Informationen interdisziplinär zu erforschen – also geistes-, informatik-, und rechtswissenschaftlich.

Das IRDT steuert seine rechtliche Expertise an dem Projekt bei. Vom Institut an dem Projekt beteiligt sind Prof. Dr. Raue und Frau Erler-Fridgen.

Andere Projekte am IRDT.

INWEND

Intelligente wissensbasierte Entscheidungsunterstützung

Schriftenreihe digital | recht

Schriften im Weg des Diamond Open Access

Tech & Literature

Rezensionen zu Büchern mit Digitalisierungsbezug.