Forensische Textanalyse mit NLP und maschinellem Lernen

Textdaten forensisch auf relevante Inhalte "zwischen den Zeilen" untersuchen

Die Herausforderung: Verarbeitung und Repräsentation natürlicher Sprache und Bildung von Modellen zum Zwecke der Klassifikation und Ausreißererkennung.

Ein Großteil der weltweit verfügbaren Informationen liegt in Texten vor. Das "Schürfen" nach relevanten Informationen im Text, um z.B. Texte nach Themen oder "Stimmungen" zu klassifizieren oder den Autor zu identifizieren, ist für viele Anwendungen wichtig. Herausforderungen hierbei sind Unstrukturiertheit von Texten oder das Fehlen von Metadaten. Darüber hinaus existiert das Risiko, dass Texte unentdeckt kopiert oder manipuliert werden können, da sie praktisch von jedermann ohne Fachkenntnisse oder spezielle Werkzeuge vervielfältigt oder verändert werden können - noch einfacher als bei Digitalfotos, Videos oder Audiodaten.

 

Die Lösung: Natürliche Sprachverarbeitung (NLP) und maschinelles Lernen (ML), um relevante Informationen aus Texten ableiten zu können!

Der Kurs vereint das Wissen aus der Linguistik und Informatik. Ihnen werden Methoden der digitalen Textforensik vermittelt, mit dem Schwerpunkt auf NLP und ML. Zunächst lernen Sie die Grundlagen des NLP kennen, z.B. Techniken mit denen Textdaten maschinenlesbar "bereinigt" und strukturiert werden können. Im Anschluß lernen Sie, wie relevante Merkmale aus den verarbeiteten Texten gewonnen werden können. Auf dieser Basis werden verschiedene ML-Methoden vorgestellt, etwa zum automatischen Klassifizieren von Texten oder zum Herauslesen von Stimmungen und Meinungen im Text. Ebeneso lernen Sie Evaluierungstechniken kennen, mit denen Sie die Güte der ML-Verfahren messen können. Diese Kenntnisse werden Sie in praktischen Übungen am PC vertiefen, etwa mit den Werkzeugen NLTK, Spacy, Pattern.

Ihre Vorteile auf einen Blick

Nach dem Seminar können Sie...

Grundlegende Problemstellungen hinsichtlich der Verarbeitung von Textdaten selbstständig lösen. Sie können Texte bereinigen, strukturieren sowie wichtige Merkmale erkennen bzw. extrahieren, um Texte entsprechend der Aufgabenstellung zu repräsentieren. Darauf aufbauend können Sie Modelle bilden mit deren Hilfe Texte klassifiziert werden können. Als Anwendungsfälle werden Sie in der Lage sein Autorenstile zu erkennen, charakteristische Eigenschaften des Autors (z.B. Geschlecht, Alter, Bildungsniveau oder Sprachdialekte) zu bestimmen oder die "Stimmung" aus Texten abzuleiten.

 

Dieses Seminar bietet Ihnen...

... Vermittlung gängiger Methoden und Werkzeuge der digitalen Textforensik
... Erkenntnisse aus dem aktuellen Forschungsstand in NLP und ML
... Praxistipps aus unserer eigenen Gutachtertätigkeit in diesem Bereich
... viele praxisnahe Übungen anhand von Fallbeispielen
... Austausch mit Experten und Vernetzung mit anderen Anwendern der Computerlinguistik und der Text-Forensik

Das Seminar im Überblick

Termine Auf Anfrage
Dauer 3 Tage Präsenz
Kurssprache Deutsch
Lernziel Sie erhalten einen Einblick in das Forschungsfeld der digitalen Textforensik. Sie lernen an praktischen Beispielen Einsatzmöglichkeiten von automatisierten Verfahren des maschinellen Lernens zur Textanalyse mithilfe der Programmiersprache Python. 
Zielgruppe Alle Fachkräfte, die textliche Informationen automatisiert und mithilfe des maschinellen Lernens verstehen, strukturieren und verarbeiten wollen, um für die eigene Organisation Wissen aus den Daten abzuleiten. Beispiele: Mitarbeiter bei der Polizei und anderen Ermittlungsbehörden, in Forschungsabteilungen, bei Wirtschaftsprüfungsgesellschaften und Versicherungen usw., etwa als Ermittler, Data Scientist, Marketing und Social Media Manager
Voraussetzungen Grundkenntnisse in der Programmiersprache Python; alternativ: Beherrschung einer anderen Hochsprache (z.B. Java, C, C++, C#)
Niveau Advanced
Maximale Teilnehmerzahl 16 Teilnehmende
Veranstaltungsort Fraunhofer-Institut für Sichere Informationstechnologie SIT, Rheinstr. 75, 64295 Darmstadt
Teilnahmegebühr 1.800 €

- Grundlagen digitaler Textforensik
- Korpuserstellung und -strukturierung
- Datenbereinigung (z.B. Rauschen aus Texten entfernen)
- Werkzeuge des Preprocessings (NLTK, Spacy, Pattern, etc.)
- Merkmalsextraktion (Feature Engineering), um Texte entsprechend der Problemstellung zu repräsentieren
- Modellbildung
- praxisnahe Übungen zu Anwendungsbeispielen: Erkennung von Schreibstilen, Sprachprofiling, Stimmungsanalyse in Texten, automatische
  Textklassifikation
- Visualisierung der gewonnenen Informationen

Die Trainer sind ExpertInnen im Bereich ML und NLP (wissenschaftliche Mitarbeiter aus dem Bereich "Media Security & IT Forensics")

Referenzen / aktuelle Projekte:
- Gutachtertätigkeiten zur Autorschaftverifikation
- Forschungsprojekt X-SONAR zum Thema Extremismus in sozialen Netzwerken (https://www.x-sonar.de)
- Forschungsprojekt DORIAN zu Desinformation im Internet (http://www.uni-kassel.de/fb07/institute/iwr/personen-fachgebiete/rossnagel-prof-dr/forschung/provet/dorian.html)
- Forschungsprojekt EWV zu Wirtschaftskriminalität / Versicherungsbetrug (https://www.sit.fraunhofer.de/de/ewv/)
- Forschungsprojekt ILLICID zur Bekämpfung organisierter Kriminalität (https://www.sifo.de/files/Projektumriss_ILLICID.pdf)
- derzeit: Technologieberatung und Schulungen in ML und NLP für verschiedene Auftraggeber (NN)

* Pflichtfelder

Anrede
Name
AGB
Datenschutz
Newsletter

* Pflichtfelder