Top Banner
- Teilvorhaben Technische Modellbildung - Implementierung eines Software- Demonstrators zur Erhebung und Analyse von Daten aus sozialen Netzwerken 21. Februar 2020, Marburg
19

Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

Jul 11, 2020

Download

Documents

dariahiddleston
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

-

Teilvorhaben Technische Modellbildung -Implementierung eines Software-

Demonstrators zur Erhebung und Analyse von Daten aus sozialen Netzwerken

21. Februar 2020, Marburg

Page 2: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

221.02.2020

Zusammenfassung

● Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs ein Softwaredemonstrator zur Textklassifikation & Sentimentanalyse entwickelt

● Die Annotation der Trainingsdaten zum Training der Textklassifizierer und der Sentimentanalyse erfolgte durch das ZTG

● Erste Erprobungen an Validierungsdaten aus dem Phänomenbereich Islamismus liefern vielversprechende Ergebnisse

● Die gewonnenen Erkenntnisse und die entwickelte Technik werden in eine browser-basierte Softwarelösung der Wissenschaft und zivilgesellschaftlichen Akteuren zur Verfügung gestellt

Page 3: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

321.02.2020

Überblick

1. Demonstrator: Komponenten & Architektur

2. Datengewinnung

3. Indikatorenmodell & Textklassifizierung

4. Widgets

5. Datenexport

6. Ausblick: ‘Academic Version’

Page 4: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

421.02.2020

modularePlugin-Architektur

Nutzerschnittstelle

Software-Framework*

Datenakquise

Auswertungs-Module

Datenimport / -export

& weitere Funktionen

*in Zusammenarbeit mit Projekt INTEGER

Text-Klassifizierer

1. Demonstrator: Komponenten & Architektur

Page 5: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

521.02.2020

2. Datengewinnung (1/2)

Datenquellen PANDORA-Datenbank

Datenschnittstelle

API Webscraping

Page 6: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

621.02.2020

2. Datengewinnung (2/2)

Datenzugangsberechtigungen

➔ Entkopplung technische Möglichkeiten & rechtliche Voraussetzungen

Page 7: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

721.02.2020

3. Indikatorenmodell & Textklassifizierung (1/2)

1

2

Definition der Klassifizierer durch die wissenschaftlichen Partner

3 Klassifizierer, 7 (+2) Klassen

Datensatz Anzahl

Keine religiösen Bearbeitungen 2546

Formelhaft-religiöse Bearbeitungen 1088

Religiöse Bearbeitungen 3147

Keine Abwertungen 19547

Missbilligte Handlungen 2194

Abwertungen 1736

Beleidigungen 642

Keine gewaltaffirmativen Äußerungen 21847

Gewaltaffirmative Äußerungen 450

● Religiöse Bearbeitungen● Abwertungsphänomene● Gewaltaffirmationen

Page 8: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

821.02.2020

3

4

Annotation von Trainingsdaten durch die wissenschaftlichen

Partner

Implementierung im Demonstrator

● 6781 Inhalte mit insgesamt 46440 Sätzen annotiert

3. Indikatorenmodell & Textklassifizierung (2/2)

Page 9: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

921.02.2020

4. Widgets - Textklassifikation (1/2)

Beispiel: 3 Telegram-Kanäle

von denen einer als ‚dschihadistisch‘ eingeordnet wird

Ergebnis automatischer Text- & Satz-Klassifikation

Page 10: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1021.02.2020

4. Widgets - Textklassifikation (1/2)

● Direkter Vergleich der PANDORA-Indikatoren zwischen den drei Telegram-Kanälen in Projekt

● Als ‚dschihadistisch‘ eingeordneter Kanal ist rot markiert

Kanal A

Kanal B

Kanal C

Kanal AKanal BKanal C

Page 11: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1121.02.2020

4. Widgets - Sentimentanalyse

mehr negative Wörter bei ‘dschihadistischem’ Kanal

Auszählung positive & negative Wörter pro Inhalt

Gesamtbewertung als positiv

Gesamtbewertung als negativ

Page 12: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1221.02.2020

5. Datenexport

.csv.xlsx

MaltegoMaxQDA

...

Während der Projektlaufzeit von PANDORA wurden ca. 1 Mio. Textinhalte bereitgestellt

Page 13: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1321.02.2020

6. Ausblick: “Academic Version” (1/2)

Page 14: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1421.02.2020

6. Ausblick: “Academic Version” (2/2)

● Einschätzung von Datenquellen hinsichtlich 3 Kriterien:○ Religiöse Bearbeitungen○ Abwertungsphänomene○ Gewaltaffirmationen

● Verfügbare Datenquellen werden kuratiert

● Import eigener Daten oder Nutzung bereitgestellter Auswahl

● Zielgruppen: Wissenschaft, Soziale Arbeit, Bildung

Wie ist die Stimmung über das Attentat im Kanal, zustimmend oder ablehnend?

Wie hat sich der Diskurs seit dem letzten Ereignis verändert?

Page 15: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1521.02.2020

-Backup-

Page 16: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1621.02.2020

Komponenten des Software-Demonstrators II: Architektur

Page 17: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1721.02.2020

Gütebestimmung der Textklassifikation

● Verhältnis Trainingsdatensatz : Evaluationsdatensatz 4:1Im Folgenden: Precision p, Recall r, Accuracy a

● Klassifizierer „Religiöse Bearbeitungen“○ p = (80%, 69%, 86%), r = (91%, 53%, 83%), a = 81%

● Klassifizierer „Abwertungsphänomene“○ p = (88%, 52%, 75%), r = (97%, 27%, 45%), a = 86%

● Klassifizierer „Gewaltaffimationen“○ p = (99%, 70%), r = (99%, 49%), a = 99%

● Beispiel: Falsch-Positiv; Score: 0.94(Gewaltaffirmationen) mit Erklärung

- ¬ Religiös Formelhaft Religiös

¬ Religiös(wahr) 450 11 32

Formelhaft(wahr) 54 122 55

Religiös(wahr) 61 45 527

Page 18: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1821.02.2020

PANDORA-Widgets IV: Affektive und emotionale Prozesse

● Widget zur Messung der Häufigkeit vonpsycholinguistischen Markern

● Grundlage ist (deutschsprachiger) LIWC-Korpus(Linguistic Inquiry and Word Count)(liwc.wpengine.com)

● Ordnet verwendete Wörter (Wortstämme)psycholinguistischen Kategorien zu, z.B.(aggress*, bekämpf*, rache → Kategorie „Wut“)

● 68 Kategorien, 7598 Wörter (Wortstämme)

● Entwicklung eines Python-Modulsspacy_deliwc20XX zur Integration von LIWC inspaCy-Pipeline

● Beispielanalyse findet häufigere Verwendung vonWörtern der Kategorie „Wut“ und „NegativeEmotion“ bei den Datensätzen mit extremererAusprägung (Bild unten)

Page 19: Teilvorhaben Technische Modellbildung - Technische Universität Berlin · 2020-04-08 · 21.02.2020 2 Zusammenfassung Im Rahmen des Projekts PANDORA wurde von Munich Innovation Labs

1921.02.2020

PANDORA-Widgets V: Semantische Netzwerkanalyse

● Darstellung semantischer Zusammenhängeals Netzwerkgraph

● Vorgehensweise am Beispiel desSatzes „Ich strafe die Ungläubigen.“:

1. Parsen des Satzes auf Syntaxebene ergibt Syntaxbaum:

1. Verbindungsregeln für Syntaxelemente:

sb → VERB, VERB → oa, etc.(sb: Subjekt, oa: Akkusativobjekt)

1. Zuordnung von vorher festgelegten Kategorien zu den Syntaxelementen anhand von Wortlisten (und Gewichtung nach relativer Häufigkeit):

Ich [ich, ...], Strafen [straf*, ...], Ungläubige [ungläubig*, gottlos*, ...]