Nasi programiści najlepsi w wykrywaniu zmian stylu autora

Programiści zLaboratorium Inżynierii Lingwistycznej uzyskali najlepszy wynik w międzynarodowym konkursie na wykrywanie plagiaryzmu w tekście w zadaniu Style Breach Detection. Konkurs ogłosił Komitet Konferencyjny PAN (http://pan.webis.de), a rozwiązanie zadania ukazało się w materiałach konferencyjnychCLEF 2017.

PAN to międzynarodowa sieć ekspertów zajmujących się detekcją plagiaryzmu. Jej działalność koncentruje się m.in. na rozwoju nowoczesnych technologii, kompilacji nowych rozwiązań dotyczących zbiorów danych, organizowaniu konferencji i konkursów tematycznych.

Przed uczestnikami postawiono problem zidentyfikowania autora tekstu. W jego ramach zostały ogłoszone dwa zadania: klastrowanie autorów oraz określanie zmiany stylu autorów w tekście. Zespół w składzie: Daniel Karaś, Martyna Śpiewak i Piotr Sobecki zLIL rozwiązał oba zadania. Ich wynik w zadaniu Style Breach Detection okazał się być najlepszy według miary WinF.

Dane potrzebne do rozwiązania konkursu zostały ogłoszone w lutym 2017. Na ich rozwiązanie uczestnicy mieli dwa miesiące. Programiści jako bazę do ich rozwiązania wykorzystali część badań jakie realizowali dla powstającego w naszym InstytucieJednolitego Systemu Antyplagiatowego.

Publikacja opisująca metodykę użytą do rozwiązania zadań znalazła się w materiałach konferencyjnych CLEF 2017 – konferencji, która odbyła się we wrześniu 2017 r. w Dublinie. Można się z nimi zapoznać pod linkami:http://ceur-ws.org/Vol-1866/paper_133.pdf ihttp://pan.webis.de/clef17/pan17-web/author-identification.html.