Zbudowaliśmy model języka polskiego na podstawie stron internetowych

W 2016 roku przyjrzeliśmy się bliżej danym o polskich stronach internetowych zgromadzonym w archiwum CommonCrawl (http://commoncrawl.org).

Naszym celem było opracowanie automatycznych narzędzi do rozproszonego przetwarzania olbrzymiego terabajtowego zbioru stron internetowych – wydobyliśmy z nich polskie teksty, a następnie na ich podstawie zbudowaliśmy model języka: n-gramowego i dystrybucji semantycznej. Zbudowane narzędzia posłużyły do wielomiesięcznego przetwarzania archiwum danych o polskich stronach, a w konsekwencji do opracowania modelu języka polskiego na treści internetowej. Jest to największy model tego rodzaju dla języka polskiego.