1234
Zastosowanie komputerów

Celem, który sobie postawiliśmy, było zastosowanie komputerów do wyszukiwania powiązanych ze sobą zespołów dokumentów, takich jak te trzy powyżej, wśród dziesiątek tysięcy już dostępnych transliteracji.

Żeby to osiągnąć, trzeba spełnić kilka warunków:

  • musimy umieć automatycznie sprawdzić, że dwa teksty są do siebie „podobne”, dopuszczamy także możliwość, że jeden z tekstów jest podobny do fragmentu drugiego, większego tekstu;
  • musimy dokonywać ogromnej liczby takich sprawdzeń;
  • musimy sprawnie łączyć w grupy teksty, które są wzajemnie do siebie podobne.

Podobieństwo to sprawdzamy algorytmem Smitha-Watermana, opisanym przez M.S. i J.T. w popularnonaukowym artykule „Krótkie rozmowy między sumerologiem a matematykiem”, Delta 05/2005 , a ze wszystkimi szczegółami w pracy „Computer Algorithm to Detect Similar Administrative Documents from the Ur III Archives”, która ukaże się w tomie referatów z konferencji „Rencontre Assyriologique Internationale 2005”. Mówiąc w skrócie, algorytm ten ocenia w punktach wzajemne podobieństwo fragmentów obu tekstów. W artykule posłużyliśmy się podobieństwem liczb znalezionych w dokumentach, tu chcemy opisać efekt badania podobieństwa tekstów, z których liczby usunęliśmy. Dzięki temu dokumenty analogicznych sprawozdań gospodarczych lub dokumentacje transakcji, różniące się tylko liczbami, wydają się dużo bardziej podobne do siebie, niż gdybyśmy liczby uwzględnili.

Sprawdzić trzeba każdy dokument z każdym, co powoduje, że liczba niezbędnych do sprawdzenia par jest ogromna: dla całego zespołu ok. 40 000 transliteracji byłoby ich 1 600 000 000. Żeby zredukować tę liczbę, zdecydowaliśmy się przetestować naszą metodą pewien podzbiór (dokładniej - 6200) dokumentów.

Najciekawsza jest kwestia łączenia dokumentów w grupy. Wyobraźmy sobie, że każdy z tekstów oznaczamy kropką na wielkim arkuszu papieru, a następnie łączymy kreską, gdy ich podobieństwo ocenione przez komputer wynosi co najmniej, powiedzmy, 100 punktów. Liczba interesujących dokumentów spada wówczas do 831, bo pozostałe nie są w wymaganym stopniu podobne do żadnego innego oprócz siebie. Powstaje jakby mapa z zaznaczonymi drogami, na której rolę miast pełnią dokumenty. Okazuje się, że pojawia się wiele „wysp”, złożonych z dokumentów połączonych szlakami, czasami znacznej długości, oraz całkowicie odseparowanych od innych wysp. Dwie największe z nich liczą 199 i 153 dokumenty.

Formalnie, w języku matematycznym mapa, o której mówimy to graf, w którym dokumenty pełnią rolę wierzchołków, drogi to krawędzie, a wyspy to składowe spójne.

Powstaje szalenie interesujące pytanie, jak po kształcie tej swoistej „sieci drogowej” rozpoznać, które z tekstów są ze sobą powiązane merytorycznie, a które nie. Jasne jest, że bezpośrednie połączenie, czyli posiadanie wspólnego dość długiego fragmentu treści, nie jest tu wcale konieczne.

Powstaje szalenie interesujące pytanie, jak po kształcie tej swoistej „sieci drogowej” rozpoznać, które z tekstów są ze sobą powiązane merytorycznie, a które nie. Jasne jest, że bezpośrednie połączenie, czyli posiadanie wspólnego dość długiego fragmentu treści, nie jest tu wcale konieczne.

Jako przykład można podać trzy poniższe teksty, dotyczące ofiar składanych podczas modłów zanoszonych w intencji króla w świątyni boga księżyca Nanny z daktyli, ciemnego piwa i mąki. Pierwszy jest połączony z drugim, drugi z trzecim, ale pierwszy z trzecim już wyłącznie pośrednio. Widać, że pierwszy i drugi pochodzą z tego samego dnia i są niemal dokładnymi kopiami, tyle że inaczej rozłożonymi w linijkach (pewnie pisarzowi ulepiła się raz węższa, a raz szersza tabliczka), a ponadto pierwszy tekst jest uszkodzony (znaki [...] oraz x). Trzeci tekst dotyczy chyba analogicznych ofiar, ale złożonych parę miesięcy później. Towary zostały w nim spisane w trochę innej kolejności i układzie oraz uzupełnione o dodatkowe, osobno ujęte ilości piwa i mąki, co wystarczyło do uzyskania 100 punktów za podobieństwo z tekstem drugim, ale już nie z pierwszym, w którym przecież brakuje uszkodzonych fragmentów...

UET 03:0109 (IS05/m02)

1) u4 28 nu-ub-tuku
2) 0.0.2 kasz gi6 sig5 bala-bala-e-de3
3) 0.1.0 zid2-gu
4) 0.0.3 esza
5) [x.x.x x] sila3 zu2-lum esza
6) [...] bala-
7) [...]
8) zi-ga siskur2 lugal
9) sza3 e2 {d}nanna-ka
10) u4 30 la2 1-kam
11) iti masz-ku3-gu7
12) mu ...
UET 3:0119 (IS05/m02)

1) u4 28 nu-ub-tuku
2) 0.0.2 kasz gi6 sig5
3) bal-bal-e-de3
4) 0.0.3 zid2-gu 0.0.3 esza
5) 3 sila3 zu2-lum esza]-[da] ba-an-bala]-
6) nig2-HI e2 {d}nanna-sze3
7) a2-u4-te-na [(x)]
8) zi-ga siskur2 lugal
9) sza3 e2 {d}nanna-ka
10) u4 30 la2 1-kam
11) iti masz-ku3-gu7
12) mu ...
UET 03:0132 (IS05/m06)

1) u4 24 nu-ub-tuku
2) 5 sila3 kasz gi6 sig5
3) 5 sila3 zid2-gu 2 sila3 esza]
4) du6-ur2-sze3
5) 0.0.2 kasz gi6 sig5 bala-bala-e-de3-
6) 0.1.0 zid2-gu 0.0.3 esza
7) 3 sila3 zu2-lum esza-da ba-an-bala?]
8) e2 {d}nanna-[sze3]
9) a2 gi6-ba-a
10) u4 25-kam
11) zi-ga iti ezem {d}nin-a-zu
12) mu ...

Na szczęście, porównując te teksty razem, możemy zauważyć również pokrewieństwo pierwszego z trzecim. W trzecim dokumencie brak wzmianki o modłach za króla, jednak identyczna formuła dokumentów może świadczyć o tym, że nadal o nie chodzi. Z kolei dwa pierwsze dokumenty różnią się wymienioną w nich ilością daktyli. Być może w jednym z nich popełniono błąd, więc skryba zdecydował się go wyrzucić i sporządził nowy? Jeśli tak, to bardziej prawdopodobne jest, że dobre dane zawiera dokument pierwszy, bo ilości w nim podane zgadzają się z tymi w dokumencie trzecim.

1234
powrót na górę strony
Wykład
Automatyczna analiza dokumentów sumeryjskich
Strona
3/4
Autorzy
Agata Powałka
Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego
Wydział Historyczny Uniwersytetu Warszawskiego
Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego
Kliknij nazwisko autora, aby zobaczyć notkę biograficzną w serwisie Nauka Polska