OED — Oxford English Dictionary

Pretvaranje rečnika u mašinski čitljiv oblik

Da bi ostvarivanje ovih ciljeva bilo moguće, pre svega je bilo neophodno pretvoriti papirnu verziju OED i dodataka u mašinski čitljiv oblik. Kompletni rečnici sa dodacima koji se sastoje od preko 350 miliona znakova su ponovo prekucani. Ideja da se rečnici skaniraju a potom pretvore u mašinski čitljiv oblik OCR softverom je odbačena kako zbog neujednačenog kvaliteta štampe tako i zbog izuzetne tipološke složenosti samog račnika. Na tom poslu je radilo 120 daktilografa. Prilikom kucanja se vodilo računa da se iz papirne u mašinski čitljivu verziju prenese što je moguće više informacija unošenjem etiketa. To je rezultovalo u preko 500 miliona otkucanih karaktera. Tako je dobijena mašinski čitljiva verzija označena pretežno ne strukturnim već tipografskim oznakama koje su često ali ne uvek, i ne uvek dovoljno precizno, odražavale strukturu. Na primer, u pasusu citata godina citata data je polucrnim slovima, autor citata velikim slovima (verzalom), naziv dela kruzivom a sam citat običnim slovima.

Posle brižljive korekture unetog rečnika tipografske oznake zamenjene su strukturnim pri čemu je kao jezik označavanja korišćen SGML. Posle pažljivo izučene strukture rečničke odrednice, sačinjen je DTD koji je odražava, tipografske oznake prevedene su automatski u SGML oznake i izvršena je brižljiva provera. Na tom poslu je radilo 50 korektora. Za ceo posao konverzije je utrošeno 13,5 miliona dolara u toku pet godina.


Dokument:
URL:
Autor: Cvetana Krstev
Poslednja izmena: