
Da bi ostvarivanje ovih ciljeva bilo moguće, pre svega je bilo neophodno
pretvoriti papirnu verziju OED i dodataka u mašinski čitljiv oblik.
Kompletni rečnici sa dodacima koji se sastoje od preko 350 miliona znakova su ponovo
prekucani. Ideja da se rečnici skaniraju a potom pretvore u mašinski
čitljiv oblik OCR softverom je odbačena kako zbog neujednačenog
kvaliteta štampe tako i zbog izuzetne tipološke složenosti samog
račnika. Na tom poslu je radilo 120 daktilografa. Prilikom kucanja se vodilo računa
da se iz papirne u mašinski čitljivu verziju prenese što je
moguće više informacija unošenjem etiketa. To je rezultovalo u
preko 500 miliona otkucanih karaktera. Tako je dobijena
mašinski čitljiva verzija
označena pretežno ne strukturnim već tipografskim oznakama koje su
često ali ne uvek, i ne uvek dovoljno precizno, odražavale strukturu.
Na primer, u pasusu citata godina citata data je polucrnim slovima, autor
citata velikim slovima (verzalom), naziv dela kruzivom a sam citat običnim
slovima.
Posle brižljive korekture unetog rečnika tipografske oznake zamenjene
su strukturnim pri čemu je kao jezik označavanja korišćen SGML.
Posle pažljivo izučene strukture rečničke odrednice, sačinjen
je DTD koji je odražava, tipografske oznake prevedene su automatski u
SGML oznake i izvršena je brižljiva provera. Na tom poslu je radilo 50 korektora. Za ceo posao konverzije je utrošeno 13,5 miliona dolara u toku pet godina.