Matematicki fakultet Univerziteta u Beogradu |
Odsek za racunarstvo |
Sistemi za pretrazivanje informacija |
Novembar 2006 |
Ovaj
kurs je primeren talentovanim studentima cetvrte godine kao i studentima na postdiplomskim studijama iz sledecih oblasti: racunarstvo,
informatika, informaticke nauke, lingvistika i interaktivni mediji.
Cilj samog kursa je da pripremi studente za dizajn,
implementaciju i evaluaciju sistema za pretrazivanje informacija. Polaznici ce
takodje steci opšte razumevanje u vezi internog
funkcionisanja automatizovanih sistema pretrage kao i korisnicke interakcije s
istima.
U širem smislu, namera je da se povezu nastavnici,
studenti i istrazivaci s zajednickim interesom za kombinovanjem racunarstva s društvenim naukama koje se bave istrazivanjem interakcija
izmedju ljudi i društva s informacijama.
Ovaj
kurs ce prodiskutovati teoriju i praksu pretrage
teksta i bibliografskih informacija. Teme koje ce biti
pokrivene ukljucuju automatsko indeksiranje, statisticke i lingvisticke modele,
klasifikaciju teksta, Bulovske i probabilisticke pristupe indeksiranju,
formulaciji upita i rangiranju outputa, filtraciju i usmeravanje informacija,
detekciju i pracenje tematika, kao i metrike efikasnosti pretrage (relevantnost,
korisnost, kvantitet laznih alarma). Tehnike za poboljšanje
efikasnosti pretrage diskutovane u ovom kursu ukljucuju fidbek o relevantnosti,
reformulaciju upita, leksikone, ekstrakciju koncepata i automatsku
sumarizaciju. Eksperimentalni algoritmi (Text
Retrieval Conferences (TREC)) i savremeni sistemi za pretrazivanje (Google, Yahoo,, itd.) se takodje
razmatraju u kontekstu gore spomenutih tematika.
Osnovni
preduslov za buduce studente ovog kursa su dva sekvencijalna uvodna kursa iz
programiranja (obicno opisana kao Programiranje 1 i 2). Za
studente koji nisu studenti racunarstva, potrebno je ekvivalentno i
dokumentovano poznavanje osnovnih kontrolnih struktura i OO struktura podataka u
programiranju. Akademsko iskustvo koje je pozeljno za ovaj kurs ukljucuje
familijarnost s elementarnom algebrom, osnovnim statistickim i probabilistickim
metodama, elementarnom matematickom logikom i teorijom skupova, kontrolnim i
strukturama podataka, kao i osnovno znanje u vezi korišcenja
bibliotekarskih kataloga i internetskih sistema pretrazivanja.
Dr.
Miroslav Martinovic
Kratka biografija
Doktorat
matematike / racunarstva, 1993
Univerzitet u
Beogradu /
Vanredni
profesor racunarstva, 2000-2006, TCNJ
Vanredni
profesor racunarstva i matematike, 1989-2000,
Asistent
profesor racunarstva i matematike, 1983-1988, Univerzitet u Beoradu
Istrazivac,
1989-2006.
Istrazivacki
interes
Upitnicki
sistemi
Racunarska lingvistika
Sistemi za pretrazivanje
informacija
Teorija
igara
Veštacka inteligencija
Ekspertni sistemi
Sponzori
NSF
DARPA
NIST
Microsoft
E-mejl adresa :
Telefon
:
+1 609 771-2789. |
Kancelarija
:
Holman Hall 230. |
Dan i vreme predavanja
i vezbi:
3., 4., 10.,
11., 17., 18., 24., i 25.-i novembar |
petak 16-20 subota 10-2 |
Racunarska
sala |
Laboratorijske
vezbe |
360 minuta
po nedelji. |
Racunarska
sala |
Literatura
za kurs:
Glavni
udzbenik |
|
|
Modern Information Retrieval |
R. Baeza-Yates, B. Ribeiro-Neto Published by Addison Wesley, 2000. |
ISBN 0-201-39829-X |
Dodatna
literature |
|
|
1. Introduction
to Information Retrieval |
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze |
http://www-csli.stanford.edu/cschuetze/information-retrieval-book.html |
2. |
Karen Sparck-Jones and Peter Willett (editors) Morgan-Kaufmann Publishers, 1997. |
|
3. Natural Language Information Retrieval |
Tomek Strzalkowski (editor) Kluwer Academic Publishers, 1999. |
|
4. Information retrieval: data structures &
algorithms |
William B. Frakes and Ricardo Baeza-Yates |
|
5. Mathematical Foundations of Information Retrieval |
by: S. Dominich Published by Kluwer Publishing, 1999. |
ISBN 0-7923-6861-4 |
Konsultacije
:
Petak |
Subota |
14-16 |
3-5 |
Algoritam za izracunavanje
završne ocene:
|
(1)
Tematike iz kursa bice istrazivane kroz fokusirani pregled literature,
diskusije, iskustva iz prakse korišcenja i evaluacije
razlicitih algoritama za pretrazivanje na raznim kolekcijama teksta.
(2) Kurs ce sadrzati periodicne domace zadatke i završni rad / projekat.
(3) Prezentacije za vreme casa ce
zahtevati solidnu pripremu koja ukljucuje nalazenje materijala izvan osnovnih
materijala prikazanih u toku nastave.
Završni rad mora biti u obliku
tehnickog clanka u vezi neke IR teme. Teme za projekat ukljucuju
:
- detekciju tematike pomocu ekstrakcije koncepata ili pracenje tematika
- pivotirana normalizacija tezinskih koeficijenata u SMART sistemu.
- dizajn i implementacija modula za ekspanziju
upita
- samouceci pronalazac koncepta
- automatska sumarizacija
- sub-kategorizacija dobijenog skupa dokumenata
- upitnicki sistem.
Preliminarni raspored |
|
Nedelja #1 |
Sistemi za pretrazivanje
informacija - Uvod
|
Poglavlje
1 i 2 Lekcija |
|
|
|
A. [ta su to sistemi za pretrazivanje
informacija? |
|
Nedelja #2 |
Koncepcijski
modeli. Diskusija.
|
Studentska prezentacija: IR sistemi |
|
|
|
A.
Bulovski i prošireni Bulovski modeli; Pregled
(instalacija) |
|
|
|
Nedelja #3 |
Evaluacija
|
Poglavlje 3 Vezba:
evaluacija pretrazivackih sistema s Interneta korišcenjem pooling
metode |
|
|
|
A.
Pretpostavke pri evaluaciji performansi pretrazivackih sistema. 3. TDT kolekcije |
|
Nedelje #4 &
5 |
Automatsko indeksiranje
|
Poglavlja
7, 8 + ostala literatura
|
|
A.
Osnovne osobine jezickih kolekcija. |
|
Nedelja #6 |
Upitni jezici i operacije
|
Poglavlja
4 i 5 + ostala literature Lekcija |
|
|
|
A. Upitni kljucevi |
|
Nedelja #7 |
Moduli za obradu prirodnih jezika
(NLP Tools): Parseri
(parser za engleski jezik)
|
Prezentacije
i kritike s demonstracijama clanci : Papers/APParser/manual.ps,
Papers/APParser/APParser.htm |
|
Nedelja #8 |
Moduli za obradu prirodnih
jezika: Elektronski leksikoni (WordNet)
|
Prezentacije i
kritike s demonstracijama
Dokumentacija: http://www.cogsci.princeton.edu/cwn/doc.shtml
|
|
Nedelja #9 |
Automatska klasifikacija
|
Lekcija
i prezentacije |
|
A. Manuelna klasifikacija. |
|
Nedelje #10 &
11 |
Upitnicki sistemi
|
Student/instruktor
- ska prezentacija; Diskusija
Vezba: TREC
Q&A task |
|
|
|
A.
Klasicni Q&A problem (studentska
prezentacija) Projekti: AnswerBus, QASTIIR |
|
Nedelje #12 &
13 |
Pretraga Interneta
|
|
|
A.
O mrezama i hajper tekstu |
|
|
|
|
Prezentacije
projekata s demonstracijama |
Nedelja #14 |
1. Gerard Salton. Automatic text processing: the transformation,
analysis, and retrieval of information by computer.
2. C. J. van Rijsbergen. Information retrieval.
3. Text Retrieval Conference (TREC) proceedings
4. ACM SIGIR Conference Proceedings
5. Technical journals:
a. Information Processing & Management, Pergamon Press
b. Information Retrieval, Kluwer Academic Publishers
c. Computational Linguistics, MIT Press
d. Journal of the ASIS
Tematika clanci i
demonstracije |
Prezentor(i) |
Datum
prezentacije |
1. Obrada prirodnog jezika - raspoloziva sredstva - SMART sistem za pretragu informacija: Prezentacija clanka i demonstracija clanak: SMART/Tutorial/Smart/hands.html |
|
10. 11. 2006. |
2. Pretrazivanje po Internetu: Google-ov uspeh Paper : Papers/Google/Google.pdf |
|
11. 11. 2006. |
3. Ekstenzija vektorskog modela: latentno semanticko indeksiranje clanak: Papers/LSI.ppt |
|
17. 11. 2006. |
4. Tehnike anotacije teksta Paper : Papers/TAT/TAT.ppt |
|
17. 11. 2006. |
5. Pretrazivanje slika i grafika |
|
18. 11. 2006. |
6. Leksikoni, pretrazivacki sistemi i automatska derivacija: WordNet kao primer clanci i resursi: http://wordnet.princeton.edu/ |
|
18. 11. 2006. |
7. Fuzzy logika i model za pretrazivacki sistem |
|
24. 11. 2006. |
8. Automatska sumarizacija clanak: Papers/Summarization/AutoSum.ppt |
|
24. 11. 2006. |
9. MURAX i ASKJEEVES clanak: Papers/MurAskJ/MurAskJ.ppt |
|
25. 11. 2006. |
10. Detekcija i pracenje
tematika clanak: Papers/TDT/TDT2.ppt |
|
25. 11. 2006. |
Kritika ne treba da je duza od jedne stranice. Nešto manje od stranice je takodje prihvatljivo. Svrha kritike nije
sumarizacija clanka vec izbor jedne ili dve znacajne i interesantne tacke iz
rada i komentar o istom(ima).
Pozitivni primeri:
Kritika
mora da bude printovana.
Ona treba da sadrzi naslov clanka, ime njegovog(ih)
autora, zajedno s imenom prezentora na vrhu dokumenta.
Treba
izbegavati vrednosne sudove bez potpore (napr. ‘dopalo mi se što je...’ ili ‘Ne slazem se...’ bez supstance). Ovakvi sudovi su
opravdani samo ako se mogu poduprti cinjenicama iz samog clanka, iz nekog drugog
autoritativnog izvora ili se mogu izvesti nekim logickim rasudjivanjima.
Komentari
u vezi stila pisanja moraju se odvojiti od komentara koji se ticu tehnickog sadrzaja
clanka.
Uputstvo u vezi stila
prezentacije
Duzina : 60-80 minuta
Medijum : PowerPoint, HTML, ili PDF slajdovi.
Uputstvo u vezi stila prezentacije kritike clanaka
Duzina : 20-25 minuta
(15-20 minuta
prezentacije s 5-10 minuta diskusije)
Medijum : PowerPoint, HTML, ili PDF slajdovi.
Primedba u vezi pripremljenosti za prezentacije
drugih studenata utice na ocenu:
(1) Svi clanci iz liste moraju da se procitaju
od strane svakog studenta ovog kursa.
(2) Diskusija posle prezentacija i kritika sluzi da demonstruje
da je student procitao clanak.
(3) Ucešce u diskusijama i nivo
kompetentnosti u istima direktno ce uticati na 20% konacne ocene (stavka: Prisustvovanje
nastavi, ucešce u diskusijama i ulozeni napor).
Ovaj
projekat se bavi istrazivanjem nekog otvorenog problema iz oblasti pretrazivackih
sistema.
On takodje podrazumeva pripremu odgovarajuceg istrazivackog rada za publikovanje
koji ce dati pregled postojecih pristupa, njihovih
slabosti i vrlina, kao i predlog i obrazlozenje autorovog novog i originalnog
pristupa datom problemu.
1. Algoritmi za obradu prirodnih jezika korišteni u pretrazivackim
sistemima
2. Upitnicki
sistemi
3. Evaluacija
performansi sistema za pretragu informacija
4. Metode
za automatsku sumarizaciju
5. Automatizovana
klasifikacija dokumenata
6. Mašinsko ucenje u pretrazivackim sistemima
7. Kros-jezicna
pretraga informacija
8. Kros-jezicna
sumarizacija
9. Multi-medijska
pretraga (govor, video, Internet)
10. Stapanje
(fuzija) informacija
12. 10. 2006