252-0341-01L  Information Retrieval

SemesterFrühjahrssemester 2022
DozierendeG. Fourny
Periodizitätjährlich wiederkehrende Veranstaltung
LehrspracheEnglisch



Lehrveranstaltungen

NummerTitelUmfangDozierende
252-0341-01 VInformation Retrieval
Online lecture: This lecture will primarily take place online. Reserved rooms will remain blocked on campus for students to follow the course from there.
2 Std.
Fr14:15-16:00HG F 3 »
G. Fourny
252-0341-01 UInformation Retrieval
Gruppeneinteilung erfolgt über myStudies.
1 Std.
Fr16:15-17:00CAB G 59 »
16:15-17:00CHN D 42 »
16:15-17:00CHN D 44 »
16:15-17:00HG F 3 »
G. Fourny

Katalogdaten

KurzbeschreibungThis course gives an introduction to information retrieval with a focus on text documents and unstructured data.

Main topics comprise document modelling, various retrieval techniques, indexing techniques, query frameworks, optimization, evaluation and feedback.
LernzielWe keep accumulating data at an unprecedented pace, much faster than we can process it. While Big Data techniques contribute solutions accounting for structured or semi-structured shapes such as tables, trees, graphs and cubes, the study of unstructured data is a field of its own: Information Retrieval.

After this course, you will have in-depth understanding of broadly established techniques in order to model, index and query unstructured data (aka, text), including the vector space model, boolean queries, terms, posting lists, dealing with errors and imprecision.

You will know how to make queries faster and how to make queries work on very large datasets. You will be capable of evaluating the quality of an information retrieval engine.

Finally, you will also have knowledge about alternate models (structured data, probabilistic retrieval, language models) as well as basic search algorithms on the web such as Google's PageRank.
Inhalt1. Introduction

2. Boolean retrieval: the basics of how to index and query unstructured data.

3. Term vocabulary: pre-processing the data prior to indexing: building the term vocabulary, posting lists.

4. Tolerant retrieval: dealing with spelling errors: tolerant retrieval.

5. Index construction: scaling up to large datasets.

6. Index compression: how to improve performance by compressing the index in various ways.

7. Ranked retrieval: how to ranking results with scores and the vector space model

8. Scoring in a bigger picture: taking ranked retrieval to the next level with various improvements, including inexact retrieval

9. Probabilistic information retrieval: how to leverage Bayesian techniques to build an alternate, probabilistic model for information retrieval

10. Language models: another alternate model based on languages, automata and document generation

11. Evaluation: precision, recall and various other measurements of quality

12. Web search: PageRank

13. Wrap-up.

The lecture structure will follow the pedagogical approach of the book (see material).

The field of information retrieval also encompasses machine learning aspects. However, we will make a conscious effort to limit overlaps, and be complementary with, the Introduction to Machine Learning lecture.
LiteraturC. D. Manning, P. Raghavan, H. Schütze, Introduction to Information Retrieval, Cambridge University Press.
Voraussetzungen / BesonderesPrior knowledge in elementary set theory, logics, linear algebra, data structures, abstract data types, algorithms, and probability theory (at the Bachelor's level) is required, as well as programming skills (we will use Python).
KompetenzenKompetenzen
Fachspezifische KompetenzenKonzepte und Theoriengeprüft
Verfahren und Technologiengeprüft
Methodenspezifische KompetenzenAnalytische Kompetenzengeprüft
Entscheidungsfindunggefördert
Medien und digitale Technologiengefördert
Problemlösunggeprüft
Projektmanagementgefördert
Soziale KompetenzenKommunikationgeprüft
Kooperation und Teamarbeitgefördert
Kundenorientierunggefördert
Menschenführung und Verantwortunggefördert
Selbstdarstellung und soziale Einflussnahmegefördert
Sensibilität für Vielfalt geprüft
Verhandlunggeprüft
Persönliche KompetenzenAnpassung und Flexibilitätgefördert
Kreatives Denkengeprüft
Kritisches Denkengeprüft
Integrität und Arbeitsethikgefördert
Selbstbewusstsein und Selbstreflexion gefördert
Selbststeuerung und Selbstmanagement gefördert

Leistungskontrolle

Information zur Leistungskontrolle (gültig bis die Lerneinheit neu gelesen wird)
Leistungskontrolle als Semesterkurs
ECTS Kreditpunkte4 KP
PrüfendeG. Fourny
FormSessionsprüfung
PrüfungsspracheEnglisch
RepetitionDie Leistungskontrolle wird nur in der Session nach der Lerneinheit angeboten. Die Repetition ist nur nach erneuter Belegung möglich.
Prüfungsmodusschriftlich 180 Minuten
Zusatzinformation zum PrüfungsmodusWorking on the exercises is rewarded in the sense of ETH's continuous performance assessment with up to 0.25 bonus points. In principle, it is expected that students solve all exercises. In order to control this, in three weeks indicated on the course website, there will be a graded assignment. If two of these three graded assignments are passed, then 0.25 will be added to the final grade.
Hilfsmittel schriftlichGeneral dictionaries are allowed!
Digitale PrüfungDie Prüfung findet auf Geräten statt, die von der ETH Zürich zur Verfügung gestellt werden.
FernprüfungDas Ablegen als Fernprüfung ist nicht möglich.
Diese Angaben können noch zu Semesterbeginn aktualisiert werden; verbindlich sind die Angaben auf dem Prüfungsplan.

Lernmaterialien

 
HauptlinkInformation
LiteraturC. D. Manning, P. Raghavan, H. Schütze, Introduction to Information Retrieval, Cambridge University
Es werden nur die öffentlichen Lernmaterialien aufgeführt.

Gruppen

252-0341-01 UInformation Retrieval
GruppenG-01
Fr16:15-17:00CAB G 59 »
G-02
Fr16:15-17:00CHN D 44 »
G-03
Fr16:15-17:00HG F 3 »
G-04
Fr16:15-17:00CHN D 42 »

Einschränkungen

Keine zusätzlichen Belegungseinschränkungen vorhanden.

Angeboten in

StudiengangBereichTyp
Informatik BachelorWahlfächerWInformation
Informatik DZFachwissenschaftliche Vertiefung mit pädagogischem FokusWInformation
Informatik LehrdiplomFachwiss. Vertiefung mit pädagogischem Fokus und weitere FachdidaktikWInformation