Kuliah ini adalah suatu pengantar kepada teori dan implementasi dari sistem perangkat lunak (software) yang dirancang untuk mencari (menjelajahi) koleksi besar dari teks. Pernahkah anda terpesona dengan bagaimana Web Search Engine bekerja? Kita akan mendiskusikan tentang itu di sini. Information retrieval (IR) atau Temu-Kembali Informasi (TKI) merupakan salah satu cabang tertua dari Informatika, dan dipengaruhi oleh hampir setiap aspek pemanfaatan komputer: “search and replace” dalam suatu word processor, querying suatu card catalog, grep untuk memeriksa kode program, filtering terhadap spam dari email, pencarian Web.
Materi kuliah:
- Pengantar Perkuliahan
- Arsitektur Sistem Temu-Kembali Informasi (STKI)
- Web Crawling dan Analisis Teks
- Inverted Index
- Evaluasi Sistem Temu-Kembali Informasi
- Evaluasi Temu-Kembali Modern
- Model Retrieval Boolean dan Ruang Vektor (Latihan Praktik)
- Ujian Tengah Semester (UTS): Latihan dan Soal UTS dalam file Excel (.xlsx). Hasil kerja UTS dikirimkan ke email husni@trunojoyo.ac.id, deadline pad Ahad 13 Oktober 2019 (jam 23:59:59)
- Ujian Akhir Semester (UAS): Hasil kerja UAS dikirimkan ke email husni@trunojoyo.ac.id, deadline pada Ahad 22 Desember 2019 jam 23:59:59. Soal UAS dapat didownload di sini!
Referensi
- Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008.
- Bruce Croft, Donald Metzler, and Trevor Strohman, Search Engines: Information Retrieval in Practice, Pearson. 2009.
- Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval: The Concepts and Technology behind Search, Pearson 2011.
- Stefan Buettcher, Charles L. A. Clarke, Gordon V. Cormack, Information Retrieval: Implementing and Evaluating Search Engines, The MIT Press. 2010.
- ChengXiang Zhai, Sean Massung. Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining, ACM Press 2016.
- Dan Jurafsky, James H. Martin, Speech and Language Processing (3rd edition draft), 2019. Buku dan slidenya dapat didownload di: https://web.stanford.edu/~jurafsky/slp3/
===============================================================
Materi Kuliah Tahun Sebelumnya
Sistem Temu-Kembali Informasi (STKI), Tahun Akademik 2015/2016 Semester Gasal (I)
- Pertemuan 01: Pengantar Perkuliahan: Silabus, Penilaian, Tugas-tugas, Proyek, Contoh Search Engine, Information Retrieval dan Recommender System.
- Pertemuan 02: Garis Besar Temu-Kembali Informasi dan Sistem Perekomendasi.
- Pertemuan 03: Temu-Kembali Boolean. Bahan Bacaan: IIR Bab 1 (semua), Bab 2 (sub-bab 2.3) dan Bab 3 (sub-bab 3.1)
- Pertemuan 04: Kamus dan Temu-Kembali Toleran. Bahan Bacaan: IIR Bab 2 (sub-bab: 2.1, 2.2, 2.4) dan Bab 3 (sub-bab 3.2, 3.3)
- Pertemuan 05: Konstruksi Index. Bahan Bacaan: IIR Bab 4.
- Pertemuan 06: Penskoran, Pembobotan Term dan Perhitungan Kemiripan dalam Model Ruang Vektor. Contoh perhitungan yang telah dibahas di kelas. Bahan Bacaan: IIR sub-bab 6.2, 6.3 dan 6.4 (tidak termasuk 6.4.4), Ilustrasi Preprocessing & Searching (perhitungan kemiripan) dalam Informatiomn Retrieval (manual), Contoh perhitungan kemiripan menggunakan cosine similaity (dapat menggunakan Excel). Soal Latihan: Perhitungan Kemiripan Antara Query dan Daftar Dokumen menggunakan Cosine Similarity dalam Model Ruang Vektor.
- UJIAN TENGAH SEMESTER. Soal UTS dapat didownload pada File ini.
—————————————————————————— - Pertemuan 07, 05 Nopember 2015: Teknologi Web Search + Web Crawler: Bahan Bacaan: Buku IIR, Bab 19 dan 20.
- Pertemuan 08, 12 Nopember 2015: Perankingan Pada Sistem Pencarian Lengkap (Ril). (Lanjutan dari perhitungan kemiripan, slide pertemuan sebelumnya). Bahan Bacaan: Buku IIR Bab 7.
- Pertemuan 09, 19 Nopember 2015: Evaluasi Sistem IR: Bahan Bacaan: IIR Bab 8.
- Pertemuan 10, 26 Nopember 2015: Klasifikasi Teks pada Model Ruang Vektor. Bahan Bacaan: Buku IIR Bab 14
- Pertemuan 11, 03 Desember 2015: Libur. Pembahasan mengenai Klasifikasi Teks dengan Naive Bayes akan didiskusikan pada pertemuan tanggal 10 Desember 2015. Bahan Bacaan: Buku IIR Bab 13
- Pertemuan 12 dan 13: Recommender System (Collaborative Filtering & Item-based Similarity).
——————————————————————————