Temu-Kembali Informasi (TKI)

Kuliah ini adalah suatu pengantar kepada teori dan implementasi dari sistem perangkat lunak (software) yang dirancang untuk mencari (menjelajahi) koleksi besar dari teks. Pernahkah anda terpesona dengan bagaimana Web Search Engine bekerja? Kita akan mendiskusikan tentang itu di sini. Information retrieval (IR) atau Temu-Kembali Informasi (TKI) merupakan salah satu cabang tertua dari Informatika, dan dipengaruhi oleh hampir setiap aspek pemanfaatan komputer: “search and replace” dalam suatu word processor, querying suatu card catalog, grep untuk memeriksa kode program, filtering terhadap spam dari email, pencarian Web.

Kuliah ini akan terbagi dalam dua sasaran utama. Pertama adalah untuk men-cover fundamental dari sistem IR: retrieval models, search algorithms, dan IR evaluation. Bagian kedua adalah untuk memberikan pengalaman isu-isu implementasi dengan menulis langsung kode program dari text search engine sendiri dan menguji-cobakannya pada suatu koleksi teks contoh. Ini akan berupa suatu proyek sepanjang semeter yang rincinya dapat dilihat pada jadwal yang diberikan nanti. Anda juga dimita untuk memonitor perkembangan terkini dari bidang IR ini dengan membuat survey paper terbaru.

Kuliah ini pertama-tama akan memperkenalkan konsep-konsep standar dalam information retrieval seperti documents, queries, collections, dan relevance.

Pendekatan indexing yang efektif, sehingga memungkinkan identifikasi yang cepat dari dokumen-dokumen kandidat jawaban akan dijadikan perhatian. Untuk menemukan jawaban terbaik, serentang pendekatan querying seperti Temu-Kembali Boolean dan Berperingkat  dikaji.  Teknik-teknik Modern untuk crawling data dari web, dan fungsi-fungsi dkungan seperti query suggestion dan spelling correction diperlajari, juga pemilihan area aplikasi khusus seperti document summarisation, cross-lingual retrieval, dan image search.

Anda harus telah lulus kuliah Struktur Data, Algoritma Pemrograman, Aljabar Linier. Sedangkan Statistika dan Penambangan Data direkomendasikan meskipun tidak diharuskan; semua itu memberikan background yang akan sangat membantu anda memahami banyak konsep IR.

Referensi

  1. Bruce Croft, Donald Metzler, and Trevor Strohman, Search Engines: Information Retrieval in Practice, Pearson. 2009.
  2. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008.
  3. Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval: The Concepts and Technology behind Search, Pearson 2011.
  4. Stefan Buettcher, Charles L. A. Clarke, Gordon V. Cormack, Information Retrieval: Implementing and Evaluating Search Engines, The MIT Press. 2010.
  5. ChengXiang Zhai, Sean Massung. Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining, ACM Press 2016.
  6. Dan Jurafsky, James H. Martin, Speech and Language Processing (3rd edition draft), 2017. Buku dan slidenya dapat didownload di: https://web.stanford.edu/~jurafsky/slp3/

Buku Teks untuk kuliah ini adalah Search Engines: Information Retrieval in Practice, yang ditulis oleh Croft, Metzler dan Strohman (CMS). Buku ini menjelaskan langkah-langkah pembangunan suatu Search Engine, sebagai salah satu wujud terapan dari konsep Information Retrieval. Jika anda punya versi elektroniknya, itu sudah cukuo bagus. Slide dari buku tersebut tersedia di: http://www.search-engines-book.com/slides/.

Materi Kuliah

Secara garis besar, Temu-Kembali Informasi 2018 ini mendiskusikan topik inti dari Information Retrieval, mencakup:

1. Temu-Kembali Informasi & Search Engine (Slide)

2. Arsitektur Search Engine (Slide, Versi Ringkas++)

3. Web Crawling dan Feeding (Slide)

Smartcrawler: A Two-stage Crawler Novel Approach for Web Crawling

Guidelines for Online Network Crawling: A Study of Data Collection Approaches and Network Properties

Chapter.06 – Web Crawling and Scraping

Web Crawlers Data Mining Techniques For Handling Big Data Analytics

4. Pemrosesan Teks (Slide)

A Review: Data Preprocessing And Techniques Of Text Mining

Normalization of Text in Social Media – Analyzing the Need for Pre-processing Techniques and its Roles

5. Pemeringkatan (Ranking) dengan Indeks

6. Query dan Antarmuka

7. Model-model Temu-Kembali

8. Evaluasi terhadap Search Engine

9. Klasifikasi dan Klasterisasi

10. Pencarian Sosial

11. Sistem Rekomendasi

12. Sistem Rekomendasi bidang Pariwisata.

Tugas Kuliah

Tugas Personal: Membuat Paper Survey

  • Mahasiswa TKI2018 diharapkan mampu menulis paper survey yang komprehensif mengenai salah satu bidang Information Retrieval dan mungkin selanjutnya dapat dijadikan topik kajian Skripsi. Paper ini harus mengacu (mensitasi) setidaknya 18 paper 5 tahun terakhir.
  • Silakan ambil Template contoh untuk Term Paper yang bagus di sini.
  • Pada akhir semester, setiap mahasiswa (mandiri) harus memberikan presentasi mengenai topik yang dipilih, direview secara sistematis dan dituliskan menjadi paper survey tersebut.
  • Didiskusikan pekan depan, Siapkan diri anda dengan setidaknya 2-3 sumber (referensi) awal dari topik yang anda pilih.

Tugas Kelompok: Proyek Pemrograman Search Engine

  • Buat kelompok 4 s.d 5 mahasiswa
  • Membuat Search Engine lengkap namun tetap sederhana
  • Ikuti arsitektur yang ada atau arsitektur lain (harus ada referensi)
  • Bahasa pemrograman bebas… Sebaiknya Java, Go atau Python
  • Laporan progress 2 pekanan: 1 halaman, apa yang telah dilakukan selama 2 pekan, apa masalah yang muncul, apa yang akan ditangani 2 pekan ke depan…
  • Laporan akhir + Presentasi di bulan Desember 2018

 

Materi Kuliah Tahun Sebelumnya

Sistem Temu-Kembali Informasi (STKI), Tahun Akademik 2015/2016 Semester Gasal (I)

Pertemuan 01: Pengantar Perkuliahan: Silabus, Penilaian, Tugas-tugas, Proyek, Contoh Search Engine, Information Retrieval dan Recommender System.

Pertemuan 02: Garis Besar Temu-Kembali Informasi dan Sistem Perekomendasi.

Pertemuan 03: Temu-Kembali Boolean.

Bahan Bacaan: IIR Bab 1 (semua), Bab 2 (sub-bab 2.3) dan Bab 3 (sub-bab 3.1)

Pertemuan 04: Kamus dan Temu-Kembali Toleran.

Bahan Bacaan: IIR Bab 2 (sub-bab: 2.1, 2.2, 2.4) dan Bab 3 (sub-bab 3.2, 3.3)

Pertemuan 05: Konstruksi Index.

Bahan Bacaan: IIR Bab 4.

Pertemuan 06: Penskoran, Pembobotan Term dan Perhitungan Kemiripan dalam Model Ruang Vektor. Contoh perhitungan yang telah dibahas di kelas

Bahan Bacaan: IIR sub-bab 6.2, 6.3 dan 6.4 (tidak termasuk 6.4.4), Ilustrasi Preprocessing & Searching (perhitungan kemiripan) dalam Informatiomn Retrieval (manual), Contoh perhitungan kemiripan menggunakan cosine similaity (dapat menggunakan Excel).

Soal Latihan: Perhitungan Kemiripan Antara Query dan Daftar Dokumen menggunakan Cosine Similarity dalam Model Ruang Vektor.

——————————————————————————
UJIAN TENGAH SEMESTER
Soal UTS dapat didownload pada
File ini.
——————————————————————————

Pertemuan 07, 05 Nopember 2015: Teknologi Web Search + Web Crawler: Bahan Bacaan: Buku IIR, Bab 19 dan 20.

Pertemuan 08, 12 Nopember 2015: Perankingan Pada Sistem Pencarian Lengkap (Ril). (Lanjutan dari perhitungan kemiripan, slide pertemuan sebelumnya).

Bahan Bacaan: Buku IIR Bab 7.

Pertemuan 09, 19 Nopember 2015: Evaluasi Sistem IR: Bahan Bacaan: IIR Bab 8.

Pertemuan 10, 26 Nopember 2015: Klasifikasi Teks pada Model Ruang Vektor: Bahan Bacaan: Buku IIR Bab 14

Pertemuan 11, 03 Desember 2015: ::::: DITIADAKAN :::::

Pembahasan mengenai Klasifikasi Teks dengan Naive Bayes akan didiskusikan pada pertemuan tanggal 10 Desember 2015.

Bahan Bacaan: Buku IIR Bab 13

Pertemuan 12 dan 13: Recommender System (Collaborative Filtering & Item-based Similarity).

 

——————————————————————————

%d bloggers like this: