Temu-Kembali Informasi (TKI)

Kuliah ini adalah suatu pengantar kepada teori dan implementasi dari sistem perangkat lunak (software) yang dirancang untuk mencari (menjelajahi) koleksi besar dari teks. Pernahkah anda terpesona dengan bagaimana Web Search Engine bekerja? Kita akan mendiskusikan tentang itu di sini. Information retrieval (IR) atau Temu-Kembali Informasi (TKI) merupakan salah satu cabang tertua dari Informatika, dan dipengaruhi oleh hampir setiap aspek pemanfaatan komputer: “search and replace” dalam suatu word processor, querying suatu card catalog, grep untuk memeriksa kode program, filtering terhadap spam dari email, pencarian Web.

Kuliah ini akan terbagi dalam dua sasaran utama. Pertama adalah untuk men-cover fundamental dari sistem IR: retrieval models, search algorithms, dan IR evaluation. Bagian kedua adalah untuk memberikan pengalaman isu-isu implementasi dengan menulis langsung kode program dari text search engine sendiri dan menguji-cobakannya pada suatu koleksi teks contoh. Ini akan berupa suatu proyek sepanjang semeter yang rincinya dapat dilihat pada jadwal yang diberikan nanti. Anda juga dimita untuk memonitor perkembangan terkini dari bidang IR ini dengan membuat survey paper terbaru.

Kuliah ini pertama-tama akan memperkenalkan konsep-konsep standar dalam information retrieval seperti documents, queries, collections, dan relevance.

Pendekatan indexing yang efektif, sehingga memungkinkan identifikasi yang cepat dari dokumen-dokumen kandidat jawaban akan dijadikan perhatian. Untuk menemukan jawaban terbaik, serentang pendekatan querying seperti Temu-Kembali Boolean dan Berperingkat  dikaji.  Teknik-teknik Modern untuk crawling data dari web, dan fungsi-fungsi dkungan seperti query suggestion dan spelling correction diperlajari, juga pemilihan area aplikasi khusus seperti document summarisation, cross-lingual retrieval, dan image search.

Anda harus telah lulus kuliah Struktur Data, Algoritma Pemrograman, Aljabar Linier. Sedangkan Statistika dan Penambangan Data direkomendasikan meskipun tidak diharuskan; semua itu memberikan background yang akan sangat membantu anda memahami banyak konsep IR.

Referensi

  1. Bruce Croft, Donald Metzler, and Trevor Strohman, Search Engines: Information Retrieval in Practice, Pearson. 2009.
  2. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008.
  3. Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval: The Concepts and Technology behind Search, Pearson 2011.
  4. Stefan Buettcher, Charles L. A. Clarke, Gordon V. Cormack, Information Retrieval: Implementing and Evaluating Search Engines, The MIT Press. 2010.
  5. ChengXiang Zhai, Sean Massung. Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining, ACM Press 2016.
  6. Dan Jurafsky, James H. Martin, Speech and Language Processing (3rd edition draft), 2017. Buku dan slidenya dapat didownload di: https://web.stanford.edu/~jurafsky/slp3/

Buku Teks untuk kuliah ini adalah Search Engines: Information Retrieval in Practice, yang ditulis oleh Croft, Metzler dan Strohman (CMS). Buku ini menjelaskan langkah-langkah pembangunan suatu Search Engine, sebagai salah satu wujud terapan dari konsep Information Retrieval. Jika anda punya versi elektroniknya, itu sudah cukuo bagus. Slide dari buku tersebut tersedia di: http://www.search-engines-book.com/slides/.

Materi Kuliah

Secara garis besar, Temu-Kembali Informasi 2018 ini mendiskusikan topik inti dari Information Retrieval, mencakup:

1. Temu-Kembali Informasi & Search Engine (Slide)

2. Arsitektur Search Engine (Slide, Versi Ringkas++)

3. Web Crawling dan Feeding (Slide)

Smartcrawler: A Two-stage Crawler Novel Approach for Web Crawling

Guidelines for Online Network Crawling: A Study of Data Collection Approaches and Network Properties

Chapter.06 – Web Crawling and Scraping

Web Crawlers Data Mining Techniques For Handling Big Data Analytics

4. Pemrosesan Teks (Slide)

A Review: Data Preprocessing And Techniques Of Text Mining

Normalization of Text in Social Media – Analyzing the Need for Pre-processing Techniques and its Roles

5. Pemeringkatan (Ranking) dengan Indeks

File Excel: Perhitungan Kemiripan Dokumen dengan Query

Contoh TFIDF dan COSIM (1, 2)

Ujian Tengah Semester: Silakan Download dan Selesaikan Persoalan yang diberikan!

6. Query dan Antarmuka

7. Model-model Temu-Kembali

8. Evaluasi terhadap Search Engine

9. Klasifikasi dan Klasterisasi

10. Pencarian Sosial

11. Sistem Rekomendasi

12. Sistem Rekomendasi bidang Pariwisata.

UJIAN AKHIR SEMESTER (UAS)

Mereview Satu Artikel Ilmiah di bidang Information Retrieval

  • Proyek dan skema UAS sebelumnya dinyatakan GUGUR. Bagi mahasiswa yang sudah mengerjakan, silakan memperlihatkan progressnya. Semoga dapat menjadi penambah nilai 🙂
  • Setiap mahasiswa diharuskan membaca (mereview) dengan cermat satu paper yang dapat diambil di:

https://drive.google.com/open?id=1j1pe2lkufTUnBTmv5eYEyw3qckFCCOUL

  • Secara rinci, tugas UASnya adalah:
    • Download satu paper dari URL di atas. Pastikan paper tersebut tidak akan digunakan oleh Mahasiswa lain.
    • Print (cetak) dan Baca dengan cermat dan tandai poin-poin penting di dalam paper tersebut
    • Buat slide (Powerpoint), sebanyak 5 s.d 10 slide isi (selain halaman judul, daftar isi dan ucapan terimakasih), sesuai poin-poin penting dari paper yang anda review.
    • Presentasikan hasil review anda tersebut. Paper yang telah diprint dan ditandai… dikumpulkan.
    • Sesuai hasil presentasi, perbaiki slide hasil review. Kirim ke email husni@trunojoyo.ac.id slide yang telah direvisi.
  • Deadline presentasi: 28 Desember 2018
  • Deadline pengumpulan slide revisi via email: 31 Desember 2018

Catatan:

  • Gambar dari paper tidak boleh di-copy-paste-kan langsung ke dalam slide. Silakan digambar ulang.
  • Jika dua mahasiswa mereview paper yang sama, maka nilainya maksimal dibagi 2.
  • Slide harus menggunakan bahasa Indonesia yang benar.

===============================================================

Materi Kuliah Tahun Sebelumnya

Sistem Temu-Kembali Informasi (STKI), Tahun Akademik 2015/2016 Semester Gasal (I)

Pertemuan 01: Pengantar Perkuliahan: Silabus, Penilaian, Tugas-tugas, Proyek, Contoh Search Engine, Information Retrieval dan Recommender System.

Pertemuan 02: Garis Besar Temu-Kembali Informasi dan Sistem Perekomendasi.

Pertemuan 03: Temu-Kembali Boolean.

Bahan Bacaan: IIR Bab 1 (semua), Bab 2 (sub-bab 2.3) dan Bab 3 (sub-bab 3.1)

Pertemuan 04: Kamus dan Temu-Kembali Toleran.

Bahan Bacaan: IIR Bab 2 (sub-bab: 2.1, 2.2, 2.4) dan Bab 3 (sub-bab 3.2, 3.3)

Pertemuan 05: Konstruksi Index.

Bahan Bacaan: IIR Bab 4.

Pertemuan 06: Penskoran, Pembobotan Term dan Perhitungan Kemiripan dalam Model Ruang Vektor. Contoh perhitungan yang telah dibahas di kelas

Bahan Bacaan: IIR sub-bab 6.2, 6.3 dan 6.4 (tidak termasuk 6.4.4), Ilustrasi Preprocessing & Searching (perhitungan kemiripan) dalam Informatiomn Retrieval (manual), Contoh perhitungan kemiripan menggunakan cosine similaity (dapat menggunakan Excel).

Soal Latihan: Perhitungan Kemiripan Antara Query dan Daftar Dokumen menggunakan Cosine Similarity dalam Model Ruang Vektor.

——————————————————————————
UJIAN TENGAH SEMESTER
Soal UTS dapat didownload pada
File ini.
——————————————————————————

Pertemuan 07, 05 Nopember 2015: Teknologi Web Search + Web Crawler: Bahan Bacaan: Buku IIR, Bab 19 dan 20.

Pertemuan 08, 12 Nopember 2015: Perankingan Pada Sistem Pencarian Lengkap (Ril). (Lanjutan dari perhitungan kemiripan, slide pertemuan sebelumnya).

Bahan Bacaan: Buku IIR Bab 7.

Pertemuan 09, 19 Nopember 2015: Evaluasi Sistem IR: Bahan Bacaan: IIR Bab 8.

Pertemuan 10, 26 Nopember 2015: Klasifikasi Teks pada Model Ruang Vektor: Bahan Bacaan: Buku IIR Bab 14

Pertemuan 11, 03 Desember 2015: ::::: DITIADAKAN :::::

Pembahasan mengenai Klasifikasi Teks dengan Naive Bayes akan didiskusikan pada pertemuan tanggal 10 Desember 2015.

Bahan Bacaan: Buku IIR Bab 13

Pertemuan 12 dan 13: Recommender System (Collaborative Filtering & Item-based Similarity).

 

——————————————————————————

Advertisements