Temu-Kembali Informasi (TKI)

Jadwal: Senin, 12.30, 304.

Penilaian:

Deskripsi: Meliputi prinsip dan teknik dasar yang digunakan dalam pemrolehan-kembali informasi (IR) dan pencarian web, termasuk pencarian berbasis kata kunci, analisa isi (model ruang vektor, model bahasa probabilistik), analisis tautan (PageRank), pengindeksan, klasifikasi teks, klasterisasi dokumen, pencarian agregat, Interaksi pengguna-sistem dalam IR, dan evaluasi sistem IR.

Isi Kuliah: Bidang information retrieval (IR) berkaitan erat dengan analisa, organisasi, penyimpanan dan pemrolehan-kembali data semi-terstruktur dan tak-terstruktur. Matakuliah ini akan menghadirkan suatu kuliah berorientrasi praktek yang fokus pada: teknik-teknik IR, model-model retrieval, pembuatan indeks (indexing), klasifikasi teks, klasterisasi dokumen, konsep relevansi, evaluasi sistem IR, teknologi mesin pencarian dan sistem pemberian rekomendasi. Diberikan sehimpunan informasi (misal dari web) dan suatu sistem temu-kembali informasi (misalnya search engine), kita akan menerapkan tiga langkah information retrieval utama berikut:

  • Bagaimana menginterpretasikan kebutuhan informasi pengguna dan menemukan kembali informasi yang relevan (query, model-model retrieval, dll.)
  • Bagaimana mengelola dan menyajikan informasi yang sudah ditemukan sehingga mudah dikenali topik ketertarikan dari pengguna (ranking, klasterisasi, klasifikasi, dll.)
  • Setelah pengambilan, pengorganisasian dan penyajian informasi dibuat, maka diperlukan pemantauan seberapa efektif atau menguntungkan metode-metode ini dalam akses informasi (interaksi dan evaluasi pengguna-sistem).

Matakuliah ini akan  menitik-beratkan pembahasan pada retrieval data “teks”.

Rencana Topik Pembahasan:

Kuliah ke- Tanggal Isi Kuliah Bahan Bacaan Catatan
1 2017 08 28 Pengantar Perkuliahan
2 2017 09 04 Bab 1: Temu-Kembali Boolean

Bab 2: Kamus Kata & Daftar Posting

IIR Ch.1, MIR Ch.1, MIR 8.1-8.2, Salton 8.1-8.3
IIR Ch.2, MIR 8.2, 7.1.-7.2, Salton 8.6
3 Bab 3: Kamus & Temu-Kembali Toleran IIR Ch.3, MIR 4.2, Salton Ch.9 Proyek #1
4 Bab 4: Pembangunan Indeks

Sub-bab 5.1 Properti statistik dari Term dalam IR

IIR Ch.4, MIR Ch.8
IIR 5.1, MIR 6.1-6.3
5 Bab 6: Penskoran, Pembobotan Term dan Model Ruang Vektor IIR Ch.6, MIR 2.5

File Spreadsheet Perhitungan Cosine Similarity

6 Bab 7: Komputasi skor dalam sistem pencarian lengkap IIR Ch,7, MIR 2.5 Deadline Proyek #1
Proyek #2
7 Bab 8: Evaluasi dalam Temu-Kembali Informasi IIR Ch.8, MIR Ch.3
Ujian Tengah Semester (UTS)
8 Bab 9: Umpan-Balik Relevansi & Ekspansi Query IIR Ch.9, MIR Ch.5 Deadline Proyek #2
9 Bab 11: Probabilistik dalam Temu-Kembali Informasi

(Bab 12: Model-model Bahasa)

Bab 13: Klasifikasi Teks: Naive Bayes

IIR Ch.13 Bab 11 dan 12 hanya sekilas. Hanya topik tertentu dalam Bab 13.
10 Bab 14: Klasifikasi Ruang Vektor IIR 14.1-14.3 Hanya bagian tertentu dari Bab 14
11 Sub-Bab 15.1: Support Vector Machine

Bab 16: Klasterisasi Flat

Bab 17: Klasterisasi Hirarkis

Bab 19: Dasar Pencarian Web

IIR Sec.15.1 IIR Ch.16-17, MIR 5.3
IIR Ch.19, MIR Ch.13
Proyek #3
Hanya topik pilihan: sub-bab 15-1, Bab 16 & 17.
12 Bab 20: Penghimpunan Web dan Indeksnya

Bab 21: Analisa Tautan

IIR Ch.20, MIR Ch.13
IIR Ch.21, MIR 2.7
Hanya bagian pilihan Bab 21
13 Mengenal Sistem Rekomendasi Deadline Proyek #3
14 Review Perkuliahan
Ujian Akhir Semester (UAS)

Sasaran Pembelajaran (Outcomes): Setelah menyelesaikan kuliah ini, mahasiswa akan mampu untuk:

  • Menjelaskan teknik-teknik utama yang digunakan oleh mesin pencarian informasi web besar (search engine terkenal) untuk meranking hasil dari query berbasis kata kunci (keywords), termasuk analisa isi ( model ruang vektor) dan analisa tautan ((PageRank)
  • Menjelaskan teknologi back-end juga front-end yang berkaitan dengan sistem temu-kembali informasi.
  • Melaksanakan penelitian (mengidentifikasi state-of the art, membandingkan metode-metode berbeda, menjelaskan batasan-batasan) dalam area pemrolehan kembali informasi.
  • Memahami konsep dictionaries dan inverted index yang digunakan dalam sistem temu-kembali.
  • Mengklasifikasilan dokumen-dokumen menggunakan metode klasifikasi teks: Naïve Bayes dan k-NN.
  • Mengelompokkan dokumen bersama-sama menggunakan teknik klasterisasi: K-means.
  • Mengukur atau menilai jenis-jenis interaksi sistem dan pengguna menggunakan metode-metode eksperimental dan obvervasional.
  • Memahami penerapan aljabar linier dan peluang dalam IR.

 Buku Referensi:

===============Materi Kuliah Tahun Sebelumnya =======================

Sistem Temu-Kembali Informasi (STKI), Tahun Akademik 2015/2016 Semester Gasal (I)

Pertemuan 01: Pengantar Perkuliahan: Silabus, Penilaian, Tugas-tugas, Proyek, Contoh Search Engine, Information Retrieval dan Recommender System.

Pertemuan 02: Garis Besar Temu-Kembali Informasi dan Sistem Perekomendasi.

Pertemuan 03: Temu-Kembali Boolean.

Bahan Bacaan: IIR Bab 1 (semua), Bab 2 (sub-bab 2.3) dan Bab 3 (sub-bab 3.1)

Pertemuan 04: Kamus dan Temu-Kembali Toleran.

Bahan Bacaan: IIR Bab 2 (sub-bab: 2.1, 2.2, 2.4) dan Bab 3 (sub-bab 3.2, 3.3)

Pertemuan 05: Konstruksi Index.

Bahan Bacaan: IIR Bab 4.

Pertemuan 06: Penskoran, Pembobotan Term dan Perhitungan Kemiripan dalam Model Ruang Vektor. Contoh perhitungan yang telah dibahas di kelas

Bahan Bacaan: IIR sub-bab 6.2, 6.3 dan 6.4 (tidak termasuk 6.4.4), Ilustrasi Preprocessing & Searching (perhitungan kemiripan) dalam Informatiomn Retrieval (manual), Contoh perhitungan kemiripan menggunakan cosine similaity (dapat menggunakan Excel).

Soal Latihan: Perhitungan Kemiripan Antara Query dan Daftar Dokumen menggunakan Cosine Similarity dalam Model Ruang Vektor.

——————————————————————————
UJIAN TENGAH SEMESTER
Soal UTS dapat didownload pada
File ini.
——————————————————————————

Pertemuan 07, 05 Nopember 2015: Teknologi Web Search + Web Crawler: Bahan Bacaan: Buku IIR, Bab 19 dan 20.

Pertemuan 08, 12 Nopember 2015: Perankingan Pada Sistem Pencarian Lengkap (Ril). (Lanjutan dari perhitungan kemiripan, slide pertemuan sebelumnya).

Bahan Bacaan: Buku IIR Bab 7.

Pertemuan 09, 19 Nopember 2015: Evaluasi Sistem IR: Bahan Bacaan: IIR Bab 8.

Pertemuan 10, 26 Nopember 2015: Klasifikasi Teks pada Model Ruang Vektor: Bahan Bacaan: Buku IIR Bab 14

Pertemuan 11, 03 Desember 2015: ::::: DITIADAKAN :::::

Pembahasan mengenai Klasifikasi Teks dengan Naive Bayes akan didiskusikan pada pertemuan tanggal 10 Desember 2015.

Bahan Bacaan: Buku IIR Bab 13

Pertemuan 12 dan 13: Recommender System (Collaborative Filtering & Item-based Similarity).

 

——————————————————————————

Advertisements
%d bloggers like this: