True SE: Web Portal + Search Engine trunojoyo.ac.id


Hampir semua universitas atau perguruan tinggi di Indonesia mempunyai situs, baik untuk level universitas, unit/fakultas, jurusan/program studi sampai dengan laboratorium, dosen, unit kegiatan mahasiswa bahwa blog. Begitu pula pada Universitas Trunojoyo. Makin lama makin banyak informasi yang tersedia pada website-website di bawah domain trunojoyo.ac.id, bukan hanya http://www.trunojoyo.ac.id.

Sayangnya, ada beberapa hal yang sangat menyusahkan pengunjung mendapatkan informasi secara lengkap dan terpadu dari website-website tersebut. Pertama, situs web utama, http://www.trunojoyo.ac.id tidak menyediakan akses ke berbagai situs lain yang berada di bawah domain yang sama. Pengunjung harus mengetahui setiap alamat (URL) yang perlu dikunjungi. Kedua, pengunjung tidak dapat mengetahui dimana saja informasi terkait tersedia. Misalnya beasiswa, jika pada situs web Fakultas Teknik terdapat pengumuman beasiswa XYZ, dimana informasi lebih detail atau terkait tersedia? di Fakultas lain atau di Universitas?


Anda mungkin mengira dua hal di atas dapat diselesaikan memanfaatkan search engine seperti Google, Yahoo atau Bing. Nyatanya? Informasi yang tersedia di web search engine ngetop, Google misalnya, bersifat tak up-to-date. Informasi yang baru saja diposting pada husni.trunojoyo.ac.id tidak otomatis diIndex dan tersedia pada google.co.ic. Perlu waktu menunggu jatah crawler dari Google mampir ke situs kita, mengindeksnya dan kemudian menampilkan pada situs search engine saat ada permintaan dari pengguna. Ini merupakan hal ketiga yang perlu diperhatikan.

Saya melihat, salah satu solusi yang dapat digunakan adalah dengan membangun suatu search engine yang dipadukan dengan portal web. Search engine menghimpun semua informasi dari semua website di bawah domain trunojoyo.ac.id dan memberikan daftar dokumen yang relevan dengan query pengguna. Sedangkan web portal mengklasifikasi berbagai informasi yang terdapat pada search engine dan kemudian menyediakannya secara ramah kepada pengunjung. Web portal berbasis search engine ini saya yakini dapat memuaskan kebutuhan informasi pengguna terkait dengan Universitas Trunojoyo.

Berikut ini adalah arsitektur umum dari suatu search engine (diambil dari Microsoft Asia):

Secara garis besar, search engine terdiri dari dua bagian utama, yaitu bagian online dan offline. Bagian online menyediakan antarmuka kepada pengguna. Sistem memanfaatkan antarmuka tersebut untuk menerima query dari pengguna dan menyediakan daftar dokumen yang relevan dengan query tersebut. Bagian offline berfungsi menghimpun dokumen dari WWW (web) dan membangun suatu inverted index yang selanjutkan akan digunakan oleh bagian online untuk memroses query dari pengguna.

Arsitektur dari True Crawler yang sangat sederhana diperlihatkan pada gambar berikut:

True Crawler (Crawler dan Parser) merupakan komponen yang sangat penting pada bagian offline, selain komponen Index Builder. Hasil yang diberikan oleh Parser akan digunakan oleh Index Builder untuk membangun inverted index.

Gambar di bawah ini mewakili proses penanganan Query dari pengguna, yaitu berjalan pada bagian Online:

Pada gambar di atas, inverted index yang dihasilkan (berbingkai biru) adalah hasil akhir dari tahapan offline. Tahapan online dimulai dengan menerima Query dari pengguna. Query ini akan ditransformasi memanfaatkan metode preprocessing untuk menghasilkan keyword yang mewakili Query tersebut. Gambar di atas memperlihatkan kata “is”, “the” dan “of” dihilangkan. Keyword yang dihasilkan lebih pendek daripada Query.

Keyword akan dibandingkan dengan dokumen-dokumen dalam sistem (yang disedikan dalam bentuk index). Kemiripan antara Query dan dokumen, umumnya dihitung menggunakan kemiripan cosinus (Cosine Similarity). Semakin besar nilai cosinus maka semakin dekat dokumen tersebut dengan query. Daftar dokumen yang mirip dengan Query akan diurutkan. Daftar terurut inilah yang akan dikembalikan kepada pengguna.

Bagaimana fase offline menghasilkan inverted index? Ada dua langkah besar di sini, yaitu preprocessing + pemberian bobot dan penyimpanan index. Gambar berikut meperlihatkan 5 proses yang terlibat dalam preprocessing dan penyimpanan index:

Proses lain yang juga penting adalah klasifikasi, terutama terhadap dokumen teks. Klasifikasi teks sangbat membantu dalam menyediakan dokumen yang tertata dan terkategori dengan tepat kepada pengguna.

Gambar berikut memperlihatkan proses dari klasifikasi teks secara umum:

Proses klasifikasi melibatkan proses lain bernama Natural Languange Processing (NLP), yaitu pemrosesan bahasa yang umum digunakan oleh manusia. NLP termasuk stop-words removal, stemming, dan tokenisasi. Feature dari dokumen dapat berupa term atau kata. Biasanya term-term yang tak bermakna atau sering muncul dalam setiap dokumen akan direduksi. Hasil reduksi ini akan dibandingkan dengan data training. Hasilnya adalah masukkan dokumen yang ditest ke dalam salah satu dari kelas yang sudah didefinisikan sebelumnya (pre-defined).

Semoga tulisan singkat ini bermanfaat :-)

  1. fazza
    4 January 2011 at 4:44 am | #1

    Ringkasan proposal pak ?
    hehehehe..

  2. 7 January 2011 at 2:53 pm | #2

    bukan…tapi hampir serupa :-)

  3. alif
    18 June 2011 at 9:14 am | #3

    pak, ijin ambil artikelnya..hehe…buat referensi

  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Follow

Get every new post delivered to your Inbox.

Join 34 other followers

%d bloggers like this: