Focused Web Crawler


Focused Web Crawler merupakan suatu  web crawler yang bertujuan secara selektif mencari halaman-halaman web yang relevan dengan himpunan topik tertentu yang telah didefinisikan sebelumnya sehingga crawler tidak mencari seluruh web secara mendalam. Focused Crawler memanfaatkan aturan-aturan keputusan berdasarkan pada analisis isi, struktur link dan teks anchor untuk menjaga agar crawler fokus pada topik tertentu, seperti bersepedaatau ”HIV”. Di sisi lain, web crawler juga dapat difokuskan pada target format dokumen atau non-dokumen tertentu (PDF, Doc, audio dan video).

Heuristik berdasarkan 4 hipotesis dapatb dilibatkan untuk membangun suatu focused crawler terhadap jenis-jenis media terterntu. Keempat hipotesis tersebut adalah (H1) ekstensi file dari bagian FILE dari suatu URI menunjukkan jenis media dari file tersebut. (H2) komponen PATH dari suatu URI menunjukkan jenis media dari file tersebut. (H3) file header Content-type menunjukkan jenis media dari file. (H4) Posisi dari link did alam suatu dokumen HTML menunjukkan jenis media dari target link.

Kinerja dan efisiensi dari suatu focused crawler sangat ditentukan oleh strategi untuk menentukan urutan dari pemrolehan (retrieval) halaman-halaman web. Telah ada suatu topical crawler terintegrasi bernama AuToCrawler yang terdiri dari modul spesifikasi ketertarikan pengguna yang menghubungkan pengguna ke search engine untuk mengidentifikasi contoh halaman target dan kata kunci untuk menetapkan topik. AutoCrawler mengurutkan daftar URL dengan mengkombinasikan fitur dari pendekatan grafik conteks yang diintegrasikan dengan predictor yang mampu mempelajari isi teks, teks anchor, token-token URL dan kata kunci). Strategi BFS, tunnelling dan relevance feedback juga digunakan untuk mengatur fokus penelusuran selama proses crawling.

Kemudian juga telah ada focused crawler bernama Topic-based Intelligent Crawler  (TIC) . Pada TIC setiap halaman web baru yang didownload oleh crawler dibandingkan dengan seed untuk mengetahui relevan tidaknya halaman baru dengan suatu topik. Satu siklus lengkap dari proses ini terdiri dari empat tahapan penting. Pertama dilakukan identifikasi terhadap halaman-halaman hub yang berasosiasi dengan halaman seed. Kedua, halaman seed dan hub-hubnya dibersihkan dan kemudian informasi teks murni di dalamnya diekstrak. Ketiga adalah mengidentifikasi topik untuk setiap halaman dan langkah terakhir adalah menemukan hub-hub dengan topik yang mirip dengan  halaman seed tersebut.

Focused web crawler berbasis ontology juga telah ada, sebagian besar bekerja dengan mengestimasi isi semantik dari suatu URL berdasarkan pada suatu ontology bergantung domain, dalam rangka mendukung metode yang digunakan untuk menentukan prioritas antrian URL. Crawler memelihara suatu antrian URL yang telah dikunjungi pada setiap tingkatan, dan kemudian memilih dari antrian ini, URL berikutnya untuk dikunjungi berbasarkan pada ranking konseptual dari halaman pada level tersebut diperoleh dari ontology domain. Crawler yang dibangun untuk suatu domain khusus tentu tidak dapat digunakan untuk menghimpun halaman-halaman dari domain lain. Karena itu mereka mengusulkan suatu focused web crawler dimana penentuan topik didasarkan pada konsep memanfaatkan ontology dari dokumen yang telah disiapkan sebelumnya, tidak khusus untuk domain tertentu. Secara garis besar, sistem ini awalnya terdiri dari ontology dan daftar dokumen awal (seed) yang menjadi fokus yang diambil dari suatu halaman web. Link-link di dalam halaman seed diekstrak dan kemudian page downloader mendownload halaman-halaman yang ditunjuk oleh link-link tersebut. Halaman seed dan halaman-halaman yang baru didownload diubah ke bentuk vektor konsep memanfaatkan ontology. Kemudian dihitung relevansi halaman-halaman tadi dengan halaman sumbernya dan kemiripan antara halaman-halaman tersebut pada level yang sama. Semakin tinggi tingkat kemiripan antara suatu halaman dengan sumbernya, maka semakin besar peluang halaman tersebut termasuk fokus dari sistem crawler yang diharapkan.

Metode focused web crawling  yang didasarkan pada ontologi dari suatu domain dan Formal Concept Analysis (FCA) mulai sering digunakan. Metode ini dimulai dengan membangun suatu graf kemiripan berbasis WordNet dan kedekatan secara konseptual. Kemudian dibentuk suatu Similarity Concept Context Graph (SCCG). Pada basis SCCG tersebut, crawler mengukur relevansi dari suatu halaman terhadap topik yang diberikan dan selanjutnya menentukan URL yang akan dicrawl lebih awal. Jumlah halaman yang diperoleh melalui pendekatan ini lebih besar daripada pendekatan breadth-first standar, Context Graph (CG) maupun Relevancy Context Graph (RCG).

1 thought on “Focused Web Crawler

  1. permisi pak mau nanya.
    1. di artikel ini disebutkan bahwa Crawler yang dibangun untuk suatu domain khusus tentu tidak dapat digunakan untuk menghimpun halaman-halaman dari domain lain. pertanyaan saya, apakah memungkinkan misalnya dibuat suat crawler universal yang dapat digunakan untuk mencrawler lebih dari 1 domain berbeda dengan memberikan “kondisi if” jika untuk crawling web A menggunakan kondisi A1, untuk crawling web B menggunakan kondisi B1 dst.?

    2. saya kurang begitu paham dengan web crawler ontologi pak mungkin bisa dijelaskan dengan ilustrasi yang simple?

    terima kasih

    Luthfi

Leave a comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.