Archive

Posts Tagged ‘text mining’

Selayang Pandang Information Retrieval

13 October 2017 Leave a comment

Alhamdulillah, dapat undangan untuk menyampai overview mengenai Sistem Temu-Kembali Informasi alias Information Retrieval dari Program Studi Sistem Informasi Universitas Trunojoyo Madura, pas hari Jum’at pula. Bahasan mengenai Temu-Kembali Informasi yang biasanya diajarkan dan diskusikan selama 1 semester (14 tatap muka) yang totalnya 18 pekan, dirangkum untuk Training hanya 2.5 jam, tentu hanya poin-poin yang sangat mendasar saja yang dibahas dan difokuskan untuk Mahasiwa yang belum pernah belajar tentang IR ini.

Slide dari materi Training ini sudah dapat didownload. Begitu pula dengan file Spreadsheet yang berisi contoh perhitungan kemiripan kosinus antara Query dengan Daftar dokumen.

Semoga bermanfaat, berkah. Aamiin 🙂

Advertisements

Ilustrasi Preprocessing & Searching Dalam Text Mining

1 November 2011 Leave a comment

Bidang Text Mining atau Information Retrieval semakin maju dan banyak digunakan. Dua tugas penting dalam bidang ini adalah PreProcessing dan Searching. Kualitas Dokumen yang dikembalikan ke pengguna oleh suatu Search Engine sangat tergantung pada kualitas fitur yang dihasilkan pada tahapan Preprocessing dan kemampuan pendekatan perankingngan yang dipakai saat pencarian atau perhitungan kemiripan.

Kali ini, kami coba memberikan sebuah contoh ilustratif bagaimana preprocessing dilakukan. Kemudian, jika terdapat suatu query, bagaimana query ini diperlakukan dan kemudian dihitung kemiripannya dengan daftar dokumen yang tersedia.

Klik link berikut dan nikmati file PDF-nya 😉

Kemiripan & Klasifikasi Teks – Contoh Perhitungan

11 January 2011 3 comments

Sebagian besar aplikasi web berbasis search engine, information retrieval atau text mining, biasanya melibatkan penanganan query dan klasifikasi dokumen. Penanganan query biasanya menghitung tingkat kemiripan atau relevansi antara query dan daftar dokumen yang tersedia di dalam sistem. Sedangkan klasifikasi adalah pengelompokan dokumen-dokumen ke dalam kelas-kelas yang telah didefinisikan sebelumnya.

Penanganan query dan klasifikasi adalah dua proses yang berbeda, meskipun keduanya dapat menggunakan pendekatan yang beririsan. Perlu dipahami pula, ada perbedaan antara klasifikasi dan clustering, meskipun banyak orang menggunakan 2 istilah ini secara bergantian untuk maksud yang sama. Klasifikasi telah menyiapkan daftar kelas tujuan (pre-defined) sedangkan clustering tidak – hasil clustering dibiarkan membentuk kelas masing-masing. Detailnya tentu dapat dijumpai pada paper yang membahas tentang clustering dan klasifikasi.

Berikut ini adalah 2 file yang berisi:

1. Cosine Similarity. Langkah-langkah praktis menghitung kemiripan antara suatu Query (Q) dengan daftar dokumen (dengan semua dokumen). Kemudian dilakukan pengurutan dan dikembalikan kepada pengguna. Contoh ini memperlihatkan perhitungan kemiripan menggunakan cosine similaity.

Klik dan download!

2. Klasifikasi kNN. Langkah-langkah praktis mengelompokkan suatu dokumen ke dalam salah satu dari 2 kelas tujuan yang pre-defined. Pendekatan yang digunakan adalah kNN. Perhitungan kemiripan digunakan untuk mendapatkan k tetangga terdekat dari dokumen yang akan diklasifikasikan. Nilai k=4 dijadikan default.

Klik dan Download!.

Semoga dua contoh di atas bermanfaat 🙂

True SE: Web Portal + Search Engine trunojoyo.ac.id

3 January 2011 3 comments

Hampir semua universitas atau perguruan tinggi di Indonesia mempunyai situs, baik untuk level universitas, unit/fakultas, jurusan/program studi sampai dengan laboratorium, dosen, unit kegiatan mahasiswa bahwa blog. Begitu pula pada Universitas Trunojoyo. Makin lama makin banyak informasi yang tersedia pada website-website di bawah domain trunojoyo.ac.id, bukan hanya http://www.trunojoyo.ac.id.

Sayangnya, ada beberapa hal yang sangat menyusahkan pengunjung mendapatkan informasi secara lengkap dan terpadu dari website-website tersebut. Pertama, situs web utama, http://www.trunojoyo.ac.id tidak menyediakan akses ke berbagai situs lain yang berada di bawah domain yang sama. Pengunjung harus mengetahui setiap alamat (URL) yang perlu dikunjungi. Kedua, pengunjung tidak dapat mengetahui dimana saja informasi terkait tersedia. Misalnya beasiswa, jika pada situs web Fakultas Teknik terdapat pengumuman beasiswa XYZ, dimana informasi lebih detail atau terkait tersedia? di Fakultas lain atau di Universitas?

Read more…

Koleksi Disertasi Computational Linguistics – Legal!

25 January 2010 Leave a comment

Tertarik pada bidang penelitian computational lingustics atau bidang terkait seperti text mining atau retrieval? Pas browsing saya ketemu daftar tesis (disertasi) menarik…menarik sekali. Legal lho…bukan bajakan hehehe.

Klik saja di sini!

Unified Messaging System Information Retrieval & Klasifikasi Teks

22 January 2010 2 comments

Tulisan ini menjelaskan konsep dasar yang berkaitan erat dengan penelitian saya mengenai content server pada suatu Unified Messaging System (UMS). Sebagai gambaran, content server yang sedang dikembangkan mengelola content iklan baris yang mempunyai sifat unik dan tidak terstruktur. Content server ini menerima query atau pesan teks dari pengguna UMS (dalam hal ini adalah UMS NoteBOX di Laboratorium Sistem Tersebar, Informatika, STEI ITB, Bandung) dan web. Query yang diterima oleh server diproses untuk mendapatkan jawaban yang tepat (dengan nilai presisi dan recall tinggi), kemudian jawaban tersebut
dikembalikan kepada pengguna atau diforward ke suatu alamat email, sms atau fax. Pesan dari pengguna juga dapat ditambahkan sebagai content baru, memperkaya sistem content dengan melibatkan pengguna secara aktif, sehingga tidak selalu bergantung pada pengelola content. Konsep yang dibahas mencakup sekilas tentang UMS NoteBOX dan iklan baris, information retrieval (IR) dan klasifikasi dokumen teks. Referensi yang dicantumkan diakhir tulisan dapat memberikan penjelasan yang panjang x lebar x tinggi = volume mengenai konsep yang disampaikan di sini 🙂

Detailnya silakan klik di sini.