Home > Data Mining & IR, Pemrograman Web > Information Retrieval: Preprocessing dengan PHP+MySQL

Information Retrieval: Preprocessing dengan PHP+MySQL


Tulisan sebelumnya memperlihatkan langkah-langkah preprocessing menggunakan PHP dimana daftar stop word dan term stem disimpan di dalam array. Kali ini, sebagaimana tutorial kuliah IR kemarin malam, saya sertakan kode program, masih dengan PHP dimana teks yang akan diproses dan daftar term stem tersebut dimasukkan ke dalam database MySQL bernama dbstbi yang di dalamnya terdapat 3 tabel, yaitu tbberita, tbstem dan tbindex. Sementara, tbindex tidak digunakan, kali ini.

<?php
//bangun koneksi ke database server MySQL
$con = mysql_connect("localhost","root","abc123");

//pilih database dbstbi
mysql_select_db("dbstbi", $con);	

//query semua record dalam tabel tbberita
$result = mysql_query("SELECT * FROM tbberita");

//proses setiap record, satu demi satu
while($row = mysql_fetch_array($result)) {
	$berita = $row['Berita'];
	
	//tampilkan berita	
	print("<hr />Berita asli: <br />" . $berita);
	
	//ubah ke huruf kecil	
	$berita = strtolower($berita);
	
	//hilangkan beberapa tanda baca
	$berita = str_replace("'", " ", $berita);

	$berita = str_replace(";", " ", $berita);			
	$berita = str_replace(",", " ", $berita);			
	
	//daftar stop list		
	$astoplist = array ("yang", "juga", "dari", "dia", "kami", "kamu", "ini", "itu", 
							   "atau", "dan", "tersebut", "pada", "dengan", "adalah", "yaitu");	

	//hapus term yang sama dengan stop word
	foreach ($astoplist as $i => $value) {
   	$berita = str_replace($astoplist[$i], "", $berita);
	} //end foreach
	
	$berita = trim($berita);	
	print("<br />Setelah stop word removal:<br />" .  $berita);
	
	//query daftar stem dalam tabel tbstem	
	$restem = mysql_query("SELECT * FROM tbstem ORDER BY Id");
	
	//ganti setiap term ke bentuk stemnya
	while($rowstem = mysql_fetch_array($restem)) {  			
  		$berita = str_replace($rowstem['Term'], $rowstem['Stem'], $berita);
  	}			 	
  	
  	print("<br />Setelah stemming:<br />" .  $berita);
} //end while 	
print("<hr />");
?>

Selamat belajar, semoga sukses🙂

  1. 27 May 2010 at 4:25 am

    insyAlloh dpt pencerahan Pak dari materi Bpk semalem…
    tahp percobaan n pastinya proses,,,mg gak prosesnya sy gak lama… Amiiinnn…

    • 28 May 2010 at 10:52 pm

      amin, semoga tetap semangat dan bermanfaat, selalu🙂

  2. 27 May 2010 at 10:50 am

    syukron pak..
    semoga tabungan amlanya makin banyak dan tercatat jariyah. Amien…

  3. 18 October 2010 at 9:21 am

    Mohon informasi Pak…
    Field dari tabel tbberita, tbstem, dan tbindex itu apa saja…

  4. 12 June 2011 at 3:38 am

    kok persis di STBI ya..

  5. 17 October 2011 at 1:05 pm

    disini ada program IR Lengkap …http://hendristmik.blogspot.com

    • Dino
      13 July 2014 at 10:17 am

      pass nya apa ya om hendri??

  6. 9 December 2011 at 2:37 am

    mas passwordnya kok ngak bisa…
    boleh minta password yang benernya gak?

  7. dheliz
    20 April 2012 at 10:11 am

    kalau untuk bahasa C# nya gimana ya ? saya pake database access 2007.
    ada 300 dokumen berita.

  8. hanif fuadi
    5 February 2015 at 11:15 pm

    mas, download file database sqlnya dimana mas ? makasih

  9. Nurtantio Quidar
    27 April 2015 at 5:41 am

    Mas, untuk struktur MySQL DB-nya gimana mas?

    Kalo ada, link downloadnya di mana mas?

    Trims.

  10. azwar
    25 March 2016 at 3:11 pm

    mas passwordnya kok ngak bisa…
    boleh minta password yah ke aby.ga.punya.email@gmail.com

  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: