Penambangan Teks di Python: Preprocessing dengan NLTK

Di dunia saat ini, menurut perkiraan industri, hanya sekitar 20 persen dari data yang dihasilkan dalam format terstruktur saat kita berkomunikasi, seperti melalui tweet yang kita tulis, saat kita mengirim pesan menggunakan WhatsApp, Email, Facebook, Instagram atau pesan teks apa pun. Dan sebagian besar data ini ada dalam bentuk teks yang merupakan format yang sangat tidak terstruktur. Untuk menghasilkan wawasan yang bermakna dari data teks maka kita perlu mengikuti metode yang disebut Analisis Teks.

Penambangan Teks adalah proses memperoleh informasi berkualitas tinggi dari teks. Tujuan keseluruhannya adalah mengubah teks menjadi data untuk dianalisis melalui aplikasi Pengolahan Bahasa Alami (Natural Language Processing, NLP). NLP menggunakan metodologi yang berbeda untuk menguraikan ambiguitas dalam bahasa manusia, termasuk di antaranya adalah peringkasan otomatis (summarization), penandaan bagian-dari-ungkapan (part of speech tagging), disambiguasi, chunking, serta pengenalan dan pemahaman bahasa alami.

Kita akan melihat sebagian besar proses Text Mining tersebut menggunakan Python dan library NLTK.

Struktur Data Probabilistik: Bloom Filter

Struktur data mainstream seperti List, Map, Set, Tree, dll. banyak digunakan untuk mencapai hasil tertentu berkaitan dengan ada atau tidaknya data, mungkin bersama dengan jumlah kemunculannya dan semacamnya. Struktur data probabilistik akan memberikan efisiensi memori, hasil yang lebih cepat, bentuk hasil lebih ke ‘mungkin’ daripada ‘pasti’. Tampaknya tidak intuitif untuk menggunakan struktur data probabilistik untuk saat ini, tetapi tutorial ini akan mencoba meyakinkan bahwa jenis struktur data ini memiliki tempat pemanfaatan khusus dan kita mungkin menemukannya berguna dalam skenario tertentu.

Dalam posting ini, kita akan mendiskusikan tentang salah satu struktur data probabilistik paling populer yang disebut Bloom filter. Silakan Akses Tutorial ini!

Tutorial Hadoop untuk Pemula

Jumlah data telah meningkat pesat dalam satu dekade terakhir. Ini termasuk volume besar dari berbagai format data yang dibangkitkan pada kecepatan sangat tinggi. Pada masa awal, bukanlah tugas yang berat untuk mengelola data, tetapi dengan meningkatnya data, telah menjadi lebih sulit untuk menyimpan, memroses, dan menganalisisnya. Data demikian dikenal sebagai Big Data. Bagaimana kita mengelola big data? Gunakan Hadoop, suatu framework yang dapat digunakan untuk menyimpan (store), memroses dan menganalisis big data.

Dalam tutorial ini kita akan mendiskusikan hal-hal berikut:

1. Mengapa Hadoop?
2. Apa itu Hadoop?
3. Hadoop HDFS
4. Hadoop MapReduce
5. Hadoop YARN
6. Kasus penggunaan Hadoop
7. Demo HDFS, MapReduce, dan YARN

Berminat? silakan download tutorial ilustratif ini, hanya 18 halaman koq 🙂

Kardinalitas dan Modalitas dalam Relasi Basis Data

Dalam desain basis data, kardinalitas dan modalitas adalah dua konsep pemodelan yang digunakan untuk menganalisis entitas, atribut, dan struktur hubungan dalam basis data. Artikel ini bertujuan untuk memberikan pemahaman yang jelas tentang apa itu kardinalitas dan modalitas.

Penasaran? Silakan download PDFnya dan segera dibaca ya…

Hadoop MapReduce, Bagaimana Kerjanya?

MapReduce adalah suatu software framework dan programming model yang digunakan untuk pemrosesan jumlah data yang besar. Program MapReduce bekerja dalam dua fase, yaitu Map dan Reduce. Tugas Map berurusan dengan splitting dan mapping dari data sedangkan tugas Reduce melakukan shuffle dan reduce terhadap data.

Hadoop mampu menjalankan program MapReduce yang ditulis dalam berbagai bahasa: Java, Ruby, Python, dan C++. Program MapReduce sifatnya parallel, jadi sangat berguna bagi  pelaksanaan analisis data skala besar menggunakan banyak mesin di dalam cluster.

Inputan atau masukan untuk setiap fase adalah pasangan key-value. Setiap programmer harus menetapkan dua fungsi: fungsi map dan fungsi reduce.

Bagaimana MapReduce ini bekerja? Klik dan Baca Tutotorial yang disadur dari situs web guru99 ini!

Cara Efektif Membaca Naskah Penelitian

Membaca paper atau naskah hasil penelitian tentu telah menjadi aktifitas umum bagi civitas akademika baik Dosen maupun Mahasiswa. Namun, membaca semua kandungan paper dari awal sampai akhir pasti pekerjaan yang sangat tidak efektif. Kami sudah merangkum beberapa sumber di Internet bagaimana cara terbaik membaca paper. Ini sangat berguna terutama bagi mahasiswa S1 yang telah memulai Skripsi. Mahasiswa S2 dan S3 tentu akan selalu berurusan dengan paper.

Silakan Download Slide ini, Baca, Pahami dan terapkan segera dengan membaca paper di bidang minat anda!

Pemrograman Python: Fundamental, List, Tuple, Dictionary dan Set

Mungkin ini posting pertama tentang bahasa Pemrograman Python, di blog ini. Alhamdulillah, dapat kesempatan memberikan tutorial singkat mengenai Pemrograman Python untuk mahasiswa yang sudah pernah belajar Python tetapi memerlukan penyegaran. Maklum dalam hidup, banyak mahasiswa menggunakan PHP, bukan Python. Karena waktunya singkat,  tutorialnya hanya memotivasi kenapa kita harus pakai Python, dasar pemrograman Python, penulisan kode program yang bagus dan fokus teknisnya berat ke List (Struktur data).

Bagi yang tertarik, silakan download dan baca tiga file ini:

  1.  Ringkasan Tutorial Dasar Pemrograman Python
  2. Koleksi data dengan List
  3. List, tuple, dictionary dan Set

Semoga bermanfaat, aamiin.

Membuat File CSV Menggunakan PHP

Kali ini kita sedikit belajar bagaimana membuat suatu file CSV (Comma Separated Values) menggunakan PHP.  CSV sangat berguna sebagai tool untuk transfer data. Berikut ini adalah contoh sangat sederhananya:

header(“Content-type: text/csv”);
header(“Content-Disposition: attachment; filename=file.csv”);
header(“Pragma: no-cache”);
header(“Expires: 0”);

$data = array(
array(“data”, “data”, “data”),
array(“data”, “data”, “data”),
array(“data”, “data”, “data”)
);

$file = fopen(‘php://output’, ‘w’);
fputcsv($file, array(‘label1’, ‘label2’, ‘label3’));

while ($data as $row) {
fputcsv($file, $row);
}

Semoga bermanfaat 🙂

Teknik Estimasi dalam Pemrosesan Bahasa Alami

Kali ini kita akan mempelajari suatu topik penting di dalam bidang Pengolahan Bahasa Alami (Natural Language Processing), yaitu Pendekatan Prediksi Kata untuk memperkirakan kehadiran suatu kata. Beberapa contoh dan penjelasannya akan digunakan untuk memudahkan pemahaman terhadap topik ini. Tulisan ini tidak mengandung review penelitian dan keterbaruan pendekatan solutif, meski tetap mencoba untuk melihat beberapa contoh aplikasi terkini dari topik yang dibahas. Hal ini pula yang menjadi alasan digunakannya buku, catatan kuliah dan situs web tertentu sebagai referensi dalam menyelesaikan naskah ini.

Makalah ini akan menjelaskan beberapa pendekatan dasar dalam mengestimasi kata yang akan hadir, baik setelah suatu deretan kata lain atau di awal kalimat. Topik mengenai prediksi kata selanjutnya sangat berkaitan dengan pemodelan suatu bahasa, karena itu juga akan dijabarkan mengenai model bahasa tertentu, terutama n-grams. Teknik estimasi yang dipilih dapat memberikan hasil yang tidak sesuai dengan kecerdasan manusia, sehingga diperlukan beberapa pendekatan untuk memperbaiki kualitas mesin prediksi “next word” ini.

Bagaimana, tertarik melanjutkan? Silakan download dan baca uraiannya.

Membaca Makalah Ilmiah dengan Metode Tiga Pas

Disarikan secara bebas dari makalah berjudul How to Read a Paper (S. Keshav, School of Computer Science, University of Waterloo, keshav@uwaterloo.ca).

Tulisan ini menerangkan bagaimana cara membaca makalah penelitian  (ilmiah) secara efektif dan efisien menggunakan metode tiga pas (three-pass). Keshav telah menggunakan apa yang ditulisnya lebih dari 15 tahun untuk membaca makalah dalam jurnal dan proceedings, menulis review (literature survey), melakukan penelitian background dan review ‘kilat’ makalah sebelum suatu diskusi. Pendekatan ini, saat dijalankan secara tertib (disiplin), akan mencegah kita mengakses banyak detail sebelum mendapatkan pandangan “bird’s-eye”. Ini memungkinkan kita memperkirakan jumlah waktu yang diperlukan untuk mereview sekumpulan makalah. Kita juga akan dapat mengatur kedalaman evaluasi makalah tergantung pada kebutuhan dan waktu yang kita miliki.

Continue reading