Penambangan Teks di Python: Preprocessing dengan NLTK

Di dunia saat ini, menurut perkiraan industri, hanya sekitar 20 persen dari data yang dihasilkan dalam format terstruktur saat kita berkomunikasi, seperti melalui tweet yang kita tulis, saat kita mengirim pesan menggunakan WhatsApp, Email, Facebook, Instagram atau pesan teks apa pun. Dan sebagian besar data ini ada dalam bentuk teks yang merupakan format yang sangat tidak terstruktur. Untuk menghasilkan wawasan yang bermakna dari data teks maka kita perlu mengikuti metode yang disebut Analisis Teks.

Penambangan Teks adalah proses memperoleh informasi berkualitas tinggi dari teks. Tujuan keseluruhannya adalah mengubah teks menjadi data untuk dianalisis melalui aplikasi Pengolahan Bahasa Alami (Natural Language Processing, NLP). NLP menggunakan metodologi yang berbeda untuk menguraikan ambiguitas dalam bahasa manusia, termasuk di antaranya adalah peringkasan otomatis (summarization), penandaan bagian-dari-ungkapan (part of speech tagging), disambiguasi, chunking, serta pengenalan dan pemahaman bahasa alami.

Kita akan melihat sebagian besar proses Text Mining tersebut menggunakan Python dan library NLTK.

Hadoop MapReduce, Bagaimana Kerjanya?

MapReduce adalah suatu software framework dan programming model yang digunakan untuk pemrosesan jumlah data yang besar. Program MapReduce bekerja dalam dua fase, yaitu Map dan Reduce. Tugas Map berurusan dengan splitting dan mapping dari data sedangkan tugas Reduce melakukan shuffle dan reduce terhadap data.

Hadoop mampu menjalankan program MapReduce yang ditulis dalam berbagai bahasa: Java, Ruby, Python, dan C++. Program MapReduce sifatnya parallel, jadi sangat berguna bagi  pelaksanaan analisis data skala besar menggunakan banyak mesin di dalam cluster.

Inputan atau masukan untuk setiap fase adalah pasangan key-value. Setiap programmer harus menetapkan dua fungsi: fungsi map dan fungsi reduce.

Bagaimana MapReduce ini bekerja? Klik dan Baca Tutotorial yang disadur dari situs web guru99 ini!

Pemrograman Python: Fundamental, List, Tuple, Dictionary dan Set

Mungkin ini posting pertama tentang bahasa Pemrograman Python, di blog ini. Alhamdulillah, dapat kesempatan memberikan tutorial singkat mengenai Pemrograman Python untuk mahasiswa yang sudah pernah belajar Python tetapi memerlukan penyegaran. Maklum dalam hidup, banyak mahasiswa menggunakan PHP, bukan Python. Karena waktunya singkat,  tutorialnya hanya memotivasi kenapa kita harus pakai Python, dasar pemrograman Python, penulisan kode program yang bagus dan fokus teknisnya berat ke List (Struktur data).

Bagi yang tertarik, silakan download dan baca tiga file ini:

  1.  Ringkasan Tutorial Dasar Pemrograman Python
  2. Koleksi data dengan List
  3. List, tuple, dictionary dan Set

Semoga bermanfaat, aamiin.