Penambangan Teks di Python: Preprocessing dengan NLTK

Di dunia saat ini, menurut perkiraan industri, hanya sekitar 20 persen dari data yang dihasilkan dalam format terstruktur saat kita berkomunikasi, seperti melalui tweet yang kita tulis, saat kita mengirim pesan menggunakan WhatsApp, Email, Facebook, Instagram atau pesan teks apa pun. Dan sebagian besar data ini ada dalam bentuk teks yang merupakan format yang sangat tidak terstruktur. Untuk menghasilkan wawasan yang bermakna dari data teks maka kita perlu mengikuti metode yang disebut Analisis Teks.

Penambangan Teks adalah proses memperoleh informasi berkualitas tinggi dari teks. Tujuan keseluruhannya adalah mengubah teks menjadi data untuk dianalisis melalui aplikasi Pengolahan Bahasa Alami (Natural Language Processing, NLP). NLP menggunakan metodologi yang berbeda untuk menguraikan ambiguitas dalam bahasa manusia, termasuk di antaranya adalah peringkasan otomatis (summarization), penandaan bagian-dari-ungkapan (part of speech tagging), disambiguasi, chunking, serta pengenalan dan pemahaman bahasa alami.

Kita akan melihat sebagian besar proses Text Mining tersebut menggunakan Python dan library NLTK.

Struktur Data Probabilistik: Bloom Filter

Struktur data mainstream seperti List, Map, Set, Tree, dll. banyak digunakan untuk mencapai hasil tertentu berkaitan dengan ada atau tidaknya data, mungkin bersama dengan jumlah kemunculannya dan semacamnya. Struktur data probabilistik akan memberikan efisiensi memori, hasil yang lebih cepat, bentuk hasil lebih ke ‘mungkin’ daripada ‘pasti’. Tampaknya tidak intuitif untuk menggunakan struktur data probabilistik untuk saat ini, tetapi tutorial ini akan mencoba meyakinkan bahwa jenis struktur data ini memiliki tempat pemanfaatan khusus dan kita mungkin menemukannya berguna dalam skenario tertentu.

Dalam posting ini, kita akan mendiskusikan tentang salah satu struktur data probabilistik paling populer yang disebut Bloom filter. Silakan Akses Tutorial ini!

Tutorial Hadoop untuk Pemula

Jumlah data telah meningkat pesat dalam satu dekade terakhir. Ini termasuk volume besar dari berbagai format data yang dibangkitkan pada kecepatan sangat tinggi. Pada masa awal, bukanlah tugas yang berat untuk mengelola data, tetapi dengan meningkatnya data, telah menjadi lebih sulit untuk menyimpan, memroses, dan menganalisisnya. Data demikian dikenal sebagai Big Data. Bagaimana kita mengelola big data? Gunakan Hadoop, suatu framework yang dapat digunakan untuk menyimpan (store), memroses dan menganalisis big data.

Dalam tutorial ini kita akan mendiskusikan hal-hal berikut:

1. Mengapa Hadoop?
2. Apa itu Hadoop?
3. Hadoop HDFS
4. Hadoop MapReduce
5. Hadoop YARN
6. Kasus penggunaan Hadoop
7. Demo HDFS, MapReduce, dan YARN

Berminat? silakan download tutorial ilustratif ini, hanya 18 halaman koq 🙂

Kardinalitas dan Modalitas dalam Relasi Basis Data

Dalam desain basis data, kardinalitas dan modalitas adalah dua konsep pemodelan yang digunakan untuk menganalisis entitas, atribut, dan struktur hubungan dalam basis data. Artikel ini bertujuan untuk memberikan pemahaman yang jelas tentang apa itu kardinalitas dan modalitas.

Penasaran? Silakan download PDFnya dan segera dibaca ya…