Membaca Halaman Web per Byte dengan URLConnection

Pada dasarnya, stream atau aliran data di jaringan dibaca byte demi byte (karakter demi karakter, satu karakter memerlukan 1 byte memory, 8 bit).

Berikut ini adalah kode program yang dapat digunakan untuk membaca halaman web byte demi byte menggunakan kelas URLConnection:

//Download halaman web menggunakan URL & URLConnection
import java.io.BufferedInputStream;
import java.net.URL;
import java.net.URLConnection;

public class URLConnectionPage {
  public static void main(String[] args) throws Exception {
    URLConnection urlc = new URL("http://localhost").openConnection();

    BufferedInputStream buffer = new BufferedInputStream(urlc.getInputStream());

    int byteRead;
    while ((byteRead = buffer.read()) != -1){
      System.out.print((char) byteRead);
    }
    buffer.close();
  }
}

Jika anda tetap ingin membaca stream data web yang diterima baris demi baris, kode program di bawah ini dapat digunakan. Yang terjadi dibelakang layar tetap, yaitu membaca byte demi byte, perbedaan hanya dari sisi programan:

import java.net.*;
import java.io.*;

public class URLConnectionReader {
    public static void main(String[] args) throws Exception {
        URL unijoyo = new URL("http://www.trunojoyo.ac.id/");
        URLConnection yc = unijoyo.openConnection();
        BufferedReader in = new BufferedReader(new InputStreamReader(yc.getInputStream()));
        String inputLine;

        while ((inputLine = in.readLine()) != null)
            System.out.println(inputLine);
        in.close();
    }
}

Mendapatkan Properti Halaman Web

Halaman web, pada sisi client berupa tag HTML dan pendukungnya, menyediakan beberapa properti yang sangat berguna bagi suatu web crawler. Informasi seperti URL, tanggal modifikasi terakhir, jumlah karakter (termasuk white space), jenis content dan Expirenya disediakan oleh Web server.

Kode program berikut memperlihatkan cara mengakses beberapa informasi penting tersebut. Detail dari apa yang disediakan oleh oleh URLConnection untuk keperluan ini dapat dilihat pada dokumentasi Java (J2SE):


//URLConnection.
import java.net.*;
import java.io.*;
import java.util.Date;

class URLConnectionInfo {

    public static void main(String args[]) throws Exception {
        int c;
        URL hp = new URL("http://localhost");
        URLConnection hpCon = hp.openConnection();
        System.out.println("Date: " + new Date(hpCon.getDate()));
        System.out.println("Content-Type: " + hpCon.getContentType());
        System.out.println("Expires: " + hpCon.getExpiration());
        System.out.println("Last-Modified: " + new Date(hpCon.getLastModified()));
        int len = hpCon.getContentLength();
        System.out.println("Content-Length: " + len);
        if (len > 0) {
            System.out.println("=== Content ===");
            InputStream input = hpCon.getInputStream();
            int i = len;
            while (((c = input.read()) != -1) && (--i > 0)) {
                System.out.print((char) c);
            }
            input.close();
        } else {
            System.out.println("No Content Available");
        }
    }
}

Mengakses Web Server dengan URL

Contoh di bawah ini mengakses web server menggunakan kelas URL dari paket .net. Sama sebagaimana contoh pemanfaatan kelas socket, kode ini menampilkan isi (dari sisi client) dari halaman HTML yang diakses:


import java.net.*;
import java.io.*;

public class GetURLPage {

    public static void main(String args[]) {

        try {
            URL url = new URL("http://localhost/");

            BufferedReader dis = new BufferedReader(new InputStreamReader(url.openStream()));

            String line;
            while ((line = dis.readLine()) != null) {
                System.out.println(line);
            }

            dis.close();
        } catch (Exception e) {
            System.out.println(e);
        }
    }
} // akhir dari GetURLPage.java

Mengakses Web Server dengan Socket

Kode program singkat di bawah ini memperlihatkan cara mengakses suatu web site dan mengambil contentnya:


import java.io.*;
import java.net.*;

public class GetSocketPage {

    public static void main(String args[]) throws IOException {
        //bangun koneksi ke server web, port 80
        Socket sock = new Socket("trunojoyo.ac.id", 80);

        //siapkan saluran input & output
        BufferedReader dis = new BufferedReader(new InputStreamReader(sock.getInputStream()));
        PrintStream ps = new PrintStream(sock.getOutputStream());

        //kirim pesan GET ke server web
        ps.println("GET /index.html");
        String line;

        //baca baris demi baris file index.html, cetak ke screen
        while ((line = dis.readLine()) != null) {
            System.out.println(line);
        }

        //tutup koneksi ke server
        sock.close();
    }
} // akhir dari GetSocketPage.java

Hasil eksekusinya akan menampilkan halaman HTML dari web site yang disebutkan, termasuk kode javascript dan CSS yang terdapat dalam halaman HTML tersebut.