I. Jurnal Komputasi Modern (KOMPUTASI PEMBOBOTAN DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN MAPREDUCE)
1. Pendahuluan
Menurut
penelitian yang dilakukan oleh Gantz et al estimasi data elektronik
mencapai 0,18 zettabyte pada tahun 2006 dan diramalkan akan mencapai 1,8
zettabyte pada tahun 2011, data elektronik yang besar tersebut perlu
diolah untuk memperoleh manfaat lebih. Adakalanya aplikasi yang dibuat
membutuhkan komputer dengan sumber daya yang tinggi sebagai lingkungan
implementasi dan biasanya harga untuk komputer dengan sumber daya yang
tinggi tidaklah murah sedangkan untuk komputer dengan spesifikasi yang
tidak terlalu tinggi akan kurang reliable dalam menangani data yang
begitu besar. Untuk melakukan komputasi dengan data yang sangat besar,
Google memberikan suatu metode yang dinamakan MapReduce. MapReduce
melakukan komputasi dengan membagi beban komputasi dan diproses secara
parallel atau bersama-sama. Terinspirasi oleh adanya Google File System
(GFS) dan MapReduce yang dikembangkan oleh Google maka Apache
mengembangkan Hadoop Distributed File System (HDFS) dan Hadoop
MaprReduce framework untuk menyelesaikan permasalahan dengan melibatkan
data yang sangat besar yang berbasiskan Java dan open source.
HDFS dapat diimplementasikan pada perangkat keras dengan spesifikasi
yang tidak terlalu tinggi, hal ini sangat menguntungkan dari segi
ekonomi karena selain tidak berbayar, untuk distributed computing yang biasanya memerlukan banyak komputer untuk memproses data.
Kelebihan
yang ditawarkan oleh HDFS memberikan peluang untuk menyelesaikan
permasalahan pengolahan dengan jumlah data yang besar namun dengan
spesifikasi perangkat keras yang tidak terlalu tinggi. Permasalahan yang
dibahas di sini yaitu untuk melakukan perhitungan pembobotan dokumen
web berbahasa Indonesia. Diharapkan dengan menggunakan HDFS dan
MapReduce yang dirilis oleh Apache, beban komputasi pembobotan dokumen
dapat dibagi ke dalam beberapa komputer.
2. Metodologi
2.1 Pembobotan Dokumen
Pembobotan
kemunculan term dalam suatu dokumen digunakan untuk perhitungan tingkat
kemiripan antar dokumen. Ada banyak metode yang dapat digunakan dalam
menghitung bobot kemunculan term dalam suatu dokumen. Salah satu yang banyak digunakan adalah menggunakan metode pembobotan TF-IDF Weighting.
TF-IDF Weighting menghitung term dari dokumen yang diwujudkan sebagai sebuah vector dengan elemen sebanyak term yang berhasil dikenali pada proses penghilangan stopword dan stemming. Vector tersebut beranggotakan bobot dari tiap term yang dihitung berdasarkan metode ini. Metode TD-IDF adalah metode yang mengintegrasikan term frequency (tf), dan inverse document frequency (idf) Formula yang digunakan dalam menghitung bobot berdasarkan metode ini yaitu:
w (t, d ) = tf (t, d ) ∗ log N/nt
Bobot suatu term t dalam suatu dokumen d dilambangkan dengan w(t,d). Frekuensi kemunculan term t dalam dokumen d dilambangkan dengan tf(t,d), Sedangkan banyaknya dokumen yang digunakan dalam uji coba dilambangkan dengan N sementara nt
adalah banyaknya dokumen yang mengandung term t. Dari formula tersebut
diturunkan kembali formula untuk menormalkan term frekuensi sehingga
didapatkan formula:
2.2 MapReduce
MapReduce adalah framework software yang diperkenalkan oleh Google dan digunakan untuk mendukung distributed computing yang
dijalankan di atas data yang sangat besar dan dijalankan secara
simultan dibanyak komputer. Framework ini terinspirasi oleh konsep
fungsi map dan reduce yang biasa digunakan di functional programming.
MapReduce memungkinkan programmer Google untuk melakukan komputasi yang
sederhana dengan menyembunyikan kompleksitas dan detail dari
paralelisasi, distribusi data, load balancing dan fault tolerance. MapReduce memiliki dua tahap dalam memproses data yaitu map dan reduce. Tahap pertama dari MapReduce disebut map. Map melakukan transformasi setiap data elemen input menjadi data elemen output. Map dapat dicontohkan dengan suatu fungsi toUpper(str) yang akan mengubah setiap huruf kecil (lowercase) menjadi huruf besar (uppercase). Setiap data elemen huruf kecil (lowercase) yang menjadi input dari fungsi ini akan ditransformasi menjadi data output elemen yang berupa huruf besar (uppercase). Map memiliki fungsi yang dipanggil untuk setiap input yang menghasilkan output pasangan intermediate <key, value>.
Reduce adalah tahap yang dilakukan setelah mapping selesai. Reduce akan memeriksa semua value input dan mengelompokkannya menjadi satu value output. Reduce menghasilkan output pasangan intermediate . Sebelum memasuki tahap reduce, pasangan intermediate <key, value> dikelompokkan berdasarkan key, tahap ini dinamakan tahap shuffle.
2.3 Hadoop
Hadoop adalah framework perangkat lunak berbasis Java dan open source yang berfungsi untuk mengolah data yang sangat besar secara terdistribusi dan berjalan di atas cluster yang
terdiri dari beberapa komputer yang saling terhubung. Hadoop dapat
mengolah data dalam jumlah yang sangat besar hingga petabyte dan
dijalankan di atas ribuan komputer. Hadoop framework mengatur
segala macam proses detail sedangkan pengembang aplikasi hanya perlu
fokus pada aplikasi logiknya. Hadoop adalah terdiri dari dua komponen
yaitu:
1. HDFS (Hadoop Distributed File System) – Data yang terdistribusi.
2. MapReduce – framework dari aplikasi yang terdistribusi
2.3.1 Hadoop Distributed File System
HDFS adalah distributed filesystem berbasis
Java yang menyimpan file dalam jumlah besar dan disimpan secara
terdistribusi di dalam banyak komputer yang saling berhubungan.
Gambar Arsitektur Hadoop Distributed File System
3. Kesimpulan
Pembuatan suatu aplikasi pembobotan term dokumen berbahasa Indonesia menggunakan bahasa pemrograman Java framework Hadoop
MapReduce.Dari hasil ujicoba performa, waktu komputasi menggunakan
MapReduce lebih cepat dibandingkan waktu komputasi pada komputer stand
alone terutama pada Job I dengan selisih waktu hingga 5386.43 detik atau
kecepatan komputasi lebih cepat hingga 137,88%.
Model Poisson: Lalu Lintas Alam di Internet telah diidentifikasi untuk mengkonfirmasi ke Model Poisson. Model ini memberikan kita gambaran kasar tentang karakteristik Lalu Lintas Internet.
Model ini memperkirakan kemungkinan jumlah paket yang harus ada pada jaringan setelah
diberikan waktu jika tingkat kedatangan rata-rata paket adalah ditentukan.
II. JURNAL KOMPUTASI MODERN
MANAJEMEN JARINGAN LALU LINTAS
Abstraksi :
Tujuan dibuat jurnal in membahas masalah yang berkaitan dengan Manajemen Jaringan Lalu Lintas. Sebuah kategori yang relatif baru dari jaringan manajemen cepat menjadi suatu keharusan dalam bisnis konvergensi Jaringan. Organisasi menengah dan besar menemukan mereka harus mengontrol perilaku jaringan lalu lintas untuk memastikan bahwa strategis mereka aplikasi selalu mendapatkan sumber daya yang mereka butuhkan untuk tampil maksimal. Mengendalikan lalu lintas jaringan memerlukan membatasi bandwidth yang untuk aplikasi tertentu, menjamin bandwidth minimum kepada orang lain, dan tanda lalu lintas dengan prioritas tinggi atau rendah. Latihan ini disebut Manajemen Jaringan Lalu Lintas.
- Pendahuluan :
Jaringan komputer adalah sebuah komunikasi data sistem yang interkoneksi sistem komputer di berbagai situs yang berbeda. Sebuah jaringan dapat terdiri dari kombinasi dari LAN, atau WAN. Lalu lintas jaringan dapat didefinisikan dalam beberapa cara. Tapi dengan cara sederhana kita dapat mendefinisikan sebagai kepadatan data yang ada di jaringan apapun. Dalam setiap jaringan komputer, ada banyak perangkat komunikasi mencoba mengakses sumber daya dan pada saat yang sama mendapatkan permintaan untuk melakukan beberapa pekerjaan untuk beberapa perangkat lain. Juga pada saat yang sama waktu beberapa jenis perangkat komunikasi mungkin sibuk untuk menanggapi permintaan yang dibuat untuk mereka. Jadi ada banyak pertukaran informasi dalam jaringan dalam bentuk permintaan, respon dan kontrol data. Data
ini pada dasarnya adalah dalam bentuk sejumlah besar paket
melayang-layang di Jaringan. Ini sejumlah besar data bertindak sebagai
beban pada Jaringan, yang menghasilkan memperlambat operasi perangkat
komunikasi lainnya. Karena ini ada banyak keterlambatan dalam kegiatan
komunikasi. Hal ini pada akhirnya menghasilkan kemacetan dari Jaringan.
Ini adalah deskripsi dari Lalu Lintas Jaringan dalam bentuk yang paling
sederhana. Dengan kata lain kita dapat mengatakan bahwa lalu lintas
jaringan adalah beban pada perangkat komunikasi dan sistem. Ini lalu lintas pada jaringan kini telah mengakibatkan menengah dan organisasi besar menyadari bahwa mereka harus mengontrol perilaku jaringan lalu lintas untuk memastikan bahwa aplikasi strategis mereka selalu mendapatkan sumber daya yang mereka butuhkan untuk melakukan lalu lintas jaringan secara optimal Pengendalian membutuhkan bandwidth yang membatasi untuk aplikasi tertentu, menjamin bandwidth minimum kepada orang lain, dan tanda lalu lintas dengan prioritas tinggi atau rendah. Latihan ini disebut manajemen lalu lintas.
- Proses Umum Untuk Manajemen Lalu Lintas
Manajemen Lalu Lintas terdiri dari penggabungan sejumlah kegiatan seperti di bawah ini :
- Teknik Untuk Mengukur Jaringan Lalu Lintas
Salah satu cara termudah untuk memahami Lalu Lintas Jaringan untuk mempertimbangkan analogi dengan lalu lintas jalan. pertimbangkan bahwa ada keadaan darurat dan seseorang telah jatuh sakit dan harus dilarikan ke rumah sakit. Tapi ketika ambulans mencoba untuk membuat jalan melalui jalan kota, ia menemukan jalan benar-benar diblokir dengan mobil n bus. Solusi untuk situasi ini akan untuk seorang polisi lalu lintas untuk masuk dan mengelola lalu lintas. Dia pertama kali akan mengukur lalu lintas, dan kemudian memprioritaskan lalu lintas. Ambulans akan mendapatkan prioritas tertinggi dan jalan akan dibuat kosong untuk ambulans untuk lulus. Serupa halnya dengan Lalu Lintas Jaringan. Ketika Anda mengirim permintaan pada jaringan, adalah mungkin bahwa
karena beberapa masalah atau permintaan lain anda harus menunggu untuk beberapa waktu. Jika selama periode waktu jumlah paket mengantri dan menunggu maka menghasilkan lalu lintas. Setelah lalu lintas dibuat, Anda harus menunggu sampai selesai, yang dapat untuk waktu yang lama, tergantung pada situasi. Jadi, harus ada beberapa cara untuk menangani situasi ini. Solusi untuk ini adalah Manajemen Jaringan Lalu Lintas dan prosesnya dimulai pertama dengan mengukur lalu lintas pada jaringan.
karena beberapa masalah atau permintaan lain anda harus menunggu untuk beberapa waktu. Jika selama periode waktu jumlah paket mengantri dan menunggu maka menghasilkan lalu lintas. Setelah lalu lintas dibuat, Anda harus menunggu sampai selesai, yang dapat untuk waktu yang lama, tergantung pada situasi. Jadi, harus ada beberapa cara untuk menangani situasi ini. Solusi untuk ini adalah Manajemen Jaringan Lalu Lintas dan prosesnya dimulai pertama dengan mengukur lalu lintas pada jaringan.
3.1 Alasan Untuk Mengukur Jaringan Lalu LintasBerikut ini adalah resons yang akan kita memiliki ukuran lalu lintas jaringan :
a) Layanan pemantauan - memastikan hal-hal menjaga bekerja.
b) Jaringan perencanaan - menentukan kapasitas ketika lebih diperlukan.
c) Biaya pemulihan - sesi kali dan volume lalu lintas dapat memberikan data penagihan.
d) Penelitian - pemahaman yang lebih baik dari apa yang ada terjadi harus memungkinkan kita untuk meningkatkan jaringan kinerja.
a) Layanan pemantauan - memastikan hal-hal menjaga bekerja.
b) Jaringan perencanaan - menentukan kapasitas ketika lebih diperlukan.
c) Biaya pemulihan - sesi kali dan volume lalu lintas dapat memberikan data penagihan.
d) Penelitian - pemahaman yang lebih baik dari apa yang ada terjadi harus memungkinkan kita untuk meningkatkan jaringan kinerja.
3.2 Lalu Lintas InternetMetrik kinerja dasar lalu lintas internet bias terdaftar sebagai:
• Packet loss
• Keterlambatan
• throughput
• Ketersediaan
• Packet loss
• Keterlambatan
• throughput
• Ketersediaan
3.3 Pengendali Untuk Pengukuran
Ada beberapa pengendali lain sangat berkaitan dengan persyaratan pengukuran adalah
• Harga
• Tingkat Perjanjian Layanan
• Baru layanan
• Aplikasi
• Harga
• Tingkat Perjanjian Layanan
• Baru layanan
• Aplikasi
- Jaringan Pengukuran Lalu Lintas
Biasanya, manajemen lalu lintas ditempatkan di tepi WAN dari situs perusahaan. Di sinilah LAN berkecepatan tinggi memenuhi link akses yang lebih rendah kecepatan WAN. Persimpangan Lanwan juga di mana kedua Internet dan lalu lintas masuk dan keluar intranet perusahaan. Jadi itu adalah tempat yang ideal untuk lalu lintas "jinak" dan untuk mengurangi dampak lalu lintas tidak kritis dan bahkan mencurigakan mengambil di Internet. Membatasi atau memblokir sumber daya jaringan yang tersedia untuk lalu lintas sembrono atau tidak diinginkan meningkatkan kinerja perencanaan sumber daya perusahaan (ERP), pelanggan relationship management (CRM), dan strategis lainnya, aplikasi businesscritical. Selain pemantauan lalu lintas di tepi jaringan, ada masalah performa murni untuk dipertimbangkan. WAN jaringan akses biasanya lebih lambat dari LAN, umumnya karena alasan anggaran. Juga Bisnis membayar berulang biaya bulanan untuk layanan WAN, sedangkan bandwidth LAN adalah gratis (setelah investasi awal peralatan telah dibuat). Dengan kecepatan tinggi lalu lintas LAN melambat pada lebih rendah kecepatan akses sirkuit, tepi LAN-WAN adalah di mana kemacetan yang paling mungkin terjadi. Faktor lain yang penting perlu dipertimbangkan di sini adalah bahwa sebagian besar aplikasi telah dikembangkan untuk berjalan di LAN. Sekarang, jaringan lokal pada umumnya bebas dari kemacetan dan jatuh di bawah kontrol total dari sebuah departemen
IT internal. Ini LAN yang dioptimalkan aplikasi berperilaku berbeda
dalam lingkungan WAN. Tidak hanya link akses WAN lebih lambat, tetapi
layanan WAN juga dapat jatuh di bawah lingkup manajemen penyedia
jaringan ganda. Mengatur lalu lintas di segmen jaringan membantu
organisasi terdistribusi yang bergantung pada WAN untuk melayani
pengguna remote dengan sumber daya yang terpusat. Melakukan jadi adalah masalah yang cukup sederhana. Dalam kebanyakan kasus, jaringan administrator
menggunakan GUI untuk mengatur parameter untuk beberapa bisnis penting
kebijakan dalam bahasa Inggris. Administrator kemudian mendorong tombol untuk menyebarkan kebijakan-kebijakan ke berbagai segmen jaringan di mana mereka harus ditegakkan.
- Analisis Lalu Lintas
Setelah pemantauan berturut-turut selama beberapa tahun, LAN dan WAN lalu lintas telah terlihat mengikuti berbeda pola.
5.1 Lalu Lintas LAN :
Lalu lintas di LAN telah menunjukkan untuk menjadi diri serupa di alam. Mereka berarti jika saya mengukur lalu lintas selama periode satu jam dan plot, itu akan mirip dengan grafik untuk
lalu lintas diplot selama satu hari. Dalam cara yang sama grafik hari akan mirip untuk lalu lintas
grafik diplot selama seminggu dan grafik minggu untuk itu dari sebulan. Itu rintik dari variasi
lalu lintas mengulangi sendiri lebih teratur interval.
lalu lintas diplot selama satu hari. Dalam cara yang sama grafik hari akan mirip untuk lalu lintas
grafik diplot selama seminggu dan grafik minggu untuk itu dari sebulan. Itu rintik dari variasi
lalu lintas mengulangi sendiri lebih teratur interval.
5.2 Lalu Lintas WAN :Lalu lintas di WAN telah ditemukan bervariasi sesuai dengan model berikut.
Model Poisson: Lalu Lintas Alam di Internet telah diidentifikasi untuk mengkonfirmasi ke Model Poisson. Model ini memberikan kita gambaran kasar tentang karakteristik Lalu Lintas Internet.
Model ini memperkirakan kemungkinan jumlah paket yang harus ada pada jaringan setelah
diberikan waktu jika tingkat kedatangan rata-rata paket adalah ditentukan.
- Manajemen Lalu Lintas
Melihat gambar di bawah ini akan membuat pemahaman yang lalu lintas jaringan sebelum dan setelah dikelola lebih jelas. Angka ini adalah penggambaran media transmisi sementara itu
membawa keberhasilan lalu lintas. Yang kita bisa melihat biasa aplikasi demikian mungkin sebagai
video, audiodownload dll mengambil bagian utama dari tersedia pita lebar. Misi aplikasi kritis
yang tersisa denganhanya sekitar 40% bandwidth yang yang berarti bahwa ada mungkin akan banyak penundaan dalam transmisi data atau pengolahan transaksi. Di sinilah peran manajemen lalu lintas datang masuk.
membawa keberhasilan lalu lintas. Yang kita bisa melihat biasa aplikasi demikian mungkin sebagai
video, audiodownload dll mengambil bagian utama dari tersedia pita lebar. Misi aplikasi kritis
yang tersisa denganhanya sekitar 40% bandwidth yang yang berarti bahwa ada mungkin akan banyak penundaan dalam transmisi data atau pengolahan transaksi. Di sinilah peran manajemen lalu lintas datang masuk.
Pengguna dapat mengambil keputusan mengenai berapa banyak jumlah bandwidth yang ia ingin menjaga khusus untuk misi kritis aplikasi, dan kemudian sisanya dapat digunakan untuk lainnya
normal aplikasi. dalamkedua tokoh kita dapat melihat bahwa lalu lintas telah dikelola sedemikian rupa sehingga maksimum bandwidth yang (hampir 70%) telah disediakan untuk misi kritis
aplikasi. 5% dari bandwidth tidak digunakan yang juga dapat digunakan oleh aplikasi ini dalam kasus
gelora lalu lintas. aplikasi normal adalah dibiarkan dengan hanya tentang 25% dari bandwidth.
normal aplikasi. dalamkedua tokoh kita dapat melihat bahwa lalu lintas telah dikelola sedemikian rupa sehingga maksimum bandwidth yang (hampir 70%) telah disediakan untuk misi kritis
aplikasi. 5% dari bandwidth tidak digunakan yang juga dapat digunakan oleh aplikasi ini dalam kasus
gelora lalu lintas. aplikasi normal adalah dibiarkan dengan hanya tentang 25% dari bandwidth.
- Kesimpulan
Untuk menyimpulkan kami ingin menekankan kembali bahwa, hari ini mengubah skenario, di mana cara konvensional dalam melakukan hal tidak ada lagi memegang baik organisasi adalah cepat menyadari bahwa agar mereka tetap pada langkah dengan orang lain dalam lomba, mereka harus merangkul konsep Manajemen Jaringan. Juga cara di mana kedua ukuran jaringan dan data yang rides pada mereka meningkat dari hari ke hari, itu sudah menjadi keharusan untuk memonitor jenis yang lalu lintas yang mengalir, prioritas dan kemudian mengelola lalu lintas sesuai.
Sumber :
Nama : Diajeng Kristianti
Kelas : 4IA21
NPM : 51409517
Mata Kuliah : Pengantar Komputasi Modern
Dosen : Rina Noviana
Dibuat tanggal : 18 Maret 2013