Apa itu Apache Hadoop

Apache Hadoop adalah sebuah open-source framework untuk pemrosesan data-sets skala besar dalam clusters hardware komputer yang terjangkau dan mudah diperoleh. Pada umumnya framework Hadoop dikembangkan dalam bahasa Java, dengan beberapa source code dalam bahasa C dan command line utilities ditulis sebagai shell-scripts.
Framework Apache Hadoop tersusun dari 4 modul berikut:
  • Hadoop Common – berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya.
  • Hadoop Distributed File System (HDFS) – sebuah distributed file-system.
  • Hadoop YARN – sebuah platform resource-management yang bertanggung jawab untuk mengelola resources dalam clusters dan scheduling.
  • Hadoop MapReduce – sebuah model programming untuk pengelolaan data skala besar.
Sejarah Hadoop
Hadoop diciptakan oleh Doug Cutting dan Mike Cafarella pada tahun 2005. Cutting, pada saat itu bekerja di perusahaan Yahoo!, Kata “Hadoop” sendiri adalah nama mainan gajah berwarna kuning milik anaknya.
Hadoop terinspirasi dari publikasi makalah Google MapReduce dan Google File System (GFS) oleh ilmuwan dari Google, Jeffrey Dean dan Sanjay Ghemawat pada tahun 2004.
Pengguna Hadoop
Perusahaan besar yang menggunakan Hadoop seperti Yahoo! dan Facebook. Pada tahun 2010, Facebook menyatakan bahwa mereka memiliki Cluster Hadoop paling besar di dunia dengan 21 Petabyte. Pada tanggal 13 Juni 2012 mereka memberitahukan bahwa data yang sebelumnya 21 Petabyte telah bertambah menjadi 100 Petabyte. Dan tanggal 8 November 2012 penggunaan data di Facebook naik kira-kira setengah Petabyte per hari.
Untuk lebih lanjut, kita bisa menonton tutorial dibawah ini.

0 komentar:

Posting Komentar