Apa yang Anda ketahui tentang Hadoop?

Hadoop

Hadoop adalah kumpulan utilitas perangkat lunak sumber terbuka yang memfasilitasi penggunaan jaringan banyak komputer untuk memecahkan masalah yang melibatkan data dan komputasi dalam jumlah besar.

Apa yang Anda ketahui tentang Hadoop ?

Hadoop dapat dianggap sebagai satu set program dan prosedur open source (artinya pada dasarnya mereka bebas untuk digunakan atau dimodifikasi oleh siapa pun, dengan beberapa pengecualian) yang dapat digunakan siapa pun sebagai “Backbone” operasi data besar mereka.

4 Modul Hadoop

Hadoop terdiri dari “modul”, yang masing-masing melakukan tugas penting untuk sistem komputer yang dirancang untuk analisis data besar.

1. Sistem File Terdistribusi

Dua yang paling penting adalah Sistem File Terdistribusi, yang memungkinkan data disimpan dalam format yang mudah diakses, di sejumlah besar perangkat penyimpanan yang ditautkan, dan MapReduce - yang menyediakan alat dasar untuk mencari-cari data.

(“Sistem file” adalah metode yang digunakan oleh komputer untuk menyimpan data, sehingga dapat ditemukan dan digunakan. Biasanya ini ditentukan oleh sistem operasi komputer, namun sistem Hadoop menggunakan sistem file sendiri yang berada “di atas” sistem file komputer host - artinya dapat diakses menggunakan komputer yang menjalankan OS yang didukung).

2. MapReduce

MapReduce dinamai setelah dua operasi dasar modul ini melakukan - membaca data dari database, meletakkannya ke dalam format yang cocok untuk analisis (peta), dan melakukan operasi matematika yaitu menghitung jumlah laki-laki berusia 30+ dalam database pelanggan (mengurangi ).

3. Hadoop Common

Modul lainnya adalah Hadoop Common, yang menyediakan alat (dalam Java) yang diperlukan untuk sistem komputer pengguna (Windows, Unix atau apa pun) untuk membaca data yang disimpan di bawah sistem file Hadoop.

4. YARN

Modul terakhir adalah BENANG, yang mengelola sumber daya sistem yang menyimpan data dan menjalankan analisis.

Berbagai prosedur, pustaka, atau fitur lainnya dianggap sebagai bagian dari “kerangka kerja” Hadoop selama beberapa tahun terakhir, tetapi Sistem File Terdistribusi Hadoop, Hadoop MapReduce, Hadoop Common, dan Hadoop YARN adalah prinsip empat.

Bagaimana Hadoop

Pengembangan Hadoop dimulai ketika insinyur perangkat lunak yang berpikiran maju menyadari bahwa dengan cepat menjadi berguna bagi siapa saja untuk dapat menyimpan dan menganalisis kumpulan data yang jauh lebih besar daripada yang dapat disimpan dan diakses secara praktis pada satu perangkat penyimpanan fisik (seperti hard disk).

Ini sebagian karena ketika perangkat penyimpanan fisik menjadi lebih besar, komponen yang membaca data dari disk akan lebih lama (yang dalam hard disk akan menjadi “kepala”) untuk pindah ke segmen tertentu. Sebaliknya, banyak perangkat yang lebih kecil yang bekerja secara paralel lebih efisien daripada yang besar.

Ini dirilis pada tahun 2005 oleh Apache Software Foundation, sebuah organisasi nirlaba yang memproduksi perangkat lunak open source yang menggerakkan banyak Internet di belakang layar. Dan jika Anda bertanya-tanya dari mana nama aneh itu berasal, itu adalah nama yang diberikan kepada gajah mainan milik putra salah satu pencipta asli!

Penggunaan Hadoop

Sifat fleksibel dari sistem Hadoop berarti perusahaan dapat menambah atau memodifikasi sistem data mereka saat kebutuhan mereka berubah, menggunakan komponen yang murah dan tersedia dari vendor TI mana pun.

Saat ini, ini adalah sistem yang paling banyak digunakan untuk menyediakan penyimpanan dan pemrosesan data di seluruh perangkat keras “komoditas” - sistem yang relatif murah, tersedia di pasaran yang terhubung bersama, sebagai lawan dari sistem mahal yang dipesan khusus yang dibuat khusus untuk pekerjaan yang ada. Bahkan diklaim bahwa lebih dari setengah perusahaan di Fortune 500 memanfaatkannya.

Hampir semua nama online besar menggunakannya, dan karena siapa pun bebas untuk mengubahnya untuk keperluan mereka sendiri, modifikasi yang dibuat untuk perangkat lunak oleh insinyur ahli di, misalnya, Amazon dan Google, diumpankan kembali ke komunitas pengembangan, di mana mereka sering digunakan untuk meningkatkan produk “resmi”. Bentuk pengembangan kolaboratif antara pengguna sukarela dan komersial ini adalah fitur kunci dari perangkat lunak open source.

Dalam keadaan “mentah” - menggunakan modul dasar yang disediakan di sini http://hadoop.apache.org/ oleh Apache, itu bisa sangat kompleks, bahkan untuk para profesional TI - itulah sebabnya berbagai versi komersial telah dikembangkan seperti Cloudera yang menyederhanakan tugas menginstal dan menjalankan sistem Hadoop, serta menawarkan pelatihan dan layanan dukungan.

Jadi, secara singkat, adalah Hadoop. Berkat sifat fleksibel dari sistem, perusahaan dapat memperluas dan menyesuaikan operasi analisis data saat bisnis mereka berkembang. Dan dukungan dan antusiasme dari komunitas open source di belakangnya telah menyebabkan langkah besar menuju membuat analisis data besar lebih mudah diakses untuk semua orang.

Sumber

https://www.bernardmarr.com/default.asp?contentID=1080