هدوپ

هدوپ

مقاله ای در خصوص مفهوم هدوپ و اینکه چه زمانی و برای چه منظوری از این مفهوم استفاده میشود

بنا بر نیازمندیهای داده های کلان و اینکه  هدوپ پاسخی به این نیاز می باشد متوجه میشویم که  هدوپ از یک ساختار توزیع پذیر برای ذخیره داده ها بگونه قابل اعتماد استفاده میکند و نیز دارای مکانیزمی برای پردازش این داده ها می باشد

ساختاری که هدوپ بمنظور ذخیره داده ها بصورت توزیعی از آن استفاده می کند ساختار HDFS یا

Hadoop Distributed File System است .

همچنین برای اینکه بتوان در این ساختار روی داده های توزیع شده عملیات پردازشی انجام دهد از مکانیزمی بنام MapReduce استفاده میکند

در راستای ایجاد هدوپ و بنظور مدیریت کلان داده ها تحت آن زیر پروژه های دیگری نیز مطرح گردید مثل

Hbase, Hive,Pig, Zookeeper, Avro و بسیاری پروژه های دیگر که به جهت سهولت در خواندن داده ها

یا سهولت در ذخیره سازی آنها و یا مدیریت پردازش آنها ایجاد و مورد بهره برداری قرار گرفته است .

همچنین پروژه های دیگری مرتبط با هدوپ طرح و ایجاد گردید . مانند :

Mahut, Cassandra, Hypertable, Hama , و چندین پروژه دیگر

اما گفتیم مشکلی که در خصوص کلان داده ها و پردازش آنها مواجه هستیم پهنای باند شبکه می باشد .

برای روشن شدن مطلب مثالی میزنم :

فرض کنید ۱۰۰ ترابایت داده داریم و این داده ها را بصورت توزیعی روی ۱۰۰۰ تا کلاستر یا Cluster Node ذخیره کرده ایم و حالا نیاز به اسکن این داده ها داریم

چنانچه بخواهیم برای این اسکن بصورت ریموت روی ماشین های مختلف عمل اسکن را انجام دهیم و با احتساب سرعت شبکه مثلا ۱۰ مگابیت در ثانیه 10MB/s برای میزان ۱۰۰ ترابیات داده به اندازه ۱۶۵ دقیقه زمان برای اسکن نیاز داریم .

حالا چنانچه تمام داده های ما بصورت لوکال یکجا قرار گرفته باشند بصورتی که برای دسترسی به آنها نیاز به ارتباط از طریق شبکه نباشد این زمان به ۳۳ تا ۳۸ دقیقه کاهش می یابد .

این رویکرد نشان میدهد که بهتر است داده ها بصورت لوکال در دسترس بوده ولی بجای آن عملیات پردازش را بصورت ریموت یا از طریق شبکه انجام دهیم .

در واقع محاسبات را روی ماشینهای مختلف پخش میکنیم اما داده ها بصورت لوکال باقی میمانند .

در این راستا اهداف هدوپ چه میتواند باشد ؟

۱-هدوپ میگه من مقیاس پذیر هستم یعنی چی؟

یعنی میگوید من میتوانم یک پتابایت داده یا 10 به توان ۱۵ بایت را روی هزار نود کلاستر ذخیره کنم

در واقع هدوپ میتواند

با 1000 NODE

– 4000DISKS, 8000 CORE , 25 SWITCH , 2000 DIMM(16TB RAM

براحتی کار کند .

۲قابل اعتماد است

Hadoop میگوید اگر بخواهیم مهندسی ضریب اعتماد را روی هر نرم افزاری پیاده کنیم هزینه بر بوده و مقرون به صرفه نیست و ادعا میکند که روشی به صرفه برای ایجاد ضریب اطمینان دارد.

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگوها شرکت کنید؟
در گفتگو ها شرکت کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *