هادوپ - بخش اول

ارسال شده توسط اوات رضایی | 7 May, 2015
یکی از مباحث مهم و مطرح در دنیای امروز، ذخیره سازی و پردازش داده های بزرگ(Big Data) است. داده های بزرگ به داده های گفته می شوند که دارای حجمی بالا در مقیاس پتابایت(PB)  می باشند. البته هر داده بزرگی را نمی توان Big Data درنظر گرفت و ویژگی های دیگری مانند سرعت تولید داده، تنوع داده و ... را می توان از سایر ویژگی های داده های بزرگ دانست.
چنین داده هایی معمولا در صنایع بزرگ، شبکه های اجتماعی، جستوجوگرها، مراکز بزرگ هواشناسی، آزمایشکاه های علمی و ... تولید و نگهداری می شوند.
 
پردازش چنین داده های کار دشوار و زمانگیری است. از اینرو دانشمندان به دنبال روش هایی برای مدیریت چنین داده هایی هستند.تاکنون ابزارهای متفاوتی برای برای اینکار تولید شده است. یکی از این ابزارها Hadoop  می باشد که در این مطلب به آن می پردازیم. 
 
 هادوپ چیست؟
بر اساس تعریفی که سایت آپاچی "هادوپ یک چارچوب برای توسعه نرم افزارهای توزیع شده جهت پردازش های توزیع شده برروی داده  ها در یک کلاستر می باشند. به گونه ای که این نرم افزارهای تولیدی قابل اعتماد و قابل توسعه باشند".هادوپ می تواند بر روی یک یا چندین هزار کامپیوتر پیاده سازی شود. 
 
اجزای هادوپ
 
در کل هادوب از دو جز تشکیل شده است.
  • فایل سیستم هادوپ  (Hadoop Distibuted File System) یا HDFS  برای داده های روی کلاسترها را ذخیره می کند.
  • پارچوب Mapreduce - اجرای منطق پیاده سازی شده توسط برنامه نویس را به عهده دارد.
هادوپ برای اجرا و پیاده سازی این دو بخش از چندین سرویس دایمون استفاده می کند.
  1. Namenode
  2. Datanode
  3. Secondarynode
  4. Jobtracker
  5. Tasktracker
سه مورد اول مربوط به بخش HDFS و دو مورد آخر مربوط به Mapreduce می باشد.
 
در مطلب بعدی درمورد  HDFS و نحوه ذخیره سازی داده ها در آن صحبت خواهیم کرد.

 
 
 

داده‌های بزرگ

ارسال شده توسط اوات رضایی | 13 Apr, 2015
بزرگ‌داده یا داده‌های بزرگ ( Big data) اصطلاحی است که به مجموعهٔ داده‌هایی اطلاق می‌شود که مدیریت، کنترل و پردازش آنها فراتر از توانایی ابزارهای نرم‌افزاری در یک زمان قابل تحمل و مورد انتظار است. مقیاس بزرگ‌داده، به طور مداوم در حال رشد از محدودهٔ چند ۱۰ ترابایت به چندین پتابایت، در یک مجموعهٔ داده واحد است. نـمونه‌هایی از بزرگ‌داده، گــزارش‌های وبی، سامانه‌های بازشناسی با امواج رادیویی، شبکه‌های حسگر، شبکه‌های اجتماعی، متون و اسناد اینترنتی، نمایه‌های جستجوهای اینترنتی، نجوم، مدارک پزشکی، آرشیو عکس، آرشیو ویدیو، پژوهش‌های زمین‌شناسی و تجارت در مقیاس بزرگ هستند. 
 
 مشخصات
 داده‌های عظیم میتوانند بر اساس مشخصات زیر تعریف شوند:

 

  • حجم - مقدار داده‌های تولید شده در این زمینه بسیار مهم است. اندازه داده‌ها ارزش و پتانسیل داده‌های مورد توجه به آن را تعیین می‌کند تا جایی که میتوان تصمیم گرفت که داده عظیم محسوب میشود یا خیر. نام 'داده‌های عظیم' به خودی خود شامل موضوعی است که نشان دهنده رابطه با اندازه زیاد داده می باشد.
  • تنوع - جنبه بعدی در داده‌های عظیم تنوع آن است. این بدان معنی است که دسته بندی داده‌های عظیم به ضرورت نیاز شناسایی شده توسط تحلیلگران داده دارد.این به افراد کمک می‌کند تا داده‌های و ارتباطتشان را دقیق تر تحلیل کنند تا از مزایا و رعایت اهمیت داده‌های عظیم به طور موثر استفاده کنند.
  • نرخ تولید - اصطلاح 'نرخ تولید' در این موضوع به سرعت تولید داده اشاره دارد و یا چگونگی سرعت تولید و پردازش داده‌ها برای پاسخگویی به خواسته‌ و چالش‌های پیش رو در مسیر رشد و توسعه است.

 

 

 

مقیاس‌پذیری (Scalability)

ارسال شده توسط اوات رضایی | 13 Apr, 2015

در علم ارتباطات راه دور و مهندسی نرم افزار مقیاس‌پذیری ( Scalability)، ویژگی مطلوبی از یک سامانه(سیستم)، شبکه و یا فرایند است که به توانایی آن برای پاسخگویی به افزایش میزان بار کاری به سهولت دلالت می‌کند و یا میزان آمادگی سیستم را برای افزایش بار کاری نشان می دهد..[۱] به عنوان نمونه، مقیاس پذیری می‌تواند به توانایی یک سامانه برای افزایش عملکرد کلی در هنگام افزودن منابع(مثل سخت افزار) اشاره کند. هنگامی که این واژه در موضوعات مرتبط با کسب و کار بکار می رود نیز مفهوم مشابهی از آن برداشت می شود. مدل‌های کسب‌وکار مقیاس پذیر مدلهایی هستند که پتانسیل ایجاد رشد اقتصادی سازمان را دارند.

تعریف مقیاس پذیری به عنوان بک خصوصیت از سامانه (سیستم) به سادگی امکانپذیر نیست[۲] و در هر مورد خاصی با توجه به ابعاد مورد اهمیت در باید نیازمندیهای جدیدی را برای مقیاس پذیری تعریف کرد. نقش مقیاس‌پذیری در طرٌاحی و انجام سامانه‌های پیچیده و بزرگ همچون پایگاه‌های داده‌ها، پایگاه‌های دانش، محاسبات گسترده (distributed computing)، اینترنت، کاوش‌های ماشینی در داده‌ها، بینایی رایانه‌ای، و مخابرات بسیار حیاتی و عمده می‌شود. سامانه ای که با افزایش ظرفیت، کارایی آن افزایش می یابد یک سامانه مقیاس پذیر خوانده می شود. یک الگوریتم، طراحی، پروتکل، برنامه رایانه ای و یا هر سیستم دیگری 

مقیاس پذیر خوانده می‌شود اگر برای مقیاس‌های بزرگتر هم بتواند به طرز مناسب و عملی و کارا استفاده شود.

.مقیاس پذیری را می توان در ابعاد گوناگونی اندازه گیری کرد.

 

  •  مقیاس پذیری بار کاری (Load Scalability) : توانایی یک سامانه توزیع شده برای گسترش یا کوچکتر سازی مخزن منابعش برای پاسخگویی به بار کاری بیشتر ویا کمتر.

  • مقیاس پذیری جغرافیایی ( Geographic Scalability) : توانایی حفظ کارایی، مفید بودن و فابلیت استفاده، بدون توجه به تمرکز یا پراکندگی و وسعت جغرافیایی

  • مقیاس پذیری اجرایی ( Administrative Scalability) : توانایی افزایش تعداد سازمانهایی که یک سامانه توزیع یافته را به اشتراک می گذارند.

  • مقیاس پذیری کارکردی ( Functional Scalability) : قابلیت ارتقای سیستم با افزایش یک یا چند کارکرد با کمترین زحمت.
روشهای افزایش منابع برای یک کاربرد خاص در یکی از دسته‌های زیر قرار می گیرند

 

تغییر مقیاس عمودی(Vertical Scaling)

غییر مقیاس عمودی که Scale up نیز گفته می شود، به معنی افزودن منابع به یک گره (Node) از سیستم - به طور نمونه ارتقای پردازنده یا رسانه ذخیره سازی در یک کامپیوتر- می باشد. افزایش بهره برداری از منابع نیز نوعی تغییر مقیاس عمودی است. به عنوان مثال می توان افزودن تعداد پروسه‌های در حال اجرای دمون ( Daemon) های سرور اچ‌تی‌تی‌پی آپاچی ( Apache HTTP Server) را ذکر کرد.

تغییر مقیاس افقی(Horizontal Scaling)

به تغییر مقیاس افقی که Scale out نیز گفته می شود، به معنی افزایش گره‌های بیشتر به سیستم است. به عنوان مثال می توان از افزایش تعداد وب سرورها از یک به سه عدد نام برد. 

تغییر مقیاس قطری(Diagonal Scaling)

 به معنی تغییر مقیاس همزمان افقی و عمودی می باشد.

 

 

 

 

 

Big Data

ارسال شده توسط اوات رضایی | 2 Mar, 2015

In 2010 Avanade®, a global business technology solutions and managed services provider (www.avanade.com), published the results of a research survey on the business impact of big data. Below figure  summarizes the top sources of data and highlights that e-mail with 72% is the major source of big data. It is worth nothing that the 543 involved respondents and It is worth nothing that the 543 involved respondents and IT decision-makers (from 17 countries across North America, Europe and Asia Pacific) were allowed to select up to 3 choices.

 

 

Data is the new raw material of business

ارسال شده توسط اوات رضایی | 25 Feb, 2015
Despite its origins in science, the data deluge effects apply to many other
fields. It is easy to find real cases of massive data sources, many of them are
part of our everyday lives. Common activities, such as adding new friends
on social networks, sharing photographs, buying something electronically,
or clicking in any result returned from a search engine, are continuously
recorded in increasingly large data sets. Data is the new “raw material of
business”.
Data is the new raw material of
business.