বড় ডেটা ক্রাঞ্চ করার জন্য প্রয়োজনীয় হ্যাডোপ সরঞ্জাম

হ্যাডোপ হ'ল আইটি বিশ্বে আজকের শব্দ, এবং এই পোস্টটিতে বিগ ডেটা ক্রাচ করার জন্য প্রয়োজনীয় হ্যাডোপ সরঞ্জামগুলি বর্ণনা করে।



আজ তথ্যপ্রযুক্তি বিশ্বে সর্বাধিক জনপ্রিয় শব্দটি হ'ল 'হাদুপ'। অল্প সময়ের মধ্যে, হাদুপ ব্যাপক আকারে বৃদ্ধি পেয়েছে এবং বিভিন্ন প্রকল্পের বৃহত সংগ্রহের জন্য দরকারী বলে প্রমাণিত হয়েছে। হাডোপ সম্প্রদায়টি দ্রুত বিকশিত হচ্ছে এবং এর ইকো সিস্টেমে বিশিষ্ট ভূমিকা রয়েছে has

বিগ ডেটা হ্যান্ডেল করতে ব্যবহৃত হ্যাডাপের প্রয়োজনীয় সরঞ্জামগুলি এখানে দেখুন।

সাজানো অ্যালগরিদম সি ++

ambari



আমবাড়ি হর্টন ওয়ার্কস দ্বারা সমর্থিত একটি অ্যাপাচি প্রকল্প। এটি বেশিরভাগ মানক উপাদান সহ ক্লাস্টার স্থাপনের জন্য উইজার্ড স্ক্রিপ্ট সহ একটি ওয়েব-ভিত্তিক জিইউআই (গ্রাফিকাল ইউজার ইন্টারফেস) সরবরাহ করে। আম্বারি হাদুপ কাজের সকল ক্লাস্টার বিধান, পরিচালনা এবং নিরীক্ষণ করে।

hdfs-logo

দ্য এইচডিএফএস , অ্যাপাচি লাইসেন্সের অধীনে বিতরণ একাধিক নোডের মধ্যে ডেটা সংগ্রহগুলি বিভক্ত করার জন্য একটি প্রাথমিক কাঠামো সরবরাহ করে। এইচডিএফএসে, বড় ফাইলগুলি ব্লকগুলিতে বিভক্ত হয়, যেখানে বেশ কয়েকটি নোড ফাইল থেকে সমস্ত ব্লক ধরে থাকে। ফাইল সিস্টেমটি এমন একটি উপায়ে তৈরি করা হয়েছে যাতে হাই থ্রুপুট সহ দোষ সহ্য করতে পারে mix অবিচ্ছিন্ন স্ট্রিমিং বজায় রাখতে এইচডিএফএসের ব্লকগুলি লোড করা হয়। তারা সাধারণত বিলম্বতা কমাতে ক্যাশে করা হয় না।



hbaselogo

এইচবেস একটি কলাম ভিত্তিক ডাটাবেস ম্যানেজমেন্ট সিস্টেম যা এইচডিএফএসের শীর্ষে চলে। HBase অ্যাপ্লিকেশনগুলি জাভাতে লেখা রয়েছে, অনেকটা মানচিত্রার অ্যাপ্লিকেশনটির মতো। এতে টেবিলগুলির একটি সেট রয়েছে, যেখানে প্রতিটি সারণীতে একটি প্রচলিত ডাটাবেসের মতো সারি এবং কলাম রয়েছে। যখন ডেটাটি বড় টেবিলের মধ্যে পড়ে তখন এইচবিজে ডেটা সঞ্চয় করবে, এটি অনুসন্ধান করবে এবং স্বয়ংক্রিয়ভাবে একাধিক নোডের মধ্যে টেবিলটি ভাগ করে নেবে যাতে মানচিত্রের কাজগুলি স্থানীয়ভাবে এটি চালাতে পারে। এইচবাসে কিছু স্থানীয় পরিবর্তনের জন্য সীমিত গ্যারান্টি দেয়। একক সারিতে ঘটে যাওয়া পরিবর্তনগুলি একই সাথে সফল বা ব্যর্থ হতে পারে।

hive

আপনি যদি ইতিমধ্যে এসকিউএল এর সাথে সাবলীল হন তবে আপনি হাদুপ ব্যবহার করে উপকার পেতে পারেন মধু । মধুচূড়া ফেসবুকের কিছু লোকেরা তৈরি করেছিলেন। অ্যাপাচি হাইভ এইচবাসে সমস্ত ফাইল থেকে বিট আহরণের প্রক্রিয়া নিয়ন্ত্রণ করে। এটি হাদুপের এইচডিএফএস এবং সামঞ্জস্যপূর্ণ ফাইল সিস্টেমে সঞ্চিত বড় ডেটাসেটগুলির বিশ্লেষণ সমর্থন করে। এটি এইচএসকিউএল (হিভএসকিউএল) নামক একটি এসকিউএল সরবরাহ করে যা ফাইলগুলিতে প্রবেশ করে এবং কোডের জন্য প্রয়োজনীয় স্নিপেটগুলি বের করে।

sqoop

Apache Sqoop speciallyতিহ্যবাহী ডেটাবেসগুলি থেকে হিভ বা এইচবেসে রূপান্তরিত করার জন্য বিশেষভাবে ডিজাইন করা হয়েছে bul এটি হ্যাডোপ থেকে ডেটা আহরণ করতে এবং এটি বাহ্যিক কাঠামোগত ডেটা স্টোরগুলিতে যেমন রিলেশনাল ডাটাবেস এবং এন্টারপ্রাইজ ডেটা গুদামগুলিতে রফতানি করতে ব্যবহার করা যেতে পারে। স্কুওপ হ'ল একটি কমান্ড লাইন সরঞ্জাম, টেবিলগুলি এবং ডেটা স্টোরেজ স্তরের মধ্যে ম্যাপিং করে, টেবিলগুলিকে এইচডিএফএস, এইচবিএস বা মধুচক্রের একটি কনফিগারযোগ্য সংমিশ্রণে অনুবাদ করে।

Pig1

যখন সঞ্চিত ডেটা হাদুপের কাছে দৃশ্যমান হয়, অ্যাপাচি পিগ ডেটাগুলিতে ডুব দেয় এবং কোডটি চালান যা তার নিজের ভাষায় লেখা হয়, তাকে পিগ ল্যাটিন বলে। পিগ ল্যাটিন ডেটা পরিচালনা করার জন্য বিমূর্ততায় পূর্ণ। পিগ স্ট্যান্ডার্ড ফাংশন সহ সাধারণ কাজের জন্য যেমন ডেটা গড় করতে, তারিখগুলি নিয়ে কাজ করা বা স্ট্রিংগুলির মধ্যে পার্থক্য সন্ধানের জন্য আসে। পিগ ব্যবহারকারীদের নিজস্ব ভাষা লিখতে দেয়, ইউডিএফ (ইউজার সংজ্ঞায়িত ফাংশন), যখন স্ট্যান্ডার্ড ফাংশনগুলি কম হয়ে যায় short

zookeper

চিড়িয়াখানা একটি কেন্দ্রিয়ায়িত পরিষেবা যা তথ্য বজায় রাখে, কনফিগার করে, একটি নাম দেয় এবং একটি ক্লাস্টারে জুড়ে বিতরণ সমন্বয় সরবরাহ করে। এটি ক্লাস্টারে একটি ফাইল সিস্টেমের মতো হায়ারার্কি চাপিয়ে দেয় এবং মেশিনগুলির জন্য সমস্ত মেটাডেটা সঞ্চয় করে, যাতে আমরা বিভিন্ন মেশিনের কাজ সিঙ্ক্রোনাইজ করতে পারি।

NoSQL

কিছু হাদুপ ক্লাস্টার একত্রিত হয় rate NoSQL নোডগুলির একটি গোষ্ঠী জুড়ে ডেটা সংরক্ষণের জন্য নিজস্ব ব্যবস্থাসমূহের সাথে আসা ডেটা স্টোর। এটি তাদের নোএসকিউএল ডাটাবেসের সমস্ত বৈশিষ্ট্য সহ ডেটা সঞ্চয় এবং পুনরুদ্ধার করতে সহায়তা করে, যার পরে হ্যাডোপ একই ক্লাস্টারে ডেটা বিশ্লেষণ কাজের সময়সূচী করতে ব্যবহার করা যেতে পারে।

mahoutlogo

মাহত হ্যাডোপ ক্লাস্টারে প্রচুর অ্যালগরিদম, শ্রেণিবদ্ধকরণ এবং ডেটা বিশ্লেষণ ফিল্টারিং বাস্তবায়নের জন্য ডিজাইন করা হয়েছে। কে-মানে, দিরিচলেট, সমান্তরাল প্যাটার্ন এবং বায়সিয়ান শ্রেণিবিন্যাসের মতো অনেকগুলি স্ট্যান্ডার্ড অ্যালগরিদম হ্যাডোপ শৈলীর মানচিত্রের সাথে ডেটা চালাতে এবং হ্রাস করতে প্রস্তুত।

লুসিন, জাভাতে লেখা এবং হাদুপের সাথে সহজেই সংহত করা হ্যাডোপের একটি প্রাকৃতিক সহচর। এটি একটি সরঞ্জাম যা অবাংক্ষিত পাঠ্যের বৃহত ব্লকগুলি সূচীকরণের জন্য বোঝানো হয়। লুসিন সূচক পরিচালনা করে, এবং হ্যাডোপ ক্লাস্টার জুড়ে বিতরণ করা ক্যোয়ারগুলি পরিচালনা করে। নতুন প্রকল্পগুলি বিকাশ হওয়ায় লুসিন-হাদোপ বৈশিষ্ট্যগুলি দ্রুত বিকশিত হচ্ছে।

Avro

ইউরো এটি একটি সিরিয়ালাইজেশন সিস্টেম যা এটি বোঝার জন্য স্কিমার সাথে ডেটা বান্ডিল করে। প্রতিটি প্যাকেট একটি JSON ডেটা কাঠামো নিয়ে আসে। জেএসওন ব্যাখ্যা করে যে কীভাবে ডেটা পার্স করা যায়। জেএসওনের শিরোনাম ডেটাটির জন্য কাঠামো নির্দিষ্ট করে, যেখানে ক্ষেত্রগুলি চিহ্নিত করতে ডেটাতে অতিরিক্ত ট্যাগ লেখার প্রয়োজনীয়তা এড়ানো যেতে পারে। এক্সএমএলের মতো traditionalতিহ্যবাহী ফর্ম্যাটগুলির চেয়ে আউটপুট যথেষ্ট কমপ্যাক্ট।

কোনও কাজকে পদক্ষেপে ভেঙে সরল করা যায়। প্রকল্পটি একাধিক হডোপ চাকরিতে ভাঙ্গার সময়, ওজি তাদের সঠিক ক্রমানুসারে প্রক্রিয়া শুরু করে starts এটি ড্যাগ দ্বারা নির্দেশিত ওয়ার্কফ্লো পরিচালনা করে (নির্দেশিত অ্যাসাইক্লিক গ্রাফ) এবং সময় মতো মনিটরের প্রয়োজন নেই।

জিআইএস সরঞ্জাম

হ্যাডোপ চালানো ক্লাস্টারদের জন্য ভৌগলিক মানচিত্রের সাথে কাজ করা একটি বড় কাজ। জিআইএস ( ভৌগলিক তথ্য ব্যবস্থা ) হ্যাডোপ প্রকল্পগুলির সরঞ্জামগুলি হ্যাডোপের সাথে চলার জন্য ভৌগলিক তথ্য বোঝার জন্য সেরা জাভা-ভিত্তিক সরঞ্জামগুলি গ্রহণ করেছে। ডাটাবেসগুলি এখন স্থানাঙ্কগুলি ব্যবহার করে ভৌগলিক প্রশ্নগুলি পরিচালনা করতে পারে এবং কোডগুলি জিআইএস সরঞ্জাম স্থাপন করতে পারে।

সমস্ত ডেটা সংগ্রহ করা এটি সংরক্ষণ এবং বিশ্লেষণের সমান। অ্যাপাচি ফ্লুম এইচডিএফএসে সঞ্চিত তথ্য সংগ্রহের জন্য ‘বিশেষ এজেন্ট’ প্রেরণ করে। সংগৃহীত তথ্য লগ ফাইল, টুইটার এপিআই বা ওয়েবসাইট স্ক্র্যাপ হতে পারে। এই তথ্যগুলি শিকলযুক্ত করে বিশ্লেষণ করা যেতে পারে।

Spark

স্পার্ক পরবর্তী প্রজন্ম হ্যাডোপের মতো কাজ করে যা মেমরিতে ক্যাশ হওয়া ডেটা প্রক্রিয়া করে। এর উদ্দেশ্য হ'ল একটি সাধারণ সম্পাদনকারী মডেল দিয়ে চালানো এবং লেখার জন্য ডেটা বিশ্লেষণ দ্রুত করা। এটি স্বেচ্ছাসেবী অপারেটর গ্রাফগুলি অনুকূল করতে পারে এবং মেমোরি কম্পিউটিংকে সমর্থন করতে পারে, যা এটি হ্যাডোপের মতো ডিস্ক-ভিত্তিক ইঞ্জিনগুলির চেয়ে দ্রুত ডেটা জিজ্ঞাসা করতে দেয়।

হ্যাডোপে এসকিউএল

যখন ক্লাস্টারের সমস্ত ডেটার তাত্ক্ষণিকভাবে অ্যাড-হক ক্যোয়ারি চালানো দরকার হয়, তখন একটি নতুন হ্যাডোপ কাজ লেখা যায়, তবে এতে কিছুটা সময় লাগে। প্রোগ্রামাররা যখন প্রায়শই এটি করা শুরু করে তখন তারা এসকিউএল-এর সহজ ভাষায় লেখা সরঞ্জাম নিয়ে আসে। এই সরঞ্জামগুলি ফলাফলগুলিতে দ্রুত অ্যাক্সেস সরবরাহ করে।

অ্যাপাচি ড্রিল

অ্যাপাচি ড্রিল নেস্টেড ডেটা সহ অসংখ্য এবং বৈচিত্র্যযুক্ত ডেটা উত্সগুলিতে কম বিলম্বিত অ্যাড-হক প্রশ্ন সরবরাহ করে। ড্রিল, গুগলের ড্রেমেল দ্বারা অনুপ্রাণিত, 10,000 সার্ভারে স্কেল এবং সেকেন্ডে ডেটা পেটবাইট কোয়েরি করার জন্য ডিজাইন করা হয়েছে।

বিগ ডেটা ক্রাঞ্চ করার জন্য এগুলি হ্যাডাপের প্রয়োজনীয় সরঞ্জামগুলি!

আমাদের জন্য একটি প্রশ্ন আছে? মন্তব্য বিভাগে তাদের উল্লেখ করুন এবং আমরা আপনার কাছে ফিরে আসব।

সম্পর্কিত পোস্ট:

হ্যাডোপ ২.০ শিখার ব্যবহারিক কারণ