মানচিত্র সাইড যোগদান বনাম। যোগদান

এই পোস্টে হাদুপ ম্যাপের দিকটি নিয়ে বনাম সম্পর্কিত আলোচনা করা হয়েছে যোগ দিন এছাড়াও ম্যাপ কী হ্রাস করা যায়, সারণিতে যোগদান করুন, পাশে যোগ দিন, মাতালায় ম্যাপ-সাইড জোড় অপারেশন ব্যবহারের সুবিধাগুলি কী তা শিখুন

এই ব্লগে, আমরা সম্পর্কে আলোচনা করব মানচিত্রের পার্শ্ব যোগদান এবং এর মধ্যে সাধারণ যোগদানের ক্রিয়াকলাপের থেকে তার সুবিধা ages মধুএটি একটি গুরুত্বপূর্ণ ধারণা যা আপনার প্রয়োগ করতে শিখতে হবে তবে এ সম্পর্কে জানার আগে আমাদের প্রথমে ধারণাটি বুঝতে হবে ‘যোগ দিন’ এবং যখন আমরা যোগদানটি সম্পাদন করি তখন অভ্যন্তরীণভাবে কী ঘটে মধু



যোগদান এমন একটি ধারা যা দুটি সারণীর (বা ডেটা-সেট) রেকর্ড করে।
ধরে নিন যে আমাদের দুটি এবং টেবিল A ​​এবং B রয়েছে যখন আমরা সেগুলিতে যোগদানের কাজ করব, এটি রেকর্ডগুলি ফিরিয়ে দেবে যা সমস্ত কলাম o f A এবং B এর সংমিশ্রণ are



এখন আসুন একটি উদাহরণ সহ সাধারণ যোগদানের কার্যকারিতা বুঝতে পারি ..

যখনই, আমরা জয়েন অপারেশনের জন্য আবেদন করি, কাজটি একটি মানচিত্র হ্রাস টাস্কে নির্ধারিত হবে যা দুটি পর্যায়ে গঠিত- ক ‘মানচিত্রের মঞ্চ ’এবং একটি‘ স্টেজ হ্রাস করুন ’। মানচিত্র পর্যায়ের সময় একজন ম্যাপারের কাজ হ'ল 'পড়া' যোগদানের টেবিল এবং থেকে ডেটা 'ফিরে' দ্য ‘যোগ কী’ এবং ‘যোগদানের মান’ একটি মধ্যবর্তী ফাইলের মধ্যে জুড়ি। তদ্ব্যতীত, এলোমেলো পর্যায়ে এই মধ্যবর্তী ফাইলটি পরে বাছাই এবং একত্রিত করা হয়। হ্রাস পর্বের সময় হ্রাসকারীটির কাজ হ'ল এই সাজানো ফলাফলটি ইনপুট হিসাবে নেওয়া এবং যোগদানের কাজটি সম্পূর্ণ করা।



  • ম্যাপ-সাইড জয়েন একটি যোগদানের অনুরূপ তবে সমস্ত টাস্ক একাই ম্যাপার দ্বারা সম্পাদিত হবে।

  • টাস্কটি অনুকূলকরণের জন্য ছোট্ট টেবিলগুলির জন্য ম্যাপ সাইড জয়েন্টটি বেশিরভাগ ক্ষেত্রে উপযুক্ত।



কীভাবে মানচিত্রের দিকটি যোগদানটি কার্যটি অনুকূল করে তুলবে?

ধরুন আমাদের দুটি টেবিল রয়েছে যার মধ্যে একটি ছোট টেবিল। যখন আমরা কোনও মানচিত্র হ্রাস টাস্ক জমা দিই, আসল মানচিত্র হ্রাস টাস্কের আগে ম্যাপ হ্রাস স্থানীয় কাজটি তৈরি করা হবে যা এইচডিএফএস থেকে ছোট টেবিলের ডেটা পড়বে এবং এটিকে মেমোরি হ্যাশ টেবিলের মধ্যে সংরক্ষণ করবে। পড়ার পরে এটি ইন-মেমরি হ্যাশ টেবিলটিকে হ্যাশ টেবিল ফাইলে সিরিয়াল করে তোলে।

পরবর্তী পর্যায়ে, আসল যোগদানের মানচিত্র হ্রাস কাজটি যখন চলছে তখন এটি হ্যাশ টেবিল ফাইলে থাকা ডেটা হ্যাডোপ বিতরণ করা ক্যাশে স্থানান্তরিত করে, যা প্রতিটি ফাইলের স্থানীয় ডিস্কে এই ফাইলগুলি পপুলেট করে। সুতরাং সমস্ত ম্যাপাররা এই অবিচ্ছিন্ন হ্যাশ টেবিল ফাইলটিকে স্মৃতিতে ফিরে লোড করতে পারে এবং আগের মতো যোগদানের কাজটি করতে পারে। অপ্টিমাইজড মানচিত্রের যোগদানের কার্যকর প্রবাহ নীচের চিত্রটিতে দেখানো হয়েছে। অপ্টিমাইজেশনের পরে, ছোট টেবিলটি কেবল একবার পড়তে হবে। এছাড়াও যদি একই মেশিনে একাধিক ম্যাপার চলমান থাকে তবে বিতরণ করা ক্যাশে কেবলমাত্র এই মেশিনে হ্যাশ টেবিল ফাইলের একটি অনুলিপি চাপতে হবে।

মানচিত্রের পার্শ্বে যোগদানের সুবিধা:

  • মানচিত্রের পার্শ্বে যোগ দিনটি বাছাই এবং মার্জ করার জন্য যে ব্যয় হয় তা হ্রাস করতে সহায়তা করে অদলবদল এবং হ্রাস পর্যায়
  • কাজ শেষ করার সময় কমিয়ে ম্যাপ-সাইড জয়েনও কার্য সম্পাদনকে উন্নত করতে সহায়তা করে।

মানচিত্রের পার্শ্বে যোগদানের অসুবিধা:

  • আপনি ম্যাপ সাইড জোড় অপারেশন যে টেবিলগুলির উপর মেমরির সাথে ফিট করার জন্য যথেষ্ট ছোট সেগুলি কেবল তখনই ম্যাপ সাইড জয়েন্ট পর্যাপ্ত। অতএব টেবিলগুলিতে ম্যাপ-সাইড জয়েন করা উপযুক্ত নয় যা উভয় ক্ষেত্রেই বিশাল ডেটা।

মানচিত্র হ্রাস হ্রাস এর সহজ উদাহরণ:

আসুন দুটি টেবিল তৈরি করুন:

  • এম্প : কোনও কর্মচারীর বিবরণ যেমন কর্মচারীর নাম, কর্মচারী আইডি এবং তার সাথে সম্পর্কিত বিভাগ রয়েছে।

  • বিভাগ: বিভাগের নাম, বিভাগের আইডি ইত্যাদির মতো বিবরণ রয়েছে contains

তৈরি করা টেবিলগুলিতে ডেটা লোড করতে নিম্নলিখিত চিত্রটিতে প্রদর্শিত হিসাবে দুটি ইনপুট ফাইল তৈরি করুন।

কর্মচারী। txt

dept.txt

এখন, টেবিলগুলিতে ডেটা লোড করা যাক।

আমাদের সঞ্চালন করা যাক মানচিত্রের পাশ যোগদান যে দুটি বিভাগে প্রতিটি কর্মচারী কাজ করছেন তার তালিকা বের করতে দুটি টেবিলের উপরে।

এখানে দ্বিতীয় টেবিল অধিদপ্তর একটি ছোট টেবিল। মনে রাখবেন, সর্বদা বিভাগের সংখ্যা কোনও সংস্থায় কর্মচারীর সংখ্যার চেয়ে কম হবে।

এখন আসুন স্বাভাবিক হ্রাস-সাইড যোগদানের সহায়তায় একই কাজটি সম্পাদন করা যাক।

উভয় যোগদানের সময়, আপনি দুটি পার্থক্য খুঁজে পেতে পারেন:

  • স্বাভাবিক যোগদানের সময়টির তুলনায় মানচিত্র-হ্রাস যোগদান কম সময়ের মধ্যে কাজ শেষ করেছে।

  • মানচিত্র-হ্রাস যোগদান কোনও রিডুসারের সাহায্য ছাড়াই এর কাজ সম্পন্ন করেছে যেখানে সাধারণ যোগদানের জন্য একজন রিডিউসারের সাহায্যে এই কাজটি কার্যকর করা হয়েছে।

অতএব, মানচিত্রের পাশে যোগদান আপনার সেরা বেটটি যখন কোনও টেবিলগুলির মধ্যে অল্প সময়ের মধ্যে কাজ শেষ করতে মেমরির সাথে ফিট করার মতো যথেষ্ট ছোট থাকে।

ভিতরে রিয়েল-টাইম পরিবেশ , আপনার বিপুল পরিমাণ ডেটা সহ ডেটা-সেট থাকবে। সুতরাং বিশ্লেষণ সম্পাদন করা এবং ডেটা পুনরুদ্ধার করা সময় সাশ্রয়ী হবে যদি ডেটা-সেটগুলির মধ্যে একটি ছোট আকারের হয়। এই ক্ষেত্রে মানচিত্রের পাশে যোগদান কম সময়ে কাজটি সম্পূর্ণ করতে সহায়তা করবে।

হাদুপকে মাস্টার করার জন্য এর চেয়ে ভাল সময় আর কখনও হয়নি! এডুরেকা দ্বারা বিশেষভাবে সজ্জিত বিগ ডেটা এবং হ্যাডোপ কোর্সটি দিয়ে এখনই শুরু করুন।

তথ্যসূত্র:
https://www.facebook.com/notes/facebook-engineering/join-optimization-in-apache-hive/470667928919

__এটা__

সম্পর্কিত পোস্ট:

7 টি উপায় বিগ ডেটা প্রশিক্ষণ আপনার সংস্থা পরিবর্তন করতে পারে