একটি গভীর ডুব ইন পিগ

এই ব্লগ পোস্টটি পিগ এবং এর কাজগুলিতে একটি গভীর ডুব। আপনি জাভায় কোনও নির্ভরতা ছাড়াই পিগ ব্যবহার করে হাদুপে কীভাবে কাজ করতে পারবেন তার একটি ডেমো পাবেন।

হডোপের জনপ্রিয়তা সাম্প্রতিক সময়ে আকাশ ছোঁয়া যাওয়ার অন্যতম বড় কারণ হ'ল পিগ এবং হাইভের মতো বৈশিষ্ট্যগুলি এর উপরে চালিত হয় যা জাভা প্রোগ্রামারদের সাথে একচেটিয়া ছিল না এমন প্রোগ্রামারদের সাথে নন-প্রোগ্রামারদের অনুমতি দেয়। এই বৈশিষ্ট্যগুলি হ্যাডোপ পেশাদারদের ক্রমবর্ধমান চাহিদার একটি পরিণতি ছিল। জাভা-ব্যাকগ্রাউন্ডের হ্যাডোপ পেশাদাররা যে বৈশিষ্ট্যগুলি ব্যবহার করেন সেগুলি হ'ল ফ্লুম, স্কুওপ, এইচবেস এবং ওজি।





জাবাতে চরাটের ব্যবহার

হ্যাডোপ শিখতে আপনার জাভা কেন প্রয়োজন হবে না তা বুঝতে, পরীক্ষা করে দেখুন এই ব্লগ

1 পিগ ইতিহাস



আসুন বুঝতে দিন কীভাবে এই বৈশিষ্ট্যগুলি কাজ করে।

আমরা সকলেই জানি যে মানচিত্রের কোড লেখার জন্য প্রোগ্রামিং জ্ঞান একটি প্রয়োজনীয়তা। তবে আমার যদি এমন কোনও সরঞ্জাম থাকে যা কোডিং করতে পারে যদি আমি কেবল বিশদ সরবরাহ করি? সেখান থেকেই পিগ তার পেশী শক্তি প্রদর্শন করে। পিগটি পিগ ল্যাটিন নামে একটি প্ল্যাটফর্ম ব্যবহার করে যা জাভা ম্যাপ্রেডস আইডিয়ম থেকে প্রোগ্রামিংকে একটি স্বরলিপি হিসাবে বিমুক্ত করে দেয় যা ম্যাপ্রেডিউজ প্রোগ্রামিংকে উচ্চ স্তরের করে তোলে, আরডিবিএমএস সিস্টেমের জন্য এসকিউএলের অনুরূপ। পিগ লাতিন মানচিত্রে লিখিত কোডগুলি স্বয়ংক্রিয়ভাবে সমমানের মানচিত্রের ফাংশনে রূপান্তরিত হয়। কি দুর্দান্ত না? আরেকটি মাইন্ড-ব্লাইং ফ্যাক্ট হ'ল জাভা এর 200 টি লাইন প্রতিস্থাপনের জন্য কেবল 10 টি লাইনের লাইন প্রয়োজন।



পিগের 10 লাইন = জাভা 200 লাইন

এর অর্থ এই নয় যে জাভাজনহীন পেশাদাররা হ্যাডোপ ব্যবহার করেন না তবে একই সাথে এই সংখ্যার প্রযুক্তিগত বিকাশকারীদের দ্বারা পিগ ব্যবহার করা হয় তাও অন্তর্ভুক্ত করা যায় fact

অতিরিক্ত হিসাবে আপনি যদি নিজের মানচিত্রের কোডটি লিখতে চান তবে আপনি পার্ল, পাইথন, রুবি বা সি এর মতো যে কোনও ভাষায় এটি করতে পারেন কিছু কিছু বেসিক অপারেশন যা আমরা কোনও ডেটাসেটে পিগ ব্যবহার করে করতে পারি সেগুলি হল গ্রুপ, জয়েন, ফিল্টার এবং বাছাই করুন । এই অপারেশনগুলি কাঠামোগত, অ-কাঠামোগত এবং আধা-কাঠামোগত ডেটাতে সম্পাদন করা যেতে পারে। তারা খুব বড় ডেটা সেটগুলিতে মানচিত্রের কাজ তৈরি এবং সম্পাদনের জন্য একটি অ্যাড-হক উপায় সরবরাহ করে।

পরবর্তী, হ্যাভ বুঝতে পারি ive এটি ডেটা সংক্ষিপ্তকরণ, ক্যোয়ারী এবং বিশ্লেষণের জন্য হাদুপের উপর ভিত্তি করে একটি ওপেন সোর্স, পেটা-বাইট স্কেল ডেটা গুদামজাত কাঠামো। হিভ হ্যাডোপের জন্য একটি এসকিউএল-জাতীয় ইন্টারফেস সরবরাহ করে। আপনি হাইডোপ-এ ফাইল পড়তে এবং লিখতে হাইভ ব্যবহার করতে পারেন এবং একটি দ্বি সরঞ্জাম থেকে আপনার প্রতিবেদনগুলি চালাতে পারেন। হাদুপের কিছু সাধারণ কার্যকারিতা হ'ল:

আমি আপনাকে ক্লিক স্ট্রিম ডেটা সেটে পিগ ব্যবহার করে একটি ডেমো দেখাব
আমরা এই ক্লিক স্ট্রিম ডেটা ব্যবহার করব এবং রূপান্তরগুলি, যোগদান এবং গ্রুপিংগুলি সম্পাদন করব।

ক্লিক স্ট্রিম হ'ল মাউস ক্লিকগুলির একটি সিরিজ যা কোনও ব্যবহারকারী দ্বারা ইন্টারনেটে অ্যাক্সেস করার সময় বিশেষত বিপণনের উদ্দেশ্যে ব্যক্তির আগ্রহের মূল্যায়ন করার জন্য পর্যবেক্ষণ করা হয়। এটি মূলত ফ্লিপকার্ট এবং অ্যামাজনের মতো অনলাইন খুচরা ওয়েবসাইটগুলি ব্যবহার করে যারা সুপারিশ উত্পন্ন করতে আপনার ক্রিয়াকলাপ ট্র্যাক করে। ক্লিক স্ট্রিম ডেটা সেট যা আমরা ব্যবহার করেছি সেগুলির নিম্নলিখিত ক্ষেত্রগুলি রয়েছে:

1. ওয়েব অ্যাপ্লিকেশন দ্বারা সমর্থিত ভাষার ধরণ

ব্রাউজার টাইপ

3. সংযোগ প্রকার

4. দেশ আইডি

5. সময় স্ট্যাম্প

URL. ইউআরএল

7. ব্যবহারকারীর অবস্থা

8. ব্যবহারকারীর প্রকার

এটি উপযুক্ত ক্ষেত্রগুলির সাথে এটির মতো দেখাবে।

নীচে ব্রাউজারের ধরণের তালিকা রয়েছে যা নির্দিষ্ট কোনও ওয়েবসাইটে সার্ফ করার সময় বিভিন্ন ব্যক্তিরা ব্যবহার করেছেন। তালিকার মধ্যে রয়েছে ইন্টারনেট এক্সপ্লোরার, গুগল ক্রোম, লিংক্স এবং এর মতো ব্রাউজারগুলি।

ইন্টারনেট সংযোগের ধরণ ল্যান / মডেম / ওয়াইফাই হতে পারে। সম্পূর্ণ তালিকার জন্য নীচের চিত্রটি দেখুন:

পরের ছবিতে, আপনি সেই দেশগুলির তালিকা পাবেন যেখানে ওয়েবসাইটগুলি তাদের আইডি সহ দর্শকদের আকর্ষণ করেছে।

একবার যখন আমরা সমস্ত ডেটা সেট সংগ্রহ করি, আমাদের পিগের গ্রান্ট শেলটি চালু করতে হবে, যা পিগ কমান্ডগুলি চালানোর জন্য চালু করা হয়েছিল।

গ্রান্ট শেল চালু করার ক্ষেত্রে আমাদের প্রথমে যা করতে হবে তা হ'ল ক্লিকের স্ট্রিমের ডেটা পিগের সম্পর্কের মধ্যে লোড করা। একটি সম্পর্ক একটি টেবিল ছাড়া কিছুই নয়। নীচে কমান্ডটি দেওয়া হয়েছে যা আমরা এইচডিএফএসে থাকা কোনও ফাইল পিগের সম্পর্কের উপরে লোড করতে ব্যবহার করি।

ক্লিক_প্রবাহটি বর্ণনা করে আমরা কমান্ড দ্বারা সম্পর্কের স্কিমা যাচাই করতে পারি।

আমাদের এখন রেফারেন্স ফাইল যুক্ত করতে হবে যাতে তাদের আইডির সাথে দেশগুলির তালিকা এবং তাদের আইডি সহ বিভিন্ন ব্রাউজারের ধরণের বিবরণ থাকবে।

আমাদের কাছে এখন দুটি রেফারেন্স ফাইল রয়েছে তবে সেগুলি সম্পর্ক তৈরি করার জন্য সংযুক্ত হওয়া দরকার।
আমরা সংযোগের ধরণটি চিহ্নিত করতে একটি সংযোগ_আরফ কমান্ড চালাই।

এখন যেহেতু আমাদের একটি কাজের সংযোগ এবং একটি প্রতিষ্ঠিত সম্পর্ক রয়েছে, আমরা আপনাকে সেই ডেটাটি কীভাবে রূপান্তর করতে পারি তা আপনাকে দেখাব will
ক্লিক স্ট্রিমের প্রতিটি রেকর্ডের জন্য, আমরা আলাদা ফর্ম্যাটে একটি নতুন রেকর্ড তৈরি করব, অর্থাত্ রূপান্তরিত ডেটা। নতুন ফর্ম্যাটে টাইমস্ট্যাম্প, ব্রাউজারের ধরণ, দেশ আইডি এবং আরও কয়েকটি ক্ষেত্র অন্তর্ভুক্ত থাকবে।

বড় ডেটা ছাঁটাতে আমরা ফিল্টার অপারেশন করতে পারি। বিভিন্ন ধরণের ব্যবহারকারী হলেন প্রশাসক, অতিথি বা বট। আমাদের ডেমোতে, আমি অতিথিদের জন্য তালিকাটি ফিল্টার করেছি।

যদি আপনি মনে রাখেন, দেশ আইডি ক্লিক স্ট্রিমে উপস্থিত রয়েছে এবং আমরা একটি আইডি সহ দেশগুলির নাম যুক্ত একটি কান্ট্রি_রেফ ফাইল লোড করেছি load আমরা এইভাবে দুটি ফাইলের মধ্যে একটি যোগদান অপারেশন করতে পারি এবং অন্তর্দৃষ্টিগুলি উপাত্তগুলিতে মার্জ করি।

আমরা যদি ডেটাতে যোগ দিয়েছি, তবে আমরা ব্যবহারকারীদের গ্রুপিংয়ের ভিত্তিতে বিভিন্ন দেশগুলি জানতে পারি। আমাদের কাছে এই ডেটা হয়ে গেলে, আমরা একটি নির্দিষ্ট দেশ থেকে ব্যবহারকারীর সংখ্যা সনাক্ত করতে একটি কাউন্ট অপারেশন করতে পারি।

বিগ ডেটা থেকে অন্তর্দৃষ্টি নেওয়া কোনও রকেট বিজ্ঞান নয়। এগুলি আমি প্রয়োগ করা বেশ কয়েকটি বৈশিষ্ট্যগুলির মধ্যে কয়েকটি এবং এইচআইভি, হ্যাবেস, ওজি, স্কুওপ এবং ফ্লুমের মতো সরঞ্জামগুলির সাথে অনুসন্ধানের জন্য এখনও ডেটার একটি গুপ্তধন রয়েছে। সুতরাং আপনারা যারা হাদোপ শেখা থেকে নিজেকে বিরত রাখছেন, এটি পরিবর্তনের সময়।

আমাদের জন্য একটি প্রশ্ন আছে? মন্তব্য বিভাগে তাদের উল্লেখ করুন এবং আমরা আপনার কাছে ফিরে আসব।

সম্পর্কিত পোস্ট:

বাইনারি কে জাভায় দশমিক রূপান্তর করা

আর এবং হডোপ একসাথে ব্যবহারের 4 টি উপায়

আপাচি হাদুপের জন্য ক্লৌডেরার প্রত্যয়িত বিকাশকারী সম্পর্কে সবকিছু