মেশিন লার্নিংয়ে কনফিউশন ম্যাট্রিক্স: আপনার ওয়ান স্টপ সলিউশন

এই নিবন্ধটি কনফিউশন ম্যাট্রিক্সকে কেন্দ্র করে, যা এটির যথার্থতার মূল্যায়ন করতে ব্যবহৃত কোনও মেশিন লার্নিং অ্যালগরিদমের অন্যতম গুরুত্বপূর্ণ বিষয়।

ভিতরে , আমাদের সাধারণত 2 টি বিভিন্ন ধরণের ব্যবহারের কেস থাকে, , এবং সমস্যা কনফিউশন ম্যাট্রিক্স শ্রেণিবদ্ধকরণ মডেলটির যথার্থতা গণনা করতে সহায়তা করে যা পরোক্ষভাবে আমাদের শ্রেণিবদ্ধকরণ মডেলের কর্মক্ষমতা বর্ণনা করতে সহায়তা করে। কোনও মডেলকে মূল্যায়নের ক্ষেত্রে এটি সবচেয়ে গুরুত্বপূর্ণ পদক্ষেপ। আমি এই নিবন্ধে নিম্নলিখিত বিষয়গুলি কভার করব:

1. একটি বিভ্রান্তির ম্যাট্রিক্স কী?



2. বিভ্রান্তির ম্যাট্রিক্সের নির্ভুলতা এবং উপাদানসমূহ

3. যথার্থতা, প্রত্যাহার এবং এফ-পরিমাপ



প্রসারিত এবং বাস্তবায়ন মধ্যে পার্থক্য

৪) পাইথন এবং স্ক্লার্ন ব্যবহার করে একটি কনফিউশন ম্যাট্রিক্স তৈরি করা

কনফিউশন ম্যাট্রিক্স কী?

একটি বিভ্রান্তির ম্যাট্রিক্স হ'ল পূর্বাভাস প্রাপ্ত ফলাফলগুলির তুলনা সংক্ষিপ্তসার এবং কোনও শ্রেণিবিন্যাস সমস্যা ব্যবহারের ক্ষেত্রে প্রকৃত ফলাফল। কিছু প্রশিক্ষণের ডেটা দিয়ে প্রশিক্ষণের পরে মডেলটির কার্যকারিতা নির্ধারণের জন্য তুলনা সংক্ষিপ্তকরণ অত্যন্ত প্রয়োজনীয়। Accuracy-Confusion-Matrixবাইনারি শ্রেণিবদ্ধকরণ ব্যবহারের ক্ষেত্রে, একটি বিভ্রান্তি ম্যাট্রিক্স হল 2 mat 2 ম্যাট্রিক্স যা নীচে দেখানো হয়েছে
পূর্বাভাস ক্লাস 1 মান ইজি: 1 পূর্বাভাস শ্রেণি 2 মান EG: 0
আসল ক্লাস 1 মান

ইজি: 1

টিপি (সত্য পজিটিভ) এফএন (মিথ্যা নেতিবাচক)
আসল ক্লাস 2 এর মান



EG: 0

এফপি (মিথ্যা পজিটিভ) টিএন (সত্য নেতিবাচক)

উপরের চিত্র থেকে:
আমাদের আছে,

  • আসল শ্রেণি 1 মান = 1 যা বাইনারি ফলাফলের মধ্যে ধনাত্মক মানের অনুরূপ।
  • আসল ক্লাস 2 মান = 0 যা বাইনারি ফলাফলের নেতিবাচক মানের সাথে সমান।

বিভ্রান্তির ম্যাট্রিক্সের বাম দিকের সূচকটি মূলত প্রকৃত মানগুলিকে নির্দেশ করে এবং উপরের কলামটি পূর্বাভাসিত মানকে নির্দেশ করে।

আমরা একটি বিভ্রান্তির ম্যাট্রিক্স তৈরি করার সময় বিভিন্ন উপাদান বিদ্যমান। উপাদানগুলি নীচে উল্লেখ করা হয়েছে

ধনাত্মক (পি): পূর্বাভাসের ফলাফলটি ইতিবাচক (উদাহরণ: চিত্রটি একটি বিড়াল)

নেতিবাচক (এন): পূর্বাভাসের ফলাফলটি নেতিবাচক (উদাহরণ: চিত্রগুলি একটি বিড়াল নয়)

সত্য পজিটিভ (টিপি): এখানে টিপি মূলত পূর্বাভাস নির্দেশ করে এবং আসল মানগুলি 1 (সত্য)

সত্য নেতিবাচক (টিএন): এখানে টিএন পূর্বাভাস নির্দেশ করে এবং আসল মান 0 (মিথ্যা)

মিথ্যা নেতিবাচক (এফএন): এখানে এফএন নির্দেশ করে যে পূর্বাভাস করা মান 0 (gণাত্মক) এবং আসল মান 1। এখানে উভয় মান মেলে না। সুতরাং এটি মিথ্যা নেতিবাচক।

মিথ্যা পজিটিভ (এফপি): এখানে এফপি পূর্বাভাসকৃত মানটি 1 (ধনাত্মক) এবং আসল মান 0 হিসাবে নির্দেশ করে Here এখানে আবার উভয় মান মিলছে না। সুতরাং এটি মিথ্যা পজিটিভ।

বিভ্রান্তি ম্যাট্রিক্সের নির্ভুলতা এবং উপাদান

বিভ্রান্তির ম্যাট্রিক্স তৈরি হওয়ার পরে এবং আমরা সমস্ত উপাদান মান নির্ধারণ করি, নির্ভুলতার গণনা করা আমাদের পক্ষে সহজ হয়ে যায়। সুতরাং, আসুন আমরা এটি আরও ভালভাবে বুঝতে উপাদানগুলি দেখে নেওয়া যাক।
  • শ্রেণিবদ্ধকরণ নির্ভুলতা

উপরের সূত্র থেকে টিপি (ট্রু পজিটিভ) এবং টিএন (ট্রু নেগেটিভ) এর যোগফল সঠিক পূর্বাভাস প্রাপ্ত ফলাফল। সুতরাং শতাংশে নির্ভুলতা গণনা করার জন্য, আমরা অন্যান্য সমস্ত উপাদানগুলির সাথে বিভক্ত করি। তবে নির্ভুলতায় কিছু সমস্যা রয়েছে এবং আমরা এটির উপর সম্পূর্ণ নির্ভর করতে পারি না।

আসুন বিবেচনা করা যাক আমাদের ডেটাসেট সম্পূর্ণ ভারসাম্যহীন। এই পরিস্থিতিতে, 98% নির্ভুলতা সমস্যার বিবৃতিটির ভিত্তিতে ভাল বা খারাপ হতে পারে। অতএব আমাদের আরও কয়েকটি মূল শর্ত রয়েছে যা আমাদের সঠিকভাবে গণনা করার বিষয়ে নিশ্চিত হতে সহায়তা করবে। শর্তাদি নীচে দেওয়া হয়েছে:

  • টিপিআর (সত্য পজিটিভ রেট) বা সংবেদনশীলতা:

সংবেদনশীলতা হিসাবে পরিচিত, সত্য ধনাত্মক হার, প্রকৃত ইতিবাচক ধনাত্মক (টিপি + এফএন) দ্বারা নির্দেশিত সম্মানের সাথে সত্য ধনাত্মক শতাংশের পরিমাপ করে

পূর্বাভাস ক্লাস 1 মান ইজি: 1 পূর্বাভাস শ্রেণি 2 মান EG: 0 মোট
আসল ক্লাস 1 মান

ইজি: 1

টিপি (সত্য পজিটিভ) এফএন (মিথ্যা নেতিবাচক) মোট আসল ইতিবাচক
আসল ক্লাস 2 এর মান

EG: 0

এফপি (মিথ্যা পজিটিভ)টিএন (সত্য নেতিবাচক)মোট আসল নেতিবাচক
টিপিআর = সত্য ধনাত্মক / (সত্য ধনাত্মক + মিথ্যা নেতিবাচক)
  • টিএনআর (সত্য নেতিবাচক হার) বা বিশিষ্টতা:

প্রকৃত নেতিবাচক হার বা নির্দিষ্টতা মোট নেতিবাচকদের সাথে সম্মান করে প্রকৃত নেতিবাচক অনুপাতকে পরিমাপ করে

পূর্বাভাস ক্লাস 1 মান ইজি: 1 পূর্বাভাস শ্রেণি 2 মান EG: 0 মোট
আসল ক্লাস 1 মান

ইজি: 1

টিপি (সত্য পজিটিভ)এফএন (মিথ্যা নেতিবাচক)মোট আসল ইতিবাচক
আসল ক্লাস 2 এর মান

EG: 0

এফপি (মিথ্যা পজিটিভ) টিএন (সত্য নেতিবাচক) মোট আসল নেতিবাচক

টিএনআর = সত্য নেতিবাচক / (সত্য নেতিবাচক + মিথ্যা ইতিবাচক)

  • ভুয়া ইতিবাচক হার (এফপিআর):

মিথ্যা পজিটিভ রেট ভবিষ্যদ্বাণীক পজিটিভ রেজাল্টের (টিপি + এফপি) মোট নং-তে প্রডিক্টেড ফাল পজিটিভ (এফপি) এর শতাংশ।

পূর্বাভাস ক্লাস 1 মান ইজি: 1 পূর্বাভাস শ্রেণি 2 মান EG: 0
আসল ক্লাস 1 মান EG: 1 টিপি (সত্য পজিটিভ) এফএন (মিথ্যা নেতিবাচক)
আসল ক্লাস 2 মান EG: 0 এফপি (মিথ্যা পজিটিভ) টিএন (সত্য নেতিবাচক)
মোট পূর্বাভাসিত ধনাত্ম্যের যোগফল মোট পূর্বাভাস নেতিবাচক যোগফল
এফপিআর = মিথ্যা ধনাত্মক / (সত্য ধনাত্মক + মিথ্যা পজিটিভ)
  • মিথ্যা নেতিবাচক হার (এফএনআর):

মিথ্যা নেতিবাচক হার হ'ল ভবিষ্যদ্বাণীকৃত নেতিবাচক ফলাফলের মোট নম্বর (টিএন + এফএন) এর ভবিষ্যদ্বাণীকৃত মিথ্যা নেতিবাচক (এফপি) শতাংশ।

পূর্বাভাস ক্লাস 1 মান ইজি: 1 পূর্বাভাস শ্রেণি 2 মান EG: 0
আসল ক্লাস 1 মান EG: 1টিপি (সত্য পজিটিভ) এফএন (মিথ্যা নেতিবাচক)
আসল ক্লাস 2 মান EG: 0এফপি (মিথ্যা পজিটিভ) টিএন (সত্য নেতিবাচক)
মোট পূর্বাভাসিত ধনাত্ম্যের যোগফল মোট পূর্বাভাস নেতিবাচক যোগফল
এফএনআর = মিথ্যা নেতিবাচক / (মিথ্যা নেতিবাচক + সত্য নেতিবাচক)

যথার্থতা, প্রত্যাহার এবং এফ-পরিমাপ

  • প্রত্যাহার:

একটি প্রত্যাহার সত্য ধনাত্মক হারের সমান এবং এটি সমস্ত ধনাত্মক মানের সাথে সঠিকভাবে পূর্বাভাসিত ধনাত্মক মানের (টিপি) মোট সংখ্যার অনুপাত।

  • যথার্থতা:

যথাযোগ্যতাটি মূলত মডেলটিকে ইতিবাচক বলে পূর্বাভাসিত সমস্ত পয়েন্টগুলি নির্দেশ করে এবং এর মধ্যে শতাংশটি আসলে ইতিবাচক।

যথার্থতা এবং পুনর্বিবেচনা মেট্রিকের ফলাফল যা উপরোক্ত সূত্রগুলি থেকে দেখানো হিসাবে ইতিবাচক শ্রেণিতে ফোকাস করে।

  • এফ-মেজার

সুতরাং এফ-পরিমাপ হ'ল একটি কৌশল যা যথার্থ এবং রিকাল কৌশল উভয়কেই একত্রিত করে এবং এটি হরমনিক মাইনটি সাধারণ অরিতমেটিক গড়ের জায়গায় ব্যবহার করে, যার কারণে চূড়ান্ত মানগুলি শাস্তি পায়। এফ-পরিমাপকে এফ 1- স্কোরও বলা হয় এবং নীচের সূত্র দ্বারা দেওয়া হয়।

আসুন আমরা একটি উদাহরণ বিবেচনা করি এবং দেখুন কীভাবে আমরা নির্ভুলতা, যথার্থতা, পুনর্বিবেচনা এবং F1- স্কোর গণনা করতে পারি।

এন = 165 ভবিষ্যদ্বাণী করা হ্যাঁ পূর্বাভাস কোন
আসল হ্যাঁ টিপি = 150 এফএন = 10
বর্তমান নম্বর এফপি = 20 টিএন = 100
    • নির্ভুলতা = (টিপি + টিএন) / (টিপি + টিএন + এফপি + এফএন) = (150 + 100) / (150 + 100 + 20 + 10) = 0.89
    • পুনরুদ্ধার = টিপি / (টিপি + এফএন) = 150 / (150 + 10) = 0.93
    • যথার্থতা: টিপি / (টিপি + এফপি) = 150 / (150 + 20) = 0.88

  • এফ-পরিমাপ = (২ * প্রত্যাহার * যথার্থতা) / (পুনরুদ্ধার + প্রেসিডেনশন) = (2 * 0.93 * 0.88) / (0.93 + 0.88) = 0.90

পাইথন এবং স্ক্লার্ন ব্যবহার করে একটি কনফিউশন ম্যাট্রিক্স তৈরি করা

এখন আমরা কীভাবে স্কেলার লাইব্রেরির পাশাপাশি পাইথন ব্যবহার করে একটি বিভ্রান্তির ম্যাট্রিক্স তৈরি করতে পারি তার একটি উদাহরণ আমরা দেখতে পাব।

এক. প্রাথমিকভাবে, আমরা আসল উপাত্তগুলির কিছু তালিকা তৈরি করব এবং নীচের মত সঠিকতা যাচাই করার পূর্বাভাস দিয়েছি

কনফিউশন ম্যাট্রিক্স তৈরির জন্য পাইথন স্ক্রিপ্ট। আসল_ডাটা = [১, ১, ০, ১, ০, ০, ১, ০, ০, 0,1,0,1] পূর্বাভাস_দাতা = [০, ১, ১, ১, ০, ০, ১, ০, ১, 0,1,0,1]

ঘ। আমাদের স্কেলার্ন লাইব্রেরি থেকে বিভ্রান্তির ম্যাট্রিক্সটি নীচে দেখানো হিসাবে আমদানি করতে হবে:

sklearn.metrics থেকে কনফিউশন_ম্যাট্রিক্স আমদানি করুন

ঘ। এরপরে, আমরা নীচে দেখানো মত বিভ্রান্তির ম্যাট্রিক্স তৈরি করব:

চূড়ান্ত_সফলগুলি = বিভ্রান্তি_ম্যাট্রিক্স (প্রকৃত_ডেটা, পূর্বাভাস_দাতা)

চার। এখন আমরা নীচে প্রদর্শিত হিসাবে লাইব্রেরি আমদানি করে এগিয়ে যেতে এবং নির্ভুলতা গণনা করতে পারি:

sklearn.metrics থেকে আমদানি নির্ভুলতা_স্কোর নির্ভুলতা = নির্ভুলতা_স্কোর (প্রকৃত_ডেটা, পূর্বাভাস_ডাটা)

৫। পরিশেষে, আমরা F1- স্কোর বা F- পরিমাপের নীচের চিত্র হিসাবে গণনা করছি:

sklearn.metrics থেকে আমদানি করুন শ্রেণিবদ্ধি_বন্দর প্রতিবেদন = শ্রেণিবদ্ধি_বন্দর (প্রকৃত_ডাটা, পূর্বাভাস_দাতা)

সম্পূর্ণ কোডের নীচে:

আসল_ডাটা = [১, ১, ০, ১, ০, ০, ১, ০, ০, 0,1,0,1] পূর্বাভাস_দাতা = [০, ১, ১, ১, ০, ০, ১, ০, ১, 0,1,0,1] sklearn.metics আমদানি কনফিউশন_ম্যাট্রিক্স ফাইনাল_সালটগুলি = বিভ্রান্তি_ম্যাট্রিক্স (আসল_ডাটা, পূর্বাভাস_ডাটা) মুদ্রণ (চূড়ান্ত_ ফলাফল) sklearn.metrics আমদানি নির্ভুলতা_স্কোর নির্ভুলতা = নির্ভুলতা_স্কোর (প্রকৃত_ডাটা, পূর্বাভাস_ডেটা) আমদানি শ্রেণিবদ্ধকরণ_বন্দর আমদানির শ্রেণিবদ্ধকরণ থেকে_ আসল_ডাটা, পূর্বাভাস_ডাটা) মুদ্রণ (যথার্থতা) মুদ্রণ (প্রতিবেদন)

matrix

সুতরাং, এটির সাথে, আমরা এই নিবন্ধটির শেষে এসেছি। আমি আশা করি কনফিউশন ম্যাট্রিক্স সম্পর্কে আপনার সমস্ত বিভ্রান্তি এখন সমাধান হয়েছে।

এডুরিকার রিগ্রেশন, ক্লাস্টারিং, সিদ্ধান্ত গাছ, এলোমেলো বন, নেভ বেয়েস এবং কিউ-লার্নিংয়ের মতো বিভিন্ন মেশিন লার্নিং অ্যালগরিদমগুলিতে আপনাকে দক্ষতা অর্জনে সহায়তা করে। পাইথন ট্রেনিং ব্যবহার করে এই মেশিন লার্নিং আপনাকে পরিসংখ্যান, টাইম সিরিজ এবং মেশিন লার্নিংয়ের বিভিন্ন ক্লাসের তত্ত্বাবধানে থাকা, নিরীক্ষণযোগ্য ও পুনর্বহালকরণ অ্যালগরিদমের মত ধারণাগুলির কাছে উন্মোচিত করে। ডেটা সায়েন্স সার্টিফিকেশন কোর্স জুড়ে আপনি মিডিয়া, স্বাস্থ্যসেবা, সোশ্যাল মিডিয়া, এভিয়েশন, এইচআর এ রিয়েল-লাইফ কেস স্টাডি সমাধান করবেন solving