স্পিচ রিকগনিশন পাইথন: স্পিচ টেক্সটে অনুবাদ কীভাবে করবেন?

এই ব্লগটি অজগরটিতে বক্তৃতা স্বীকৃতির ধারণাটি একটি নমুনা প্রোগ্রামের সাথে কভার করে যা বক্তৃতাকে স্বীকৃতি ব্যবহার করে পাঠ্যকে বাক্যে অনুবাদ করে।

বক্তৃতা বিশ্বজুড়ে যোগাযোগের সর্বাধিক সাধারণ উপায়। বিশ্বের বেশিরভাগ জনগোষ্ঠী একে অপরের সাথে যোগাযোগের জন্য বক্তৃতার উপর নির্ভর করে। মনে করুন আমরা একটি মডেল তৈরি করছি এবং একটি লিখিত পদ্ধতির পরিবর্তে আমরা চাই আমাদের সিস্টেমটি ভাষণের প্রতিক্রিয়া জানাবে, এটি মোটামুটি কঠিন হয়ে পড়ে এবং প্রচুর ডেটা প্রক্রিয়া করা প্রয়োজন। একটি ভাষণ স্বীকৃতি সিস্টেম পাঠ্য ভাষায় ভাষণ অনুবাদ করে এই প্রতিবন্ধকতা অতিক্রম করে। এই ব্লগে, আমরা বক্তৃতা স্বীকৃতি দিয়ে যাব অজগর মধ্যে মডিউল । এখানে একই তালিকা:



স্পিচ সনাক্তকরণ কীভাবে কাজ করে?

স্পিচ রিকগনিশন সিস্টেমটি মূলত কথ্য উচ্চারণগুলিকে পাঠ্যে অনুবাদ করে। বক্তৃতা স্বীকৃতি সিস্টেমের বিভিন্ন বাস্তব জীবনের উদাহরণ রয়েছে। উদাহরণস্বরূপ- সিরি, যা স্পিচটিকে ইনপুট হিসাবে গ্রহণ করে এবং এটি পাঠ্যে অনুবাদ করে।



একটি ভাষণ স্বীকৃতি সিস্টেম ব্যবহারের সুবিধা হ'ল এটি সাক্ষরতার বাধা অতিক্রম করে। একটি বক্তৃতা স্বীকৃতি মডেল উভয় সাক্ষর এবং নিরক্ষর দর্শকদের পরিবেশন করতে পারে, যেহেতু এটি কথ্য উচ্চারনে ফোকাস করে।

আমরা একটি স্পিচ সনাক্তকরণ সিস্টেমটি ব্যবহার করে বিশ্বজুড়ে সমস্ত বিপন্ন ভাষাগুলির একটি তালিকা তৈরি করতে পারি। এটি দেখতে বেশ মজাদার এবং মোটেও জটিল নয় বলে মনে হচ্ছে, একটি স্পিচ স্বীকৃতি ব্যবস্থা তৈরিতে প্রচুর চ্যালেঞ্জের মুখোমুখি।



একটি স্পিচ স্বীকৃতি দ্বারা মুখোমুখি চ্যালেঞ্জগুলি পদ্ধতি

একটি স্পিচ রিকগনিশন সিস্টেমটি তৈরি করা কঠিন হয়ে পড়ে কারণ যখন বক্তৃতা আসে তখন আমাদের কাছে বৈচিত্রের অনেক উত্স থাকে।

কথা বলার স্টাইল

প্রতিটি স্বতন্ত্র ব্যক্তির সাথে বিভিন্ন ধরণের কথা বলার স্টাইল রয়েছে, পাশাপাশি উচ্চারণগুলিও রয়েছে। যেমনটি আমরা সকলেই জানি, ইংরেজিও বলার জন্য আমাদের বিভিন্ন উচ্চারণ রয়েছে। আমেরিকান ইংরেজি, ব্রিটিশ ইংরেজি এবং অন্যান্য অনেক উচ্চারণ রয়েছে যখন এটি বিশ্বের সর্বাধিক সাধারণ ভাষায় কথা বলতে আসে। উচ্চারণ এছাড়াও একটি ভাষণ স্বীকৃতি সিস্টেমের পক্ষে বক্তৃতাটিকে পুরোপুরি অনুবাদ করা শক্ত করে তোলে।



পরিবেশ

পরিবেশ সিস্টেমে প্রচুর ব্যাকগ্রাউন্ড শোনায়। অডিটোরিয়ামের তুলনায় একটি বিচ্ছিন্ন কক্ষের ব্যাকগ্রাউন্ড শোরগোলের অনেকগুলি পরিবর্তনশীলতা থাকবে। এমনকি প্রতিধ্বনি এছাড়াও সিস্টেমে প্রচুর শব্দ যোগ করতে পারে।

স্পিকার বৈশিষ্ট্য

কোনও বৃদ্ধ ব্যক্তির কন্ঠস্বর শিশুর মতো হতে পারে না। একজন ব্যক্তির বক্তব্যের বৈশিষ্ট্যগুলি কঠোরতা এবং স্বচ্ছতা সহ অনেকগুলি বিষয়ের উপর নির্ভর করে।

ভাষার সীমাবদ্ধতা

অনুবাদ করার ক্ষেত্রে কিছু কথ্য উচ্চারনের একটি কার্যকর অর্থ নাও থাকতে পারে।

এই চ্যালেঞ্জগুলি কাটিয়ে ওঠার পরে, কোনও ভাষণ স্বীকৃতি সিস্টেমের পক্ষে বক্তৃতাকে পাঠ্যে অনুবাদ করা মোটামুটি অর্জনযোগ্য। এখন আমরা জানি যে কীভাবে বক্তৃতা স্বীকৃতিটি কাজ করে, অন্যদিকে একবার নজর দেওয়া যাক যে পাইথনে বক্তৃতা স্বীকৃতির জন্য উপলব্ধ।

.innerhtml কি করে

অজগরের ভাষণ স্বীকৃতির জন্য প্যাকেজগুলি উপলব্ধ

  • আপিয়া

  • কন্ঠ সনান্তকরণ

  • গুগল_স্পিচ_ক্লাউড

  • সমাবেশ

  • পকেটসফিনেক্স

  • ওয়াটসন_ডেলিভার_ক্লাউড

    trim () in java
  • সাদা

আমরা এই ব্লগে স্পিচ্-সনাক্তকরণ প্যাকেজের বিশদটি নিয়ে যাব, কয়েক বছর ধরে স্পিচ সনাক্তকরণ সিস্টেমগুলি কীভাবে বিকশিত হয়েছে তা বুঝতে মেমরি লেনটিকে নীচে দেখে নেওয়া যাক।

বক্তৃতা স্বীকৃতির প্রথম প্রোটোটাইপ আসলে একটি খেলনা ছিল, নামকরণ করা হয়েছিল রেডিও রেক্স যা 1920 এর কাছাকাছি এসেছিল। এতে একটি কুকুরের ঘরে একটি কুকুর বসেছিল যা রেক্স শব্দটি উচ্চারণ করার সাথে সাথে পপআপ হয়ে যায়।

মডেলটির সাথে একমাত্র সমস্যাটি হ'ল বসন্তটি একটি বৈদ্যুতিন চৌম্বকটির সাথে সংযুক্ত ছিল যা 500hz কাছাকাছি শক্তির সংবেদনশীল ছিল। বিশুদ্ধরূপে একটি ফ্রিকোয়েন্সি সনাক্তকারী হওয়ায় এটিকে দূর থেকে স্পিচ স্বীকৃতি মডেল হিসাবে চিহ্নিত করা যেতে পারে।

1962 সালে, আইবিএম একটি নিয়ে আসে জুতোবক্স মডেল যা বিচ্ছিন্ন শব্দগুলি সনাক্ত করতে সক্ষম হয়েছিল এবং পাশাপাশি কয়েকটি গাণিতিক ক্রিয়াকলাপ সম্পাদন করতে সক্ষম হয়েছিল।

তারপরে এসেছিল হার্পি সিএমইউ থেকে, যা 1000 শব্দের শব্দভাণ্ডার থেকে সংযুক্ত বক্তৃতাটি সনাক্ত করতে সক্ষম হয়েছিল। আশির দশকের আশেপাশে লোকেরা পরিসংখ্যানের মডেলগুলি ব্যবহার করতে শুরু করেছিল এবং সর্বাধিক ব্যবহৃত মেশিন লার্নিং দৃষ্টান্তগুলির মধ্যে একটি হ'ল লুকানো মার্কভ মডেল।

গভীর নিউরাল নেটওয়ার্কগুলির প্রবর্তনের পরে, বেশিরভাগ স্পিচ স্বীকৃতি মডেলগুলি নিউরাল নেটওয়ার্কগুলিতে কাজ করে। স্নায়বিক নেটওয়ার্কগুলির সাথে সম্ভাবনাগুলি অকল্পনীয়, ভোকাবুলারিটি 10 ​​কে শব্দ এবং আরও অনেক কিছুতে যেতে পারে।

পাইথনে স্পিচরিকনগ্রেশন কীভাবে ইনস্টল করবেন?

স্পিচরেকগনিশন প্যাকেজটি ইনস্টল করতে পাইথন, টার্মিনালে নিম্নলিখিত কমান্ডটি চালান এবং এটি আপনার সিস্টেমে ইনস্টল করা হবে।

পাইথন-এডুরেকা ইনস্টলেশন-বক্তৃতা স্বীকৃতি

এটির আর একটি পদ্ধতি, আপনি যদি ব্যবহার করেন তবে প্রকল্প দোভাষী থেকে প্যাকেজ যুক্ত করা যেতে পারে

প্যাকেজের একটি রিকনগাইজার ক্লাস রয়েছে যা মূলত যেখানে যাদুটি ঘটে। এটি মূলত একটি শ্রেণি যা ভাষণটি সনাক্ত করতে ব্যবহৃত হয়। নিম্নলিখিত সাতটি পদ্ধতি যা বিভিন্ন এপিআই ব্যবহার করে বিভিন্ন অডিও উত্স পড়তে পারে।

এইচটিএমএল এ বিআর ট্যাগ কি
  • চিনতে হবে ()
  • স্বীকৃতি_গুগল ()
  • স্বীকৃতি_গুগল_ক্লাউড ()
  • চিনুন
  • স্বীকৃতি_আইবিএম ()
  • স্বীকৃতি_উইট ()
  • স্বীকৃতি_স্পিন ()

এখন, স্বীকৃতি_স্পিনেক্সটি অফলাইনেও স্পিচ সনাক্তকরণ সিস্টেমটি চালাতে ব্যবহৃত হতে পারে। এটি পকেটসফিনেক্স ইনস্টল করা প্রয়োজন।

শনাক্তকরণ শ্রেণি r = sr.Recognizer () এর sr # ইনস্ট্যান্স হিসাবে বাকস্বীকৃতি আমদানি করুন

মাইক্রোফোন থেকে ইনপুট নেওয়া

মাইক্রোফোনগুলি ব্যবহার করতে, আমাদের পিয়াদিও মডিউলও ইনস্টল করতে হবে। আমরা অডিও ফাইলের মতো অন্য কোনও ইনপুট পদ্ধতির পরিবর্তে মাইক্রোফোন থেকে ইনপুট স্পিচ পেতে মাইক্রোফোন শ্রেণি ব্যবহার করি।

বেশিরভাগ প্রকল্পের জন্য, আমরা ডিফল্ট মাইক্রোফোন ব্যবহার করতে পারি। তবে আপনি যদি ডিফল্ট মাইক্রোফোন ব্যবহার করতে চান না,আপনি তালিকা_মাইক্রোফোন_নাম পদ্ধতি ব্যবহার করে মাইক্রোফোনের নামের তালিকা পেতে পারেন।

মাইক্রোফোন থেকে ইনপুট ক্যাপচার করতে আমরা শোনার পদ্ধতিটি ব্যবহার করি।

sr r = sr.Recognizer () হিসাবে sr.Microphone () হিসাবে উত্স হিসাবে অ্যাসিটারিগ্রীকেশন আমদানি করুন: অডিও = sr.listen (উত্স)

পাইথনে পাইযাদিও ইনস্টল করবেন কীভাবে?

পাইথিওটিকে পাইথন ইনস্টল করতে, টার্মিনালে নিম্নলিখিত কমান্ডটি চালনা করুন বা যদি আপনি পাইচার্ম ব্যবহার করছেন তবে সেটিংসে প্রকল্প দোভাষী থেকে প্যাকেজ যুক্ত করুন।

ব্যবহারের ক্ষেত্রে

আমরা স্পিচ সনাক্ত করতে এবং নিম্নলিখিতগুলি সম্পাদন করতে পাইথনের স্পিচরিগনিশন মডিউলটি ব্যবহার করে একটি প্রোগ্রাম করব:

  1. ভাষণটি পাঠ্যে রূপান্তর করুন
  2. ওয়েব ব্রাউজার মডিউল ব্যবহার করে একটি URL খুলুন
  3. ইউআরএল অনুসন্ধান করার জন্য স্পিচ স্বীকৃতি ব্যবহার করে একটি কোয়েরি পাস করুন

উপরের সমস্যা বিবৃতিটির জন্য প্রোগ্রামটি নিম্নরূপ:

sr হিসাবে ওয়ার্ক_আরসিগনিশন ডাব্লু ডাব্লু r1 = sr.Recognizer () r2 = sr.Recognizer () r3 = sr.Recognizer () হিসাবে উত্স হিসাবে sr.Microphone () অনুসন্ধান করুন: মুদ্রণ ('[অনুসন্ধান সম্পাদনা: অনুসন্ধান ইউটিউব]') মুদ্রণ ('এখনই কথা বলুন') অডিও = r3.liten (উত্স) যদি 'এডুরেকা' r2.recognize_google (অডিও) তে: r2 = sr.R সনাক্তকারী () url = 'https://www.edureka.co/' sr সহ । মাইক্রোফোন () উত্স হিসাবে: মুদ্রণ ('আপনার ক্যোয়ারী অনুসন্ধান করুন') অডিও = r2.listen (উত্স) চেষ্টা করুন: get = r2.recognize_google (অডিও) মুদ্রণ (get) wb.get ()। ওপেন_নিউ (url + get) ব্যতীত sr.UnعلومValueError: e 'হিসাবে sr.RequestError ব্যতীত মুদ্রণ (' ত্রুটি '): মুদ্রণ (' ব্যর্থ'. ফর্ম্যাট (ই)) যদি r1.recognize_google (অডিও) তে 'ভিডিও' থাকে: r1 = sr.Recognizer () url = ' https://www.youtube.com/results?search_query= 'sr.Microphone () সহ উত্স হিসাবে: মুদ্রণ করুন (' একটি ভিডিও অনুসন্ধান করুন ') অডিও = r2.listen (উত্স) চেষ্টা করুন: পান = r1.recognize_google (অডিও ) মুদ্রণ (get) wb.get ()। sr.UnعلومValueError ছাড়া ওপেন_নয় (url + get): প্রিন্ট ('বুঝতে পারে না') হিসাবে sr.RequestError হিসাবে e: মুদ্রণ (ফলাফল পেতে ব্যর্থ হয়েছে'.ফর্ম্যাট (ই) )

এটি চিত্রের মতো প্রদর্শিত আউটপুট পাবেন। আপনি যদি এডুরেকা বলছেন, এটি আপনাকে url ভেরিয়েবলের যে এডুরেকা ইউআরএলটি লিখেছিলাম তা আপনি অনুসন্ধান করতে চান তা আপনাকে জিজ্ঞাসাবাদ করবে। আপনি অজগর বললে আপনি নিম্নলিখিত ওয়েব পৃষ্ঠাটি ব্রাউজারে খোলা পাবেন।

এই ব্লগে আমরা আলোচনা করেছি যে আমরা কীভাবে স্পিরিচেকশন প্যাকেজ ব্যবহার করে পাঠ্যকে স্পিচটি অনুবাদ করতে পাইথনে স্পিচ রিকগনিশন ব্যবহার করতে পারি। এর সাথে বক্তৃতা স্বীকৃতি বা বস্তু প্রত্যাখ্যানের মতো ধারণার জন্য সময়ের প্রয়োজন হয়ে দাঁড়িয়েছে যা স্পিচ সনাক্তকরণ সিস্টেমগুলিতে অকল্পনীয় সম্ভাবনা সরবরাহ করে যেখানে আমরা একটি সিস্টেম তৈরির জন্য প্রচুর স্পিচ ডেটা প্রশিক্ষণ এবং পরীক্ষা করতে পারি You আপনি এতে নিবন্ধভুক্ত করতে পারেন গভীর দক্ষ নিউরাল নেটওয়ার্কগুলির জন্য আপনার দক্ষতা আয়ত্ত করতে এবং আপনার শিখনকে কিকস্টার্ট করতে।

কোন প্রশ্ন আছে? মন্তব্যে তাদের উল্লেখ করুন, আমরা আপনার কাছে ফিরে আসব।