Wikipedia - Nasir Khan Saikat

গুগল ওসিআর থেকে উইকিসোর্স

কিছুদিন আগে গুগল ড্রাইভে বাংলা এবং ভারতীয় অন্যান্য ভাষার ওসিআর যুক্ত করা হয়েছে। কোনো ছবি বা পিডিএফ ফাইল গুগল ড্রাইভে আপলোড করা ফাইলের লেখাগুলো আলাদা করা যায়। 

বাংলা উইকিসোর্সে (https://bn.wikisource.org) মুক্ত লাইসেন্সের অধিনে এমন অনেক বই রয়েছে। স্ক্যান করা এই বইগুলো এতোদিন পর্যন্ত দেখে দেখে টাইপ করতে হতো। এই কাজটি কিছুটা সহজ হয়ে যাবে যদি এটি সয়ংক্রিয় পদ্ধতিতে করা যায়। গুগল ড্রাইভ ব্যবহার করে এই কাজটি সহজেই করা যায়, কিন্তু বইএর প্রতিটি পাতা আলাদা করে আপলোড করা এবং পরবর্তীতে সেটি উইকিসোর্সে আপলোড করার জন্য বেশ অনেকটা সময় প্রয়োজন। বেশি সংখ্যক পাতা রয়েছে এমন বইগুলোর জন্য কাজটি প্রায় অসম্ভব বলে মনে হতে পারে। 

OCR4wikisource (https://github.com/tshrinivasan/OCR4wikisource) নামের একটি স্ক্রিপ্ট ব্যবহার করে এই সম্পূর্ণ কাজটি সংয়ক্রিয়ভাবে সম্পন্ন করা সম্ভব । নিচে উল্লেখিত পদ্ধতি অনুসরণ করে এই স্ক্রিপ্টটি সক্রিয় করা এবং বই আপলোডের কাজে ব্যবহার করা যাবে। এই টুলটি কেবলমা্ত্র লিনাক্স থেকে ব্যবহার করা যাবে। উইন্ডোজ ব্যবহারকারীদের উপযোগী সংস্করণটি এখনো প্রকাশিত হয়নি।

About the author

Who‘s behind this

nasir khan avatar

Nasir Khan

nasir8891@gmail.com

http://nasirkhn.com

Dhaka

Bangladesh