প্রথম পাতা

শহরের তথ্য

বিনোদন

খবর

আইন/প্রশাসন

বিজ্ঞান/প্রযুক্তি

শিল্প/সাহিত্য

সমাজ/সংস্কৃতি

স্বাস্থ্য

নারী

পরিবেশ

অবসর

 

মিথ্যা, ডাহা মিথ্যা এবং স্ট্যাটিস্টিকস

সাধারণভাবে তিন রকম মিথ্যার কথা আমরা জানি। Lies, Damn Lies and Statistics। মার্ক টোয়েন এর এই বিখ্যাত উক্তিটি সর্বতোভাবে সত্য। খুব কমজনই সঠিক ভাবে স্ট্যাটিস্টিক্সের প্রয়োগ পদ্ধতি জানেন কাজেই সাধারণভাবে স্ট্যাটিস্টিক্সের সহায়তায় মিথ্যা বলা হয়।

জর্জ কর্লিন একবার বলেছিলেন 'Think about how stupid the average person is; now realise half of them are dumber than that.' দু একটা উদাহরণ দিলে স্ট্যাটিস্টিক্সের অপপ্রয়োগের ব্যাপারট পরিষ্কার হবে:

(ক) মহিলারা পুরুষদের তুলনায় ভালো ড্রাইভার: দুর্ঘটনার জন্য দায়ী অথবা দুর্ঘটনাগ্রস্ত গাড়ির ড্রাইভারের সংখ্যার তুলনামূলক বিচার করলে হয়তো দেখা যাবে সত্যিই মহিলা ড্রাইভারের হাতে দুর্ঘটনা কম হয়েছে। কিন্তু এখানে একটি তথ্য পরিবেশন করা হচ্ছেনা যে মহিলা ড্রাইভারের সংখ্যা (যারা নিয়মিত গাড়ি নিয়ে বেরোন) পুরুষ ড্রাইভারের সংখ্যার তুলনায় নগণ্য। সেজন্য এখানে এই তথ্য মিথ্যা।

(খ) কাপড়ের টুপি বনাম মেটালের টুপি: এটি একটি বিখ্যাত ভুলের গল্প।প্রথম বিশ্বযুদ্ধে যখন পরীক্ষামূলক ভবে সৈন্যদের ব্যবহারের জন্য কাপড়ের টুপির বদলে টিনের টুপির প্রচলন করা হল; তখন দেখা গেল আহত সৈন্যের সংখ্যা অনেক বেড়ে গেছে। কেউই এর সঠিক ব্যাখ্যা দিতে পারছেন না। পরে বোঝা গেল আহত সৈন্যের সংখ্যা এ ভাবে তুলনীয় নয়। আসলে টিনের টুপি সৈন্যদের মৃত্যুর সম্ভাবনা নিশ্চিত ভাবে কমিয়েছে, তাই আহত সৈন্যের সংখ্যা বেড়ে গেছে।

এদুটি উদাহরণ থেকে স্পষ্ট বোঝা যাচ্ছে, শুধুমাত্র সংখ্যা/তথ্যপরিবেশনই শেষ কথা নয়; সেই তথ্যকে সঠিকভাবে ব্যাখ্যাই পারে সঠিক চিত্র তুলে ধরতে। নচেৎ ভুল ব্যাখ্যা (misinterpretation) 'হয় কে নয়' বানিয়ে দিতে পারে। তবে নিরপেক্ষ দৃষ্টিতে খোলা মন নিয়ে পুরো ব্যাপারটা দেখলে স্ট্যাটিস্টিকসের অপব্যাখ্যা ধরে ফেলা সম্ভব। কিছু কিছু সাধারণ ভুলের পরিচয় দেওয়া যাক -

  • % বৃদ্ধি এবং পার্থক্যের %: ৩০০ হল ২০০ এর তুলনায় ৫০% বড়, ২০০ কিন্তু ৩০০ এর তুলনায় ৫০% ছোটো নয় ।
  • interpolation এবং extrapolation: দুই সময়ের জ্ঞাত তথ্যের ভিত্তিতে তার মাঝের সময়ের তথ্য নিরুপণ চলতে পারে কিন্তু ভবিষ্যতের জন্য তার ব্যবহারের আগে অনেক চিন্তা ভবনা দরকার।
  • Relationship (সম্পর্ক) এবং Causality (কারণ): দুটি ঘটনা সম্পর্কিত হতে পারে, কিন্তু একমাত্র কারণ হিসেবে দেখানো অনুচিত।
    একটা অপরটি ঘটার কারণ হতে পারে, আবার কাকতলীয় হওয়া অসম্ভব নয়।
  • Statistically Significant, Non Significant এবং important: Statistically Significant মানেই important এমন নাও হতে পরে; এগুলি sample size, variability ইত্যাদির উপরে অতিমাত্রায় নির্ভরশীল।

আসলে অনেক সময় নিজেদের উপযোগী সংখ্যার/তথ্যের দরকার হয়;তখন নিজের মত করে তথ্য সংগ্রহ করে ব্যাখ্যা করে জনসাধারণকে পরিবেশন করা হয়। সাম্প্রতিক কালে আন্দামান ও নিকোবর দ্বীপসমূহে সুনামি দুর্গতদের সম্পর্কে একটি প্রতিবেদনে দেখা গেলো - মহিলা ও শিশুদের মধ্যে মৃতের সংখ্যা অনেক বেশি: sex ratio অভূতপুর্ব কমে গেছে - ইত্যাদি ইত্যাদি। ঐ রিপোর্টে দেওয়া অন্য তথ্যের সংগে সংগতি খুঁজতে গিয়ে দেখা গেল ৫০% মহিলার সংগে সংগে ৪৭% পুরুষও মৃত। এখানে ইচ্ছে করে একপেশে তথ্য পরিবেশন করা হয়েছে।

এখন ভুল ঠিক বোঝার উপায় কী? সাধারণভাবে যে কোনো স্ট্যাটিস্টিকাল বা পরিসাংখ্যিক ব্যাখ্যার ক্ষেত্রে নিম্নলিখিত প্রশ্নগুলির উত্তর খুঁজতে হবে।

(১) তথ্য কোথা থেকে এল? কারা সার্ভে করলো? কোনো বিশেষ উত্তরের উপর তাদের পক্ষপাতিত্ব থাকতে পারে কিনা?
(২) তথ্য নেওয়ার পদ্ধতি কী ছিল? কাদের থেকে নেওয়া হল? তাদের select করা হল কিভাবে?

তুলনামূলক সংখ্যার জাদুতে ঠকবেন না। দুটো ঘটনা একসংগে ঘটলেও তারা কাকতালীয় বা অন্যান্য অনেক তথ্যের উপর নির্ভরশীল হতে পারে। রাজনীতিকরা এভাবেই বলেন এই নীতির জন্যেই দেশের সু/কু ফল ফলছে। সাধারণভাবে বলা যেতেই পারে সিগারেট কোম্পানীর করা 'passive smoking' এর কুফল সম্পর্কিত তথ্য নিরপেক্ষ হওয়া অসম্ভব।একই রকমভবে ওষুধ কোম্পানীর করা ওষুধের কার্যকারিতা সংক্রান্ত তথ্যের উপরও ভরসা করা অনুচিত; এখানে ওষুধের জায়গায় সাবান, পেস্ট, ফিনাইল, গাড়ীর টায়ার যা কিছু হতে পরে। এসব ক্ষেত্রে জরুরি হল sample size, selected individual আর method of selection। আবার বিভিন্ন ভাবে পরিবেশিত গ্রাফেও অনেক গণ্ডগোল থাকে। base line এর অসাম্য scale-এর ত্রুটি, এমনকি রং ব্যবহারের তারতম্যও ভুল বিশ্লেষণ বা ভুল ব্যাখ্যার উৎস হতে পারে।

আসলে স্ট্যাটিস্টিকসের জাদুশক্তি অপরিসীম - সাধারণ ভাবে 'অঙ্কে ভীত' জনসাধারণকে কিছু সংখ্যার কারিকুরি দেখলে 'ও বাবা এ কিছু জটিল ব্যাপার হবে' এই ভাবখানাই প্রবল হয়ে থাকে। এই সুযোগে খুশি মত অপব্যাখ্যা করা হয় ও স্ট্যাটিস্টিকসের 'মিথ্যেবাদী' দুর্নাম ছড়াতে থাকে।

আবোল তাবোল তথ্য উপস্থাপিত করা সহজ কিন্তু সঠিকভাবে সংগৃহীত তথ্য সঠিকভাবে পরিবেশনের জন্য স্ট্যাটিসটিকস বিষয়ে দক্ষতা, সাধারণ বুদ্ধি এবং সততা তিনটিই সমানভাবে দরকার। যতদিন তা না হচ্ছে ততদিন দুটো ছাগল চারটে কাক, তিনটে বাঁদরের তুলনামূলক বিশ্লেষণ লেখা চলতে থাকুক এবং সাধারণে পড়তে থাকুক। বিষয় হিসেবে স্ট্যাটিসটিকস সিরিয়াস অধ্যয়নসাধ্য। শুধুমাত্র mean, standard deviation ইত্যাদি শিখে 'ংMS-Excel' এর সাহায্যে তৈরি রিপোর্ট, বিশ্লেষণ এবং ব্যাখ্যা করলে যে জিনিস দাঁড়াবে তা এ রচনার শিরোনাম।

স্ট্যাটিসটিকসের ক্ষেত্রেও Computer Application-এর GIGO - Garbage In Garbage out মানভাবে প্রযোজ্য। যদি কোনো সার্ভেতে ভুল প্রশ্ন ভুল লোককে ভুল ভাবে জিজ্ঞাসা করা হয় তবে তার থেকে অর্থ যুক্ত বিশ্লেষণ করা অসম্ভব। এ সম্পর্কে বিখ্যাত স্ট্যাটিস্টিশিয়ান R.A.Fisher-এর এক অনুপম বিবৃতি আছে - 'The Statistician is no longer an alchemist expected to produce gold from any worthless material offered to him. He is more like a chemist capable of assaying exactly how much value it contains, and capable also of extracting this amount, and no more ।' তথ্য সংগ্রহ, বিশ্লেষণ, ব্যাখ্যা, এবং পরিবেশন একটা গোটা বিষয় এবং এর কোনো অংশে ফাঁক/ফাঁকি থাকলে অর্থহীন তথ্যের বোঝা বেড়ে চলে এবং মার্ক টোয়েনের উক্তির যাথার্থতা বজায় থাকে।

বন্দনা দাশগুপ্ত

 

Copyright © 2014 Abasar.net. All rights reserved.


অবসর-এ প্রকাশিত পুরনো লেখাগুলি 'হরফ' সংস্করণে পাওয়া যাবে।