आपका डेटासेट एक विशाल इंकब्लॉट टैस्ट है। | by Cassie Kozyrkov | Nov, 2020

एनालिटिक्स में एपोफीनिया (चीज़ों के बीच किसी तरह का कनेक्शन होने का भ्रम होना) और आप इस बारे में क्या कर सकते हैं।

हिंदी अनुवाद: आयुष मिश्रा, (Aayush Mishra)

मूल लेख: कैसी कॉज़ीरकोव (Cassie Kozyrkov)

संपादिका: प्रियंका वरगड़ीआ (Priyanka Vergadia)

डेटा के साथ कहानियाँ बताना और झूठ बोलने के बीच एक बड़ा फर्क है। इससे पहले कि मैं आपको ये बताऊँ कि कैसे आप एक बहुत अच्छे डेटा ऐनलिस्ट कि पहचान कर सकते हैं और अपने ऐनालिटिकल एक्सीलैन्स को बेहतर कर सकते हैं, मैं आपको थोड़ा डराना चाहूँगी।

मनुष्य का दिाग पैटर्न-खोजने वाला पॉवरहाउस है … लेकिन उन पैटर्न्स का वास्तविकता से बहुत अधिक लेना-देना नहीं होता है। हम एक ऐसी प्रजाति हैं जो बादलों में खरगोश और आलू के चिप्स में एल्विस के चेहरे को ढूंढते हैं।

क्या ये आपको एक खरगोश और एल्विस के चित्र की तरह दिखते हैं? इमेज: सोर्स।

एक पल के लिए रुक कर रॉर्शैख टैस्ट के बारे में विचार कीजिए, जिसमें लोगों को रैनडम इंकब्लॉट्स(स्याही के धब्बे) दिखाए जाते हैं और उनसे पूछा जाता है कि उन्हें इनमें क्या दिख रहा है — -और आप इस बात कि सराहना करेंगे कि किस तरह हमारा दिमाग उत्सुक होकर किसी भी निराकार चीज़ को एक नकली आकार दे देता है।

चमगादड़? तितली? या सिर्फ एक स्याही का धब्बा(इंकब्लॉट)? यह रॉर्शैख टैस्ट के बनाए शुरुआती दस कार्ड में से पहला है, जो 1921 में बनाए गए थे।

मनोवैज्ञानिकों ने इस आदत को एक अच्छा नाम दिया है: एपोफीनिया। मनुष्यों को बस किसी रूप में उत्तेजना कि ज़रूरत होती है और फिर हम चेहरे, तितलियाँ और हमारे पसंदीदा प्रोजेक्ट को बनाने के लिए बजट आवंटित करने का कारण या फिर एक पूरा एआई सिस्टम ही लॉन्च करने का कारण ढूँढ लेते हैं।

अधिकांश डेटासेट्स में बहुत रैनडम नॉइज़ (ऐसा डेटा जो किसी काम का नहीं होता है)मौजूद होता है, तो इस बात कि क्या संभावना है कि आपके एनालिटिक्स के साथ कोई एपोफीनिया नहीं जुड़ा हुआ है? क्या आप वास्तव में डेटा पर अपनी व्याख्या पर भरोसा कर सकते हैं?

हमारा दिमाग जो इंकब्लॉट्स के साथ करता है, वही यह डेटा के साथ भी करता है।

इस बात को और बदतर बनाने के लिए, उन डेटासेट को हिस्सों में बाँटने के जितने ज्यादा तरीके होंगे और वे जितने ज्यादा जटिल होंगे, उतने ही अधिक संदिग्ध उत्तेजनाओं को वो निर्मित करेंगे। इसका सीधा मतलब है कि वे व्यावहारिक रूप उनमें झूठी बकवास देखने के लिए विनती कर रहे हैं।

जटिल डेटासेट व्यावहारिक रूप से आपको उनमें गलत अर्थ खोजने के लिए विनती करते हैं।

क्या आपको इस बात पर भरोसा है कि आपका सबसे नया डेटा एपॉफीनीया से ग्रसित नहीं है?

एक और महान शब्द पैरैडोलिया जो एपॉफीनीया की तरह है (अस्पष्ट उत्तेजनाओं में परिचित चीज़ें खोजना)। जापान में, उनके पास एक चट्टानों का संग्रहालय है जो चेहरे की तरह दिखते हैं। यह एक खूबसूरत दुनिया है।

यदि आपको यह निराशाजनक लग रहा है, तो यह अभी तक खत्म नहीं हुआ है। डेटा ऐनैलिसिस का कोर्स लेना उस मनोवैज्ञानिक आग पर ईंधन डालने का काम करता है। छात्रों को इस बात कि अपेक्षा करने के लिए तैयार किया जाता है कि डेटा को देखने से वास्तविक अर्थ का पता चलता है क्योंकि एक्स्प्लोरेटोरी ऐनैलिसिस के हर होमवर्क एक्सर्साइज़ में खजाना दफन है। बहुत कम प्रोफेसरों के पास आपको जंगली हंस का पीछा करने(आपके अच्छे के लिए!) भेजने के लिए दिल है और इस तरह के ओपन-एंडेड-असाइनमेंट को ग्रेड करना कठिन होता है, इसलिए आपको आमतौर पर एक छात्र के रूप में पर्याप्त अवसर नहीं मिलते हैं।

छात्र यह मानते हुए बड़े होते हैं कि प्रत्येक डेटासेट से उन्हें सच्चाई भरा नतीजा ही मिलेगा।

डेटा स्टोरीटेलिंग सीधा झूट बोलने कि बजाए घुमाफिरा कर बोलना है। पैटर्न असली हैं या नहीं, इस मुद्दे को फिलहाल के लिए किनारे करते हैं और आइए कई तरह के व्याख्याओं के बारे में बात करते हैं। सिर्फ इसलिए कि आप उस इंकब्लॉट में एक चमगादड़ का आकार देखते हैं, इसका मतलब यह नहीं है कि इसमें एक तितली या लोमड़ियों का जोड़ा मौजूद नहीं है। अगर मैंने लोमड़ियों का उल्लेख नहीं किया होता, तो क्या आप उन्हें देख पाते? शायद नही। प्रेरणा और फोकस से संबंधित मनोवैज्ञानिक तरीकों ने इन्हें आपके ही खिलाफ खड़ा कर दिया है। चमगादड़ की व्याख्या से दूर हटकर आगे बढ़ने के लिए एक विशेष प्रकार कि स्किल कि ज़रूरत पड़ती है जो आपको मजबूर करती है कि आप इससे हटकर इसके एक साथ कई अर्थ देख सकें।

एक बार जब लोग अपनी पसंदीदा “जानकारी” पर अटक जाते हैं, तो उसे ना देख पाना उनके लिए बहुत मुश्किल होता है ।

मुसीबत यह है कि एक बार जब लोग अपनी पसंदीदा “जानकारी” पर अटक जाते हैं, तो उन्हें इसका दूसरा पहलू देखने में मुश्किल का सामना करना पड़ता है। लोग उस व्याख्या पर ज्यादा विश्वास करते हैं जो सबसे पहले उनका ध्यान आकर्षित करने में कामयाब होता है और उसका हर एक अतिरिक्त अर्थ उनकी इस खोज को जारी रखने कि प्रेरणा को कम कर देता है।

अपनी पसंदीदा कहानी पर बिना ज़ोर दिए दूसरी संभावित कहानियों को अपनाने के मानसिक तौर पर कड़ी मेहनत करनी होती है। हर ऐनालिस्ट के अंदर यह अनुशासन नहीं होता है। वास्तव में, इनमें से कइयों को डेटा एक्स्प्लोरेशन के माध्यम से कहानी के एक पक्ष को “सही साबित” करने के लिए प्रोत्साहित किया जाता है। ऐसी स्किल्स विकसित करने का क्या मतलब जो केवल आपके डेटा साइंस के करियर को आगे बढ़ाने के रास्ते में आड़ें आएं?

डेटा के साथ चीज़ों को साबित करने के तरीके मौजूद हैं (ईमानदारी और सख्ती के साथ) — मेरा डेटा-विभाजन पर ये लेख आपको और अधिक जानकारी देगा — लेकिन एक्सप्लोरेटोरी (खोज पूर्ण) डेटा ऐनैलिसिस (ईडीए) उनमें से एक नहीं है। ओपन एंडेड(सीमा रहित) डेटा एक्सप्लोरेशन हमेशा एक तरह का फिशिंग-एक्स्पिडिशन (बिना किसी एक निर्धारित प्लान के, आशा के साथ नई जानकारी कि खोज या जांच करने का अभियान) जैसा होता है। आपके लाइटबेसर का रंग निर्धारित करता है कि आप क्या पकड़ना चाहते हैं।

यदि आप अंधकार कि तरफ शामिल होते हैं, तो आप उस थ्योरी का समर्थन करने के लिए सबूत ढूंढ रहे हैं जो आपको पहले से ही पता है कि यह सच है (इसलिए आप इसे कुछ भोले-भाले लोगों को बेच सकते हैं)। आपको इस बात का पता ही नहीं चलेगा कि आपका लाइटसेबर लाल रंग का है, अगर आप वास्तव में डेटा निष्पक्षता और खुद के निष्पक्ष ना होने पर विश्वास करते हैं।

ओपन एंडेड डेटा एक्सप्लोरेशन हमेशा फिशिंग-एक्स्पिडिशन कि तरह होता है।

एक जटिल डेटासेट के साथ आप एक पैटर्न को ढूंढ निकालेंगे जिसे आप अपनी पसंदीदा कहानी के समर्थन के रूप में बता सकते हैं। यही रॉर्शैख टैस्ट कि खूबसूरती है। दुर्भाग्य से, डेटा के साथ ये बात इंकब्लॉट्स के मुकाबले बदतर है क्योंकि जितना अधिक गणितीय जादू का उपयोग आपकी विधि (पी-हैकिंग) में होगा, उतना ही अधिक आप दूसरों को सही और आश्वस्त लगेंगे जो आपसे बेहतर नहीं जानते हैं।

मंगल ग्रह पर चेहरों का सैटेलाइट फोटो जिसे कई लोगों ने किसी ऐलीअन निवास के प्रमाण के रूप में लिया।

जो लोग अंधेरे पक्ष को अस्वीकार करते हैं, वे भी फिशिंग-एक्स्पिडिशन में ही जाते हैं, लेकिन वो किसी और चीज़ कि तलाश में हैं: प्रेरणा। वे ऐसे पैटर्न की तलाश कर रहे हैं जो दिलचस्प या सम्मोहक हों, पर वो इसे सीधा एकसबूत के रूप में लेने कि बजाए वो इससे बेहतर जानते हैं। इसके बजाए, वे अनुशासन के साथ खुले विचारों वाले ऐनालिटिक्स का अभ्यास करते हैं, ताकि जितना संभव हो उतनी व्याख्याओं के प्रति जागरूक रह सकें।

सर्वश्रेष्ठ ऐनालिस्ट्स खुद को जितना संभव हो उतनी व्याख्याओं को खोजने के लिए प्रेरित करते हैं।

इसके लिए एक तेज़ नज़र, एक विनम्र और किसी एक चीज़ पर ना अटकने वाले मन कि ज़रूरत होती है। किसी कहानी के केवल एक पक्ष को देखने के लिए अपने स्टेकहोल्डर्स (हितधारकों) के साथ धोखा करने कि बजाए, वे खुद को चुनौती देते हैं कि रचनात्मक सोच के जरिए एक ही डेटा को जितनी संभव हो सके उतनी कहानियों को बनाने के लिए इस्तेमाल करें। वे अपने निष्कर्षों को इस तरह से पेश करते हैं जो एक मज़बूत फॉलो-अप के लिए प्रेरित करता है, जो उनकी लीडर्शिप टीम को खाई में जाने से बचाकर रखता है।

खुले विचार डेटा ऐनेलिसिस को सार्थक होने का मौका देते हैं।

एक अतिरिक्त बोनस के रूप में, कई व्याख्याओं को देखने के लिए अनुशासन एक ऐनालिस्ट का गुप्त हथियार होते हैं, जो डेटा में दफन वास्तविक खजाने को ढ़ूँढ़ने में मदद करता है। यदि आप एक झूठ से विचलित हैं, जिस पर आप विश्वास करते हैं, तो कन्फर्मेशन बायस उस सबूत को देख पाना कठिन बनाता है जो विपरीत दिशा में इशारा करता है। किसी भी चीज़ का ऐनालिसिस करने में परेशान क्यों होना यदि आपके निष्कर्ष पहले से ही निर्धारित किए गए हों ? खुले विचार, डेटा ऐनेलिसिस को सार्थक होने का मौका देते हैं।

इस ग्रिल्ड पनीर सैंडविच को नीलामी में $ 28,000 मिले, क्योंकि इसमें वर्जिन मैरी की झलक दिखती है। क्या कोई इसका ऑल्टर्नेटिव इन्टर्प्रिटेशन (व्याख्या) बता सकता है?

यदि आपको ऐनालिटिक्स पर लिखे अन्य लेख पसंद आए हों, तो यहां कुछ ऐसी बातें हैं जिन्हें आप पहले से ही एक महान ऐनालिस्ट में तलाश रहे हैं :

  • वे डेटा से परे किसी अनुमान पर काम नहीं करते हैं। [1]
  • वे डेटा साइंस टूल्स के साथ काम करने में सक्षम होते हैं और जल्दी से एक विशाल डेटासेट को जाँचने कि क्षमता रखते हैं। [2]
  • उनके पास ज़रूरी डोमेन नॉलेज होता है, इसलिए वे स्टेकहोल्डर्स का समय बर्बाद करेंगे इसकी संभावना बहुत ही कम होती है। [3]
  • वे समझते हैं कि उनका कार्य प्रेरणा कि तलाश करना है। [3] [4]
  • वे डेटा की कल्पना इस तारीके से करते हैं जो हमारे दिमाग के अनुकूल हो, ताकि प्रेरणा के लिए कम समय व्यतीत हो। [3]
  • वे जानते हैं कि जो भी संभावित जानकारी उन्हें मिली है उस पर सख्ती से कैसे काम करना है( और मदद के लिए किसे फोन करना है)। [4] [5] [6] [7]

इन सब के अलावा, यह लेख आपको ऐनालिस्ट में ये तीन और लक्षणों को तलाश करने का सुझाव देता है:

  • वे जानते हैं कि हमारा दिमाग वहाँ अर्थ ढूँढता है जहां कोई अर्थ मौजूद नहीं होता है, इसलिए वे विनम्र रहते हैं और निष्कर्ष पर जाने से बचते हैं।
  • जब तक वो सही नहीं साबित हो जाते तब तक वो डेटा से मिली कोई भी स्टोरी आपको बेचने कि कोशिश नहीं करते हैं। इसकी बजाए वे डेटा के बारे में बात करते समय कम और शांत भाषा का उपयोग करते हैं।

उनके पास हर चीज़ के लिए कई व्याख्याओं के साथ आने का अनुशासन है । जितनी तेजी से वे कई स्पष्टीकरण उत्पन्न करते हैं और जितने अधिक विकल्प उत्पन्न करते हैं, उतना ही मज़बूत उनका निष्कर्ष होता है। अगली बार जब आप एक एनालिटिक्स मास्टर को हायर कर रहे हों तो इस स्किल के लिए इंटरव्यू लेने की कोशिश करें।

अंत में, यदि आप एक लीडर हैं, तो ये महत्वपूर्ण है कि आप अपने अंदर नज़र डालें और सुनिश्चित करें कि आप अपने लोगों को सही प्रोत्साहन दे रहे हैं। क्या आप एक डेटा ऐनालिस्ट या डेटा स्पिन डॉक्टर की तलाश कर रहे हैं? ये अलग-अलग मानसिकता (और कौशल) के लोग होते हैं, इसलिए इन्हें बुद्धिमानी से चुनें और सही व्यवहारों को पुरस्कृत करें।

आलू के चिप्स भूल जाओ! वह जापानी चट्टानों का संग्रहालय, जो चेहरों की तरह दिखते हैं, वह विजेता है।

Share:

More Posts

Send Us A Message