12 स्टेप्स में एप्लाइड एआई के साथ अपनी शुरुआत करें | by Cassie Kozyrkov | Nov, 2020

सभी तरह के मशीन लर्निंग प्रोजेक्ट्स के लिए एक रोडमैप

हिंदी अनुवाद: आयुष मिश्रा, (Aayush Mishra)

मूल लेख: कैसी कॉज़ीरकोव (Cassie Kozyrkov)

संपादिका: प्रियंका वरगड़ीआ (Priyanka Vergadia)

उन सभी लोगों के लिए जो कि अपनी बुरी डेटा हैबिट्स से छुटकारा पाने के लिए एक स्टेप-बाई-स्टेप गाइड तलाश रहे थे, ये रहा एप्लाइड मशीन लर्निंग और आर्टिफिशल इंटेलिजेंस के साथ शुरुआत करने के लिए एक आसान प्रोजेक्ट रोड-मैप। वैसे असल में इसमें 13 स्टेप्स शामिल हैं, इसलिए हम इसकी शुरुआत स्टेप-0 से करेंगे।

(सभी लिंक्स आपको एक ही लेखक द्वारा लिखे अन्य लेखों में ले जाते हैं।)

असल प्रैक्टिस ें आपको कई बार इन स्टेप्स को दोहराने कि ज़रूरत पड़ेगी, लेकिन इस बात का खास खयाल रखें कि अगले स्टेप में बढ़ने से पहले आपने पिछले सभी स्टेप्स पूरे कर लिए हों।

सबसे पहले आपको ये चेक करना होगा कि क्या वास्तव में आपको एमएल/एआई कि ज़रूरत है? क्या आप उन सभी छोटे डीसीजंस को आइडेनटिफाई कर सकते हैं जिनके लिए आपको मदद चाहिए? क्या बिना एमएल/एआई कि मदद से काम नहीं किया जा सकता? क्या आपके पास सीखने के लिए पर्याप्त डेटा है? क्या आपके पास ज़रूरी हार्डवेयर तक पहुंच है? यदि इनमें से किसी भी सवाल का जवाब नहीं है तो आपको आगे नहीं बढ़ना चाहिए।

प्रो टिप: यदि आप इसके साथ बुरी तरह फेल होने से बचना चाहते यही तो आपको इसका इस्तेमाल उन प्रॉब्लम्स को सॉल्व करने से बचना चाहिए जिन्हें इसकी ज़रूरत ही नहीं है, ऐसा करके आप एक ऐसा सोल्यूशन बनाते हैं जिसे प्रोडक्शन में मैन्टैन कर पाना बहुत ही महँगा साबित होता है। यदि आप इसे एआई के बिना कर सकते हैं, तो ये बहुत बेहतर है। एमएल /एआई उन स्थितियों के लिए है, जहां दूसरे अप्रोच से आपको वो परफॉरमेंस नहीं मिलता है, जिसकी आपको ज़रूरत है। यह बहुत ही उपयोगी है और ये यहाँ रहने वाला है, लेकिन यह हर तरह कि प्रॉब्लम के लिए नहीं है।

रिसोर्सेज़:

आपको ये बात बहुत साफ तौर से समझनी होगी कि आपके प्रोजेक्ट का सक्सेस-क्राइटेरिया क्या है? आपका एमएल/एआई सिस्टम आपके लिए बहुत सारे लेबल प्रॉड्यूस करेगा: आप सेट किए गए टास्क के खिलाफ उनका परफॉरमेंस कैसे मापेंगे? उसे कितना बेहतर होना होगा ताकि वो प्रोडक्शन के लिए तैयार हो सके? लॉन्च करने लायक होने के लिए उसका मिनिमम एक्सेप्टेबल परफॉरमेंस क्या होगा?

प्रो टिप: इस बात का खास खयाल रखें कि जो भी व्यक्ति यह काम करे उसे इस बिज़नेस कि सबसे अच्छी समझ और उसकी डीसीजन मेकिंग स्किल्स सबसे बेहतर होनी चाहिए। इस स्टेप को छोड़ देना या इसे बाद में करना डेटा साइंस प्रोजेक्ट्स के फेल होने का प्रमुख कारण है। ऐसा ना करें। यहाँ तक कि इसे छोड़ने का खयाल भी आपके दिमाग में नहीं आना चाहिए

रिसोर्सेज़:

  • स्टेप 1 गाइड को विस्तार से यहाँ पढ़ें।

आपको इन्स्टेन्स आईडीज़ और उनसे जुड़े फीचर्स को कलैक्ट करने के लिए उसका प्रॉसेस और कोड क्रीएट करना होगा। यदि आप सुपर्वाइज़्ड या सेमी- सुपर्वाइज़्ड लर्निंग करने वाले हैं तो आपको इसके लिए सही लेबल्स कि ज़रूरत पड़ेगी, ये अक्सर उन लोगों द्वारा बनाए जाते हैं जो एक ही टास्क बार-बार करते हैं।

प्रो टिप: डेटा खरीदने या असल दुनिया से खुद डेटा कलैक्ट करने से पहले नकली (सिम्यूलेटेड)डेटा के साथ रिहर्सल करना बेहतर होगा।

रिसोर्सेज़:

अपने डेटा का कुछ हिस्सा ये चेक करने के लिए अलग रख दें कि आपकी पैटर्न बेस्ड रेसिपी, आपके मौजूद डेटा(जिसमें उसने पैटर्न ढूंढा है) के अलावा नए डेटा के साथ कैसा परफॉर्म करती है। यह बहुत ही ज़रूरी है कि आप इसके परफॉरमेंस को वहाँ टैस्ट करें जहां इसकी सबसे ज्यादा ज़रूरत है: नए और उचित डेटा के साथ जिसे आपने किसी और चीज़ के लिए उपयोग नहीं किया है।

अपने डेटा को 3 डेटासेट्स में स्प्लिट करें: ट्रेनिंग, वैलिडेशन और टैस्टिंग। ( बाद में आप अपने ट्रेनिंग डेटासेट को मॉडल फिटिंग और डीबगिंग के लिए दो और हिस्सों में स्प्लिट करेंगे, लेकिन इसके बारे में अभी चिंता न करें।)।

प्रो टिप: यदि आप कर सकें तो आपको इंफ्रास्ट्रक्चर लेवल पर स्प्लिटिंग को लागू करना चाहिए और ट्रेनिंग डेटा का एक्सेस कंट्रोल बहुत ही स्ट्रिक्ट होना चाहिए ताकि इसका गलती से मिसयूज़ होने से बचाया जा सके

रिसोर्सेज़:

  • जानें कि क्यों डेटा को स्प्लिट किया जाता है।

अब समय है ऐनेलिटिक्स का! अपने डेटा के कुछ (पूरे नहीं!) हिस्से पर नजर डालें। डेटा प्लॉट करने के लिए, सैनिटी चेक्स और नए फीचर्स को डिजाइन करने के लिए अपने ट्रेनिंग डेटासेट का उपयोग करें। इस बात को कभी ना भूलें कि असल दुनिया से लिया गया डेटा गलतियों से भरपूर होता है, इसलिए उस पर और किसी पर भी भरोसा ना करें। इसकी बजाए, अपने डेटासेट को एक किताब कि तरह सोचें जिसे आप अपने मशीन स्टूडेंट्स को पढ़ाने के लिए यूज़ कर रहे हैं। केवल एक मूर्ख शिक्षक ही पढ़ने के लिए ऐसी किताब को यूज़ करेगा जिसके बारे मे उसे खुद ही पता ना हो कि उसमें पढ़ने के लिए क्या मौजूद है।

प्रो टिप: अपने डेटा को साफ करने और अपने वैलिडेशन और टैस्टिंग डेटासेट में नए फीचर्स डिजाइन करने के लिए अपने द्वारा लिखे गए कोड को एप्लाइ करना न भूलें…।

रिसोर्सेज़:

  • ऐनेलिटिक्स क्या है और कैसे काम करता है उस पर कुछ लेख: [१], [२], [३], [४]
  • डेटा एक्सप्लोरेशन आपको एआई बायस से लड़ने में मदद करता है।

यह वो स्टेप है जहां आप अपने एमएल/ एआई टूलबॉक्स के साथ रूबरू होते हैं और उन सभी पैटर्न-खोजने वाले एल्गोरिदम्स को जानते हैं जिन्हे आप रन करने कि कोशिश करने वाले हैं। अपने डेटा से ये उम्मीद ना करें कि ये आपको उस फॉर्मैट में मिलेगा जिस फॉर्मैट में वो सभी पैकेजेस इसे एक्सेप्ट करेंगे — उससे पहले आपको अपने डेटा के साथ कई तरह के सेटअप और कोड रैंगलिंग(अपने डेटा को काम करने लायक बनाना) करना होगा ताकि वो सभी एल्गोरिदम्स इसे एक्सेप्ट कर सकें।

प्रो टिप: किसी नए पैकेज को इन्वेन्ट करने से पहले हमेशा मौजूदा पैकेजेस के साथ काम करने कि कोशिश करें। यह उन बातों के उलट है को रिसर्चर्स (जिनका काम है नए ऐल्गोरिदम्स को इन्वेन्ट करना) पर फोकस्ड एआई क्लासेस में बताई जाती , इसलिए यदि आप एक अकादमिक तरह के व्यक्ति हैं तो अपनी खुद की आदतों से लड़ने के लिए तैयार रहें।

रिसोर्सेज़:

  • एआई रिसर्च और एप्लाइड एआई के बीच का ज़रूरी अंतर।
  • एमएल/एआई एल्गोरिदम्स कैसे काम करते हैं?
  • हर कोई टेन्सर फ्लो के बारे में बात कर रहा है , लेकिन ये है क्या?

अपने डेटा में पैटर्न ढूंढे और उनका फायदा उठाते हुए रेसिपी(विधि) बनाएं। अपने ट्रेनिंग डेटा को स्प्लिट करें और उसमें से कुछ डेटा को स्टेप 4 में तैयार किए गए एल्गोरिदम्स के साथ रन करें ताकि उस डेटा में फिट होने वाले कुछ मॉडल्स का पता लगाया जा सके। ऐसा आप डेटा में पैटर्न्स ढूंढकर उन्हें रेसिपी में बदल कर करेंगे। अपने ट्रेनिंग डेटा के बाकी हिस्से का यूज़ आप परफॉरमेंस चेक करने के लिए करें। आप ऐसा जितनी बार करना चाहें उतनी बार कर सकते हैं ताकि सबसे बेहतर ऐल्गोरिदम का पता लगाया जा सके और इसे बैक्ट्रैक करके आप इनसे मिलते जुलते ऐल्गोरिदम्स तैयार कर सकते हैं जो आपके डेटा को एक्सेप्ट करें।

प्रो टिप: इसे आप सिंगल होल्डआउट सेट कि बजाए क्रॉस-वैलिडेशन का यूज़ करके और भी बेहतर बना सकते हैं

रिसोर्सेज़:

यदि आप जानना चाहते हैं कि आपका मॉडल खराब परफॉर्म क्यों कर रहा है, तो आपको अपने होल्डआउट (डीबगिंग) डेटासेट के साथ एडवांस्ड एनालिटिक्स का यूज़ करना चाहिए। इससे ही आपको प्रेरणा मिलती है कि आगे क्या करना है। यहां मिलने वाले सिग्नल्स आमतौर पर आपको बताते हैं कि आपको बैक्ट्रैक करके नए फीचर्स डिज़ाइन करना चाहिए या नए एल्गोरिदम पैकेज तैयार करके उनमें अपना डेटा रन करने कि कोशिश करनी चाहिए।

प्रो टिप: इस स्टेप में आपको हाइपरपैरामीटर ट्यूनिंग से निपटना होगा। “हाइपरपैरामीटर” एक “एल्गोरिथ्म” के लिए ठीक वैसा है जैसा एक “टैमप्रेचर डायल” “टोस्टर के लिए” होता है। पहली बार में ब्रेड टोस्ट करते वक्त आपको इस डायल कि फिक्र करने कि ज़रूरत नहीं है, लेकिन एक बार जब आपको यकीन हो जाए कि यह टोस्टर आपके लिए ही है, उसके बाद आपको उस डायल को ट्यून करने में अपना समय ज़रूर बिताना चाहिए

रिसोर्सेज़:

आप अपने डिबगिंग डेटा के साथ जो कुछ भी चाहें कर सकते हैं, लेकिन अपने वैलिडेशन डेटासेट के साथ किसी भी तरह कि छेड़-छाड़ करने कि अनुमति आपको नहीं है, क्योंकि ऐसा करने से ओवरफिटिंग के खिलाफ आपकी लड़ाई में इसकी विश्वसनीयता काम हो जाती है। आपको केवल परफॉरमेंस मेट्रिक देखने की अनुमति है। वैलिडेशन को आप मॉडल का अंतिम परीक्षा में परफॉरमेंस कैसा होगा, यह जानने के लिए एक सुरक्षित स्थान कि तरह सोचें… लेकिन ऐसा करते वक्त सुधार के लिए भी जगह होनी चाहिए अगर आप दोबारा शुरुआत करने का विचार करते हैं तो। वैलिडेशन स्टेप के आगे तभी बढ़ें जब आपको विश्वास हो जाए कि यह मॉडल ही सबसे बेहतर है।

प्रो टिप: कई एमएल/एआई काउबॉय्ज़ सोचते हैं कि वो वैलिडेशन कर रहे हैं जबकि असल में वो डीबगिंग कर रहे होते हैं। इससे टैस्टिंग फेल्यर होने कि संभावना बढ़ जाती है। ऐसा होने से आपके बिज़नेस प्रोजेक्ट को काफी नुकसान पहुँच सकता है। अनुभवहीन इंजीनियरों के साथ खास खयाल रखें जो वैलिडेशन डेटा के साथ डिबगिंग करने से होने वाले नुकसान को नहीं समझते हैं।

रिसोर्सेज़:

अब सच्चाई का सामना करने का वक्त आ गया है! टैस्टिंग वो जगह है जहां आपको पता चलेगा कि आपका सबसे अच्छा मॉडेल, 100% नए डेटा के साथ, सही तरह से काम करता है कि नहीं। क्योंकि न तो इंजीनियरों और न ही मॉडल ने कभी इस डेटा को देखा है, कोई ऐसा तरीका नहीं है जिससे वो किसी तरह चीटिंग करके असल दुनिया के साथ बिना जनरलाइज़ हुए जीत हासिल करने में कामयाब हो जाएं। इस डेटा के साथ स्टैटिस्टिकल टैस्टिंग ही सबसे सही और भरोसेमंद संकेत है इसकी क्वालिटी का जो आपको मिल सकता है। इसका नकारात्मक पक्ष यह है कि आप केवल एक बार ही इस टैस्ट डेटा का उपयोग कर सकते हैं। इसलिए आप पहले वैलिडेशन डेटा को खराब सिग्नल के रूप में उपयोग करते हैं।

यदि आप टैस्टिंग पास कर लेते हैं, तो आप अपने प्रोटोटाइप मॉडल का लाइव, प्रोडक्शन-योग्य संस्करण बनाने के लिए इंजीनियरिंग रिसोर्सेज़ का निवेश करेंगे। यदि आप विफल होते हैं, तो बात यही खत्म हो जाती है।

प्रो टिप: टैस्टिंग विफल होने का मतलब है कि आप अपने एमएल / एआई प्रोजेक्ट को बंद कर सकते हैं। इसके आगे कोई रोना नहीं। कोई भीख नहीं। सही तरह से डीबगिंग और वैलिडेशन करने का मलतब था आपको सुधार का एक मौका देना, इसलिए अब आपको इन टैस्ट रिज़ल्ट्स को स्वीकार करना ही होगा। इससे आगे बढ़ने का सिर्फ एक ही तरीका है : अगर आप नया डेटा कलैक्ट कर सकें। यह आपके प्रोजेक्ट को नए सिरे से, नए टैस्ट डेटासेट के साथ शुरुआत करने का मौका देता है। लेकिन वो मॉडल जो टैस्टिंग में विफल हो गया है उसे खत्म होना ही होगा। इसे खत्म करने के लिए अपना चरित्र मज़बूत रखें।

रिसोर्सेज़:

इस स्टेप में, आप अपने प्रोटोटाइप को एक ML / AI सिस्टम में बदल देंगे जो आपके प्रोडक्शन कोड के साथ लाइव जाने और सही तरह से काम करने कि क्षमता रखता है। यह एक नैपकिन पर लिखे रेसिपी जितना आसान हो सकता है जिसका यूज़ आप निर्णय लेने के लिए कर सकते हैं या ये एक स्केलेबल मॉडल विकसित करने जितना जटिल हो सकता जिसमें ऑटोमेटेड रिट्रेनिंग क्षमताएँ मौजूद हो जो एक बड़े कोडबेस के साथ अच्छी तरह से काम कर सके, जिसमें बिल्ट-इन सेफ्टी नेट मौजूद हो, और जो विरोधात्मक हमलों का सामना करने के लिए डिज़ाइन हुआ हो। ये सभी बातें प्रोटोटाइप ट्रेनिंग फेज़ में शामिल नहीं थी, इसलिए आगे बहुत काम करना बाकी है।

प्रो टिप: आपका मॉडल संभवतः आइसोलेशन में मौजूद नहीं होगा, इसलिए इसकी वजह प्रभावित होने वाले सिस्टम्स और प्रॉसेसेस का खयाल रखें और उनकी विश्वसनीयता और रेलिवेन्स के बारे में ध्यान से सोचें।

रिसोर्सेज़:

एक बार जब आपका मॉडल लाइव रन होने में सक्षम हो जाए, तो इसे एक बार में ही पूरा लॉन्च ना करें। इसे टुकड़ों में लॉन्च करें और यह वेरीफ़ाई करने के लिए एक्सपेरिमेंट्स करें कि इसे दुनिया में रिलीज़ करना अच्छा विचार है। यदि एक्सपेरिमेंट्स आपको इसे लॉक्ड रखने के लिए कहते हैं, तो आपको यही करना चाहिए। (हम सभी ने उस डरावनी फिल्म को देखा है।)

क्या आप इस बात से घबराए हुए हैं कि आपका सारा काम बेकार जाने वाला है? आपको होना ही चाहिए। आपने अब तक अपने प्रोजेक्ट के साथ इतना काम कर लिया है कि आपको उससे प्यार हो गया है और आपके सपनों को कुचलने के लिए ही स्टेप 9 और 11 मौजूद हैं। ये अच्छी बात है, अब आप पिछले स्टेप्स में ज्यादा सावधानी बरतेंगे।

हम आपके इस प्यार कि वजह से खुद को एक बकवास सिस्टम के जहर से प्रभावित नहीं होने दे सकते हैं कि । ये सभी हर्डल्स यह सुनिश्चित करने के लिए हैं कि हाई क्वालिटी स्टैंडर्ड्स को बनाए रखा जाए।

प्रो टिप: आपको पहले एक ऐसा इन्फ्रस्ट्रक्चर बनाना होगा जिसमें आप लाइव स्टैटिस्टिकल एक्सपेरिमेंट्स रन कर सकें , वरना आप इसे सुरक्षित रूप से लॉन्च नहीं कर पाएंगे। इसका एक हिस्सा है वो कोड लिखना जो ये रैंडमाइज़ कर सके कि कौन से केसेस आपके एमएल /एआई सिस्टम में रन होंगे और कौन से आपके अगले सर्वश्रेष्ठ ऑल्टर्नेटिव (जो मैनुअल हो सकते हैं) में रन होंगे

रिसोर्सेज़:

एक बार लॉन्च करने के बाद, आप अपने सिस्टम को डिवाइसेस के भरोसे नहीं छोड़ सकते हैं। समय के साथ-साथ, आपको इसे सुरक्षित और विश्वसनीय बनाए रखने के लिए प्रयास करते रहना होगा।

इसकी एक अच्छी शुरुआत है सिस्टम मॉनिटरिंग के लिए ऐनेलिटिक्स और साथ में एक मेन्टेनैन्स प्लान होना, जिसमें डाक्यूमेन्टेशन का बेहतर स्टैन्डर्ड और इसे जीवन भर विश्वसनीय रखने के लिए हेडकाउंट शामिल हैं।

प्रो टिप: यदि आप एमएल/एआई का एक बड़ा प्रोडक्शन सिस्टम बना रहे हैं, तो तो इसमें ऐनेलिस्ट्स को हायर न करने कि गलती ना करें, जो इनपुट नॉनस्टेशनैरिटी और कई दूसरे सप्राइज़ेस को मॉनिटर करने के लिए ज़िम्मेदार होते हैं।

इन्फोग्राफिक्स पसंद करने वालों के लिए। ज़ूम करने के लिए इसे एक नए टैब में खोलें।

मशीन लर्निंग और एआई में सिर्फ कुछ एल्गोरिदम ही नहीं होते हैं, इसमें और भी बहुत कुछ शामिल है।

मुझे उम्मीद है कि आप देख सकते हैं कि मशीन लर्निंग में ऐल्गोरिदम्स के अलावा भी बहुत कुछ शामिल होता है, इसलिए उन कोर्सेस कि वजह से जो सिर्फ एल्गोरिदम्स के बारे में ही बताते हैं, खुद को मूर्ख बनने मत दीजिएगा। बिज़नेस प्रॉब्लम्स को साल्व करने के लिए एआई को एप्लाइ करने कि कला का मतलब है:

स्टेप 0–1 सही सवाल पूछना

स्टेप 2–4 उपयोगी डेटा प्राप्त करना और तैयार करना

स्टेप 5–7 डिस्पोज़ेबल डेटा में पैटर्न खोजना

स्टेप 8–9 यह जाँचना कि पैटर्न नए डेटा पर काम करते हैं

स्टेप 10 एक प्रोडक्शन-रेडी सिस्टम तैयार करना

स्टेप 11 यह सुनिश्चित करना कि लॉन्च करना एक अच्छा विचार है

स्टेप 12 एक प्रोडक्शन एमएल सिस्टम को समय के साथ विश्वसनीय बनाए रखना

क्या आप इन विषयों को और गहराई के साथ पढ़ना पसंद करेंगे! मैं अपने आने वाले लेखों में, इस लिस्ट में मौजूद हर एक विषय पर विस्तार से लेख लिखने वाली हूँ। जितना ज्यादा आप मेरे लेखों को अपने दोस्तों के साथ शेयर करेंगे, उतना ही ज्यादा समय मैं नए लेखों को आप तक जल्द से जल्द पहुंचाने में इन्वेस्ट करूंगी। आपका मेरे लेखों के प्रति प्यार ही मेरी ऊर्जा है। धन्यवाद!

Share:

More Posts

Send Us A Message