डेटा एंट्री एक ऐसी इकाई है जो जीवन के हर पहलू में सर्वव्यापी है। चाहे वह में हो
आपकी बिक्री पाइपलाइन, सोशल मीडिया प्लेटफॉर्म और बहुत कुछ, इसे तथ्यों, संख्याओं, शब्दों, मापों, टिप्पणियों का एक संग्रह कहा जा सकता है, जिनका अनुवाद एक ऐसे रूप में किया गया है जिसे कंप्यूटर और सिस्टम संसाधित कर सकते हैं। एकत्रित या रिकॉर्ड की गई जानकारी के प्रत्येक टुकड़े को डेटा के रूप में माना जाता है जो सिस्टम या मनुष्यों द्वारा व्यक्तिगत रूप से या संयुक्त रूप से संग्रहीत और रिकॉर्ड किया जाता है। डेटा का उपयोग प्रत्येक पारिस्थितिकी तंत्र में आंतरिक और बाहरी गतिविधियों की एक विस्तृत श्रृंखला को मापने और समझने के लिए किया जा सकता है। पिछले एक दशक में वर्ल्ड वाइड वेब और स्मार्टफोन के तकनीकी रूप से बेहतर होने के साथ, इसने डिजिटल डेटा निर्माण में वृद्धि की है। इन दिनों मंथन किए गए डेटा में टेक्स्ट, ऑडियो और वीडियो जानकारी, और वेब लॉग और वेब गतिविधि रिकॉर्ड भी शामिल हैं, जिन्हें असंरचित डेटा के रूप में वर्गीकृत किया जा सकता है। आसपास क्या हो रहा है, इसका ज्ञान प्राप्त करने और निर्णय लेने के लिए उपयोगी अंतर्दृष्टि उत्पन्न करने के लिए ऐसे डेटा का विश्लेषण डेटा विश्लेषण के रूप में जाना जाता है। डेटा विश्लेषण का एकमात्र उद्देश्य डेटा से उपयोगी जानकारी निकालना है जो डेटा विश्लेषण के आधार पर निर्णय लेने के लिए महत्वपूर्ण कारक बन सकता है। यह कहा जा रहा है कि "डेटा नया तेल है", जितना अधिक डेटा होगा, उतना ही यह विश्लेषण में सहायता करेगा, जो महत्वपूर्ण तथ्यों की खोज में सहायता कर सकता है।
यदि कोई व्यवसाय नहीं बढ़ रहा है, तो कोई पीछे मुड़कर देख सकता है और गलतियों को स्वीकार कर सकता है और उन गलतियों को दोहराए बिना फिर से योजना बना सकता है। इसके विपरीत, यदि व्यवसाय बढ़ रहा है, तो व्यवसाय को और भी अधिक विकसित करने की योजना बना सकते हैं। आपको बस अपने व्यावसायिक डेटा और व्यावसायिक प्रक्रिया का विश्लेषण करना है। डेटा विश्लेषण में निम्नलिखित प्रक्रियाएं शामिल हैं: सफाई, विश्लेषण, व्याख्या और कल्पना करना। डेटा विश्लेषण उपकरण उपयोगकर्ताओं के लिए डेटा को संसाधित करना और उसमें हेरफेर करना, डेटासेट के बीच संबंधों और सहसंबंधों का विश्लेषण करना और व्याख्या के लिए रुझानों की पहचान करने में भी मदद करता है। विश्लेषण तकनीक जैसे खोजपूर्ण विश्लेषण या डेटा का गहन विश्लेषण डेटा व्याख्या के लिए उपयोगी उपकरण बन जाते हैं। विश्लेषण के लिए आपके लिए आवश्यक डेटा की पहचान करना बड़ी मात्रा में उपलब्ध डेटा के साथ एक और चुनौती हो सकती है। कोई ऐसा डेटा स्रोत चुन सकता है जो विश्वसनीय नहीं है या महत्वपूर्ण डेटा स्रोतों को याद कर सकता है जो कि किए जा रहे शोध का हिस्सा होना चाहिए। सटीक डेटा विश्लेषण के लिए विश्वसनीय और पूर्ण डेटा आवश्यक है।
Descriptive data analysis
कहता है हमें "क्या हुआ?" जब डेटा का विश्लेषण। अनुमानात्मक विश्लेषण "क्या हुआ?" के प्रश्न के बारे में सामान्यीकरण या परिकल्पना करता है। डेटासेट में मौजूद पूरी आबादी के समूहों के आंकड़ों की तुलना करके। अन्य प्रकार के विश्लेषण, जैसे नैदानिक विश्लेषण, जिसे मूल कारण विश्लेषण के रूप में भी जाना जाता है, का उद्देश्य "निम्नलिखित क्यों हुआ?" का उत्तर देना है। भविष्य कहनेवाला विश्लेषण भविष्य की घटनाओं के बारे में बताने के लिए डेटा का उपयोग करता है। यह "क्या होने की संभावना है" से संबंधित है। प्रिस्क्रिप्टिव विश्लेषण विश्लेषण का सबसे उन्नत रूप है, क्योंकि यह आपके सभी डेटा और एनालिटिक्स को जोड़ता है, फिर एक मॉडल प्रिस्क्रिप्शन आउटपुट करता है: क्या कार्रवाई करनी है।
एक्सप्लोरेटरी डेटा विश्लेषण, जिसे ईडीए के रूप में भी जाना जाता है, का उपयोग करते हुए, डेटा वैज्ञानिक डेटा सेट का विश्लेषण और जांच कर सकते हैं और उनकी मुख्य विशेषताओं को सारांशित कर सकते हैं, अक्सर कई डेटा विज़ुअलाइज़ेशन विधियों को लागू करते हैं। केवल एक नज़र डालने से बड़ी मात्रा में डेटा से विश्वसनीय निष्कर्ष नहीं निकाला जा सकता है; डेटा का ध्यान रखा जाना चाहिए और एक विश्लेषणात्मक परिप्रेक्ष्य के माध्यम से ध्यान से देखा जाना चाहिए। खोजपूर्ण डेटा विश्लेषण हमें यह निर्धारित करने में मदद करता है कि आवश्यक उत्तरों को प्राप्त करने के लिए डेटा स्रोतों में सबसे अच्छा हेरफेर कैसे किया जाए, जिससे डेटा वैज्ञानिकों के लिए पैटर्न की खोज करना, विसंगतियों का पता लगाना, यदि कोई हो, एक परिकल्पना का परीक्षण करना या मान्यताओं की जांच करना आसान हो जाता है। ईडीए का उपयोग मुख्य रूप से यह देखने के लिए किया जाता है कि औपचारिक परिकल्पना परीक्षण कार्य से परे वर्तमान डेटा क्या प्रकट कर सकता है। इसलिए, यह काम किए जा रहे डेटासेट में चर की बेहतर समझ प्रदान करता है और उनके संबंधों का वर्णन करता है। यह यह निर्धारित करने में भी मदद कर सकता है कि डेटा विश्लेषण के लिए जिन सांख्यिकीय तकनीकों पर विचार किया जा रहा है, वे उपयुक्त हैं या नहीं। मशीन लर्निंग या अपने डेटा के मॉडलिंग में कूदने से पहले खोजपूर्ण डेटा विश्लेषण एक अत्यंत महत्वपूर्ण कदम है। यह एक उपयुक्त मॉडल विकसित करने के लिए आवश्यक एक स्पष्ट संदर्भ प्रदान करता है जो परिणामों की सही व्याख्या करने में मदद करता है।
खोजपूर्ण डेटा विश्लेषण बहुत सारी महत्वपूर्ण जानकारी प्रदान करता है जिसे कई बार आसानी से अनदेखा कर दिया जाता है। इसलिए, यह प्रश्नों को तैयार करने से लेकर परिणाम प्रदर्शित करने तक, लंबे समय में विश्लेषण में मदद करता है। यह शब्द 1970 के दशक में जॉन टुके नाम के एक अमेरिकी गणितज्ञ द्वारा गढ़ा गया था। ईडीए तकनीक आज भी डेटा खोज प्रक्रिया में व्यापक रूप से उपयोग की जाने वाली विधि बनी हुई है। जब डेटा विश्लेषण ठीक से किया जाता है, तो संगठन के भीतर व्यावसायिक दृष्टिकोण से भी, कई चीजें घटती हैं। सबसे पहले, डेटा वैज्ञानिकों को हमेशा पता चलेगा कि क्या उन्होंने आवश्यक व्यावसायिक संदर्भ में परिणाम दिए हैं; इसलिए हितधारकों को आश्वस्त किया जाएगा यदि वे सही प्रश्न पूछ रहे हैं और यहां तक कि दिलचस्प प्रवृत्तियों की खोज भी कर रहे हैं जिन्हें वे नहीं जानते थे।
सीधे शब्दों में कहें, खोजपूर्ण डेटा विश्लेषण यह सुनिश्चित करता है कि व्यावसायिक अधिकारियों को वे परिणाम मिल रहे हैं जिनकी वे तलाश कर रहे हैं और केवल डेटा एनालिटिक्स का उपयोग करके सही दिशा में जा रहे हैं। इसके अलावा, ईडीए को आसानी से बीआई सॉफ्टवेयर में और डैशबोर्डिंग उद्देश्यों के लिए शामिल किया जा सकता है, जो महत्वपूर्ण है जब एक आम आदमी यह जानना चाहता है कि कुछ मिनटों में क्या हो रहा है। डैशबोर्ड बनाने से सुंदर विज़ुअलाइज़ेशन और यह समझने में मदद मिलती है कि आगे क्या निर्णय लेने की आवश्यकता है।
स्वीटविज़ एक ओपन-सोर्स पायथन लाइब्रेरी है जो कोड की एक पंक्ति के साथ एक्सप्लोरेटरी डेटा एनालिसिस के लिए सुंदर, अत्यधिक विस्तृत विज़ुअलाइज़ेशन उत्पन्न करने में मदद करती है। यह एक सारांशित रिपोर्ट भी तैयार करता है और इंटरैक्टिव डैशबोर्ड बनाने में भी मदद कर सकता है। उत्पन्न आउटपुट पूरी तरह से स्व-निहित HTML अनुप्रयोग है। सिस्टम तेजी से रिपोर्ट बनाता है, लक्ष्य मूल्यों की कल्पना करता है और यहां तक कि डेटासेट की तुलना भी करता है। स्वीटविज़ का लक्ष्य लक्ष्य विशेषताओं, प्रशिक्षण बनाम परीक्षण डेटा, और ऐसे अन्य डेटा लक्षण वर्णन कार्यों का त्वरित विश्लेषण उत्पन्न करना है।
-लक्ष्य विश्लेषण बनाएं: बूलियन या संख्यात्मक लक्ष्य मान अन्य सुविधाओं से कैसे संबंधित हैं
-विभिन्न प्रकार के डेटासेट की कल्पना और तुलना करें: विशिष्ट डेटासेट (जैसे प्रशिक्षण बनाम परीक्षण डेटा) या इंट्रा-सेट विशेषताएँ (जैसे पुरुष बनाम महिला)
-
मिश्रित-प्रकार के संघों को खोजने के लिए: स्वीटविज़ संख्यात्मक संघों की खोज कर सकता है जैसे कि पियर्सन का सहसंबंध, श्रेणीबद्ध संघ जैसे अनिश्चितता गुणांक, और श्रेणीबद्ध-संख्यात्मक डेटा प्रकार सभी डेटा प्रकारों के लिए अधिकतम जानकारी प्रदान करने में मदद करने के लिए।
-खोज सारांश जानकारी जैसे कि प्रकार, अद्वितीय मान, लापता मान, डुप्लिकेट पंक्तियाँ, सबसे लगातार मान और संख्यात्मक विश्लेषण: न्यूनतम / अधिकतम / श्रेणी, चतुर्थक, माध्य, मोड, मानक विचलन, योग, माध्य निरपेक्ष विचलन, भिन्नता का गुणांक, कुर्टोसिस, तिरछापन
-अनुमान टाइप करें: SweetViz वैकल्पिक मैन्युअल ओवरराइड के साथ स्वचालित रूप से संख्यात्मक, श्रेणीबद्ध और टेक्स्ट सुविधाओं का पता लगाता है
SweetViz का उपयोग करके एक गहन खोजपूर्ण डेटा विश्लेषण बनाने का प्रयास करेंगे। हम SweetViz लाइब्रेरी का उपयोग करके अपने डेटा के चारों ओर एक डैशबोर्ड बनाने का प्रयास करेंगे और SweetViz की कुछ विशेषताओं की खोज करेंगे। निम्नलिखित कार्यान्वयन एक वीडियो ट्यूटोरियल से प्रेरित है, जिसका लिंक पाया जा सकता है
weetViz लाइब्रेरी को स्थापित करके शुरू करेंगे; इसके लिए आप निम्न कोड चला सकते हैं,
#installing the library
! pip install sweetviz
फिर हम आवश्यक निर्भरताएँ स्थापित करेंगे और अपना डेटासेट भी लोड करेंगे। यहां हम विश्लेषण करने के लिए पेंगुइन डेटासेट का उपयोग कर रहे हैं, जिसमें पेंगुइन के लिए सभी आवश्यक विवरण शामिल हैं जैसे कि उनकी प्रजातियां, द्वीप पाया गया, शरीर द्रव्यमान, लिंग और बहुत कुछ। हम निम्नलिखित डेटासेट के आसपास एक डैशबोर्ड बनाने का प्रयास करेंगे। आप यहां दिए गए लिंक का उपयोग करके निम्नलिखित डेटासेट डाउनलोड कर सकते हैं।
#importing dependencies
import pandas as pd
#loading the dataset
penguins = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/penguins_cleaned.csv')
यहां हम अपने डेटासेट से पेंगुइन की प्रजातियों के बारे में तथ्यों की खोज करने की कोशिश करेंगे। इसलिए हम डेटासेट को X और Y में विभाजित करेंगे, जहां Y में पेंगुइन प्रजातियों से संबंधित सभी जानकारी होगी और X में अन्य जानकारी होगी।
# Separating X and y
X = penguins.drop('species', axis=1)
y = penguins['species']
#displaying data from X
X
Out put
जैसा कि हम देख सकते हैं कि इसमें मात्रात्मक और गुणात्मक डेटा दोनों शामिल हैं
पूरे डेटा को देखते हुए बाद में अंतर का विश्लेषण करने के लिए प्रजातियों के साथ डेटा विभाजन पर ईडीए करता है।
#data before split
penguins
dashboard on the data,
#creating a EDA report
import sweetviz as sv
analyze_report = sv.analyze(penguins)
analyze_report.show_html('analyze.html', open_browser=False)
Displaying Results,
import IPython
IPython.display.HTML('analyze.html')



















