Study page: step-by-step guide to the data analysis process

डेटा एंट्री एक ऐसी इकाई है जो जीवन के हर पहलू में सर्वव्यापी है। चाहे वह में हो

आपकी बिक्री पाइपलाइन, सोशल मीडिया प्लेटफॉर्म और बहुत कुछ, इसे तथ्यों, संख्याओं, शब्दों, मापों, टिप्पणियों का एक संग्रह कहा जा सकता है, जिनका अनुवाद एक ऐसे रूप में किया गया है जिसे कंप्यूटर और सिस्टम संसाधित कर सकते हैं। एकत्रित या रिकॉर्ड की गई जानकारी के प्रत्येक टुकड़े को डेटा के रूप में माना जाता है जो सिस्टम या मनुष्यों द्वारा व्यक्तिगत रूप से या संयुक्त रूप से संग्रहीत और रिकॉर्ड किया जाता है। डेटा का उपयोग प्रत्येक पारिस्थितिकी तंत्र में आंतरिक और बाहरी गतिविधियों की एक विस्तृत श्रृंखला को मापने और समझने के लिए किया जा सकता है। पिछले एक दशक में वर्ल्ड वाइड वेब और स्मार्टफोन के तकनीकी रूप से बेहतर होने के साथ, इसने डिजिटल डेटा निर्माण में वृद्धि की है। इन दिनों मंथन किए गए डेटा में टेक्स्ट, ऑडियो और वीडियो जानकारी, और वेब लॉग और वेब गतिविधि रिकॉर्ड भी शामिल हैं, जिन्हें असंरचित डेटा के रूप में वर्गीकृत किया जा सकता है। आसपास क्या हो रहा है, इसका ज्ञान प्राप्त करने और निर्णय लेने के लिए उपयोगी अंतर्दृष्टि उत्पन्न करने के लिए ऐसे डेटा का विश्लेषण डेटा विश्लेषण के रूप में जाना जाता है। डेटा विश्लेषण का एकमात्र उद्देश्य डेटा से उपयोगी जानकारी निकालना है जो डेटा विश्लेषण के आधार पर निर्णय लेने के लिए महत्वपूर्ण कारक बन सकता है। यह कहा जा रहा है कि "डेटा नया तेल है", जितना अधिक डेटा होगा, उतना ही यह विश्लेषण में सहायता करेगा, जो महत्वपूर्ण तथ्यों की खोज में सहायता कर सकता है।

यदि कोई व्यवसाय नहीं बढ़ रहा है, तो कोई पीछे मुड़कर देख सकता है और गलतियों को स्वीकार कर सकता है और उन गलतियों को दोहराए बिना फिर से योजना बना सकता है। इसके विपरीत, यदि व्यवसाय बढ़ रहा है, तो व्यवसाय को और भी अधिक विकसित करने की योजना बना सकते हैं। आपको बस अपने व्यावसायिक डेटा और व्यावसायिक प्रक्रिया का विश्लेषण करना है। डेटा विश्लेषण में निम्नलिखित प्रक्रियाएं शामिल हैं: सफाई, विश्लेषण, व्याख्या और कल्पना करना। डेटा विश्लेषण उपकरण उपयोगकर्ताओं के लिए डेटा को संसाधित करना और उसमें हेरफेर करना, डेटासेट के बीच संबंधों और सहसंबंधों का विश्लेषण करना और व्याख्या के लिए रुझानों की पहचान करने में भी मदद करता है। विश्लेषण तकनीक जैसे खोजपूर्ण विश्लेषण या डेटा का गहन विश्लेषण डेटा व्याख्या के लिए उपयोगी उपकरण बन जाते हैं। विश्लेषण के लिए आपके लिए आवश्यक डेटा की पहचान करना बड़ी मात्रा में उपलब्ध डेटा के साथ एक और चुनौती हो सकती है। कोई ऐसा डेटा स्रोत चुन सकता है जो विश्वसनीय नहीं है या महत्वपूर्ण डेटा स्रोतों को याद कर सकता है जो कि किए जा रहे शोध का हिस्सा होना चाहिए। सटीक डेटा विश्लेषण के लिए विश्वसनीय और पूर्ण डेटा आवश्यक है।

Descriptive data analysis

कहता है हमें "क्या हुआ?" जब डेटा का विश्लेषण। अनुमानात्मक विश्लेषण "क्या हुआ?" के प्रश्न के बारे में सामान्यीकरण या परिकल्पना करता है। डेटासेट में मौजूद पूरी आबादी के समूहों के आंकड़ों की तुलना करके। अन्य प्रकार के विश्लेषण, जैसे नैदानिक विश्लेषण, जिसे मूल कारण विश्लेषण के रूप में भी जाना जाता है, का उद्देश्य "निम्नलिखित क्यों हुआ?" का उत्तर देना है। भविष्य कहनेवाला विश्लेषण भविष्य की घटनाओं के बारे में बताने के लिए डेटा का उपयोग करता है। यह "क्या होने की संभावना है" से संबंधित है। प्रिस्क्रिप्टिव विश्लेषण विश्लेषण का सबसे उन्नत रूप है, क्योंकि यह आपके सभी डेटा और एनालिटिक्स को जोड़ता है, फिर एक मॉडल प्रिस्क्रिप्शन आउटपुट करता है: क्या कार्रवाई करनी है।

एक्सप्लोरेटरी डेटा विश्लेषण, जिसे ईडीए के रूप में भी जाना जाता है, का उपयोग करते हुए, डेटा वैज्ञानिक डेटा सेट का विश्लेषण और जांच कर सकते हैं और उनकी मुख्य विशेषताओं को सारांशित कर सकते हैं, अक्सर कई डेटा विज़ुअलाइज़ेशन विधियों को लागू करते हैं। केवल एक नज़र डालने से बड़ी मात्रा में डेटा से विश्वसनीय निष्कर्ष नहीं निकाला जा सकता है; डेटा का ध्यान रखा जाना चाहिए और एक विश्लेषणात्मक परिप्रेक्ष्य के माध्यम से ध्यान से देखा जाना चाहिए। खोजपूर्ण डेटा विश्लेषण हमें यह निर्धारित करने में मदद करता है कि आवश्यक उत्तरों को प्राप्त करने के लिए डेटा स्रोतों में सबसे अच्छा हेरफेर कैसे किया जाए, जिससे डेटा वैज्ञानिकों के लिए पैटर्न की खोज करना, विसंगतियों का पता लगाना, यदि कोई हो, एक परिकल्पना का परीक्षण करना या मान्यताओं की जांच करना आसान हो जाता है। ईडीए का उपयोग मुख्य रूप से यह देखने के लिए किया जाता है कि औपचारिक परिकल्पना परीक्षण कार्य से परे वर्तमान डेटा क्या प्रकट कर सकता है। इसलिए, यह काम किए जा रहे डेटासेट में चर की बेहतर समझ प्रदान करता है और उनके संबंधों का वर्णन करता है। यह यह निर्धारित करने में भी मदद कर सकता है कि डेटा विश्लेषण के लिए जिन सांख्यिकीय तकनीकों पर विचार किया जा रहा है, वे उपयुक्त हैं या नहीं। मशीन लर्निंग या अपने डेटा के मॉडलिंग में कूदने से पहले खोजपूर्ण डेटा विश्लेषण एक अत्यंत महत्वपूर्ण कदम है। यह एक उपयुक्त मॉडल विकसित करने के लिए आवश्यक एक स्पष्ट संदर्भ प्रदान करता है जो परिणामों की सही व्याख्या करने में मदद करता है।

खोजपूर्ण डेटा विश्लेषण बहुत सारी महत्वपूर्ण जानकारी प्रदान करता है जिसे कई बार आसानी से अनदेखा कर दिया जाता है। इसलिए, यह प्रश्नों को तैयार करने से लेकर परिणाम प्रदर्शित करने तक, लंबे समय में विश्लेषण में मदद करता है। यह शब्द 1970 के दशक में जॉन टुके नाम के एक अमेरिकी गणितज्ञ द्वारा गढ़ा गया था। ईडीए तकनीक आज भी डेटा खोज प्रक्रिया में व्यापक रूप से उपयोग की जाने वाली विधि बनी हुई है। जब डेटा विश्लेषण ठीक से किया जाता है, तो संगठन के भीतर व्यावसायिक दृष्टिकोण से भी, कई चीजें घटती हैं। सबसे पहले, डेटा वैज्ञानिकों को हमेशा पता चलेगा कि क्या उन्होंने आवश्यक व्यावसायिक संदर्भ में परिणाम दिए हैं; इसलिए हितधारकों को आश्वस्त किया जाएगा यदि वे सही प्रश्न पूछ रहे हैं और यहां तक कि दिलचस्प प्रवृत्तियों की खोज भी कर रहे हैं जिन्हें वे नहीं जानते थे।

सीधे शब्दों में कहें, खोजपूर्ण डेटा विश्लेषण यह सुनिश्चित करता है कि व्यावसायिक अधिकारियों को वे परिणाम मिल रहे हैं जिनकी वे तलाश कर रहे हैं और केवल डेटा एनालिटिक्स का उपयोग करके सही दिशा में जा रहे हैं। इसके अलावा, ईडीए को आसानी से बीआई सॉफ्टवेयर में और डैशबोर्डिंग उद्देश्यों के लिए शामिल किया जा सकता है, जो महत्वपूर्ण है जब एक आम आदमी यह जानना चाहता है कि कुछ मिनटों में क्या हो रहा है। डैशबोर्ड बनाने से सुंदर विज़ुअलाइज़ेशन और यह समझने में मदद मिलती है कि आगे क्या निर्णय लेने की आवश्यकता है।

स्वीटविज़ एक ओपन-सोर्स पायथन लाइब्रेरी है जो कोड की एक पंक्ति के साथ एक्सप्लोरेटरी डेटा एनालिसिस के लिए सुंदर, अत्यधिक विस्तृत विज़ुअलाइज़ेशन उत्पन्न करने में मदद करती है। यह एक सारांशित रिपोर्ट भी तैयार करता है और इंटरैक्टिव डैशबोर्ड बनाने में भी मदद कर सकता है। उत्पन्न आउटपुट पूरी तरह से स्व-निहित HTML अनुप्रयोग है। सिस्टम तेजी से रिपोर्ट बनाता है, लक्ष्य मूल्यों की कल्पना करता है और यहां तक कि डेटासेट की तुलना भी करता है। स्वीटविज़ का लक्ष्य लक्ष्य विशेषताओं, प्रशिक्षण बनाम परीक्षण डेटा, और ऐसे अन्य डेटा लक्षण वर्णन कार्यों का त्वरित विश्लेषण उत्पन्न करना है।

-लक्ष्य विश्लेषण बनाएं: बूलियन या संख्यात्मक लक्ष्य मान अन्य सुविधाओं से कैसे संबंधित हैं

-विभिन्न प्रकार के डेटासेट की कल्पना और तुलना करें: विशिष्ट डेटासेट (जैसे प्रशिक्षण बनाम परीक्षण डेटा) या इंट्रा-सेट विशेषताएँ (जैसे पुरुष बनाम महिला)

मिश्रित-प्रकार के संघों को खोजने के लिए: स्वीटविज़ संख्यात्मक संघों की खोज कर सकता है जैसे कि पियर्सन का सहसंबंध, श्रेणीबद्ध संघ जैसे अनिश्चितता गुणांक, और श्रेणीबद्ध-संख्यात्मक डेटा प्रकार सभी डेटा प्रकारों के लिए अधिकतम जानकारी प्रदान करने में मदद करने के लिए।

-खोज सारांश जानकारी जैसे कि प्रकार, अद्वितीय मान, लापता मान, डुप्लिकेट पंक्तियाँ, सबसे लगातार मान और संख्यात्मक विश्लेषण: न्यूनतम / अधिकतम / श्रेणी, चतुर्थक, माध्य, मोड, मानक विचलन, योग, माध्य निरपेक्ष विचलन, भिन्नता का गुणांक, कुर्टोसिस, तिरछापन

-अनुमान टाइप करें: SweetViz वैकल्पिक मैन्युअल ओवरराइड के साथ स्वचालित रूप से संख्यात्मक, श्रेणीबद्ध और टेक्स्ट सुविधाओं का पता लगाता है

SweetViz का उपयोग करके एक गहन खोजपूर्ण डेटा विश्लेषण बनाने का प्रयास करेंगे। हम SweetViz लाइब्रेरी का उपयोग करके अपने डेटा के चारों ओर एक डैशबोर्ड बनाने का प्रयास करेंगे और SweetViz की कुछ विशेषताओं की खोज करेंगे। निम्नलिखित कार्यान्वयन एक वीडियो ट्यूटोरियल से प्रेरित है, जिसका लिंक पाया जा सकता है

weetViz लाइब्रेरी को स्थापित करके शुरू करेंगे; इसके लिए आप निम्न कोड चला सकते हैं,

#installing the library

! pip install sweetviz

फिर हम आवश्यक निर्भरताएँ स्थापित करेंगे और अपना डेटासेट भी लोड करेंगे। यहां हम विश्लेषण करने के लिए पेंगुइन डेटासेट का उपयोग कर रहे हैं, जिसमें पेंगुइन के लिए सभी आवश्यक विवरण शामिल हैं जैसे कि उनकी प्रजातियां, द्वीप पाया गया, शरीर द्रव्यमान, लिंग और बहुत कुछ। हम निम्नलिखित डेटासेट के आसपास एक डैशबोर्ड बनाने का प्रयास करेंगे। आप यहां दिए गए लिंक का उपयोग करके निम्नलिखित डेटासेट डाउनलोड कर सकते हैं।

#importing dependencies

import pandas as pd

#loading the dataset

penguins = pd.read_csv('https://raw.githubusercontent.com/dataprofessor/data/master/penguins_cleaned.csv')

यहां हम अपने डेटासेट से पेंगुइन की प्रजातियों के बारे में तथ्यों की खोज करने की कोशिश करेंगे। इसलिए हम डेटासेट को X और Y में विभाजित करेंगे, जहां Y में पेंगुइन प्रजातियों से संबंधित सभी जानकारी होगी और X में अन्य जानकारी होगी।

# Separating X and y

X = penguins.drop('species', axis=1)

y = penguins['species']

#displaying data from X

Out put

जैसा कि हम देख सकते हैं कि इसमें मात्रात्मक और गुणात्मक डेटा दोनों शामिल हैं

पूरे डेटा को देखते हुए बाद में अंतर का विश्लेषण करने के लिए प्रजातियों के साथ डेटा विभाजन पर ईडीए करता है।

#data before split

penguins

dashboard on the data,

#creating a EDA report

import sweetviz as sv

analyze_report = sv.analyze(penguins)

analyze_report.show_html('analyze.html', open_browser=False)

Displaying Results,

import IPython

IPython.display.HTML('analyze.html')

Study page

Wednesday, 28 July 2021

step-by-step guide to the data analysis process

No comments:

Post a Comment

step-by-step guide to the data analysis process

About Me