Skip to content

Latest commit

 

History

History
51 lines (34 loc) · 13.3 KB

File metadata and controls

51 lines (34 loc) · 13.3 KB

డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ

 Sketchnote by (@sketchthedocs)
డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ - Sketchnote by @nitya

డేటా లైఫ్‌సైకిల్‌లో విశ్లేషణ అనేది డేటా ప్రతిపాదించిన ప్రశ్నలకు సమాధానం ఇవ్వగలదా లేదా ఒక నిర్దిష్ట సమస్యను పరిష్కరించగలదా అని నిర్ధారిస్తుంది. ఈ దశ మోడల్ ఈ ప్రశ్నలు మరియు సమస్యలను సరిగ్గా పరిష్కరిస్తుందా అని నిర్ధారించడంపై కూడా దృష్టి పెట్టవచ్చు. ఈ పాఠం అన్వేషణాత్మక డేటా విశ్లేషణ లేదా EDA పై కేంద్రీకృతమై ఉంది, ఇవి డేటాలో లక్షణాలు మరియు సంబంధాలను నిర్వచించడానికి ఉపయోగించే సాంకేతికతలు మరియు మోడలింగ్ కోసం డేటాను సిద్ధం చేయడానికి ఉపయోగించవచ్చు.

మనం Kaggle నుండి ఒక ఉదాహరణ డేటాసెట్‌ను ఉపయోగించి ఇది Python మరియు Pandas లైబ్రరీతో ఎలా వర్తించవచ్చో చూపించబోతున్నాము. ఈ డేటాసెట్ ఇమెయిల్స్‌లో కనిపించే కొన్ని సాధారణ పదాల సంఖ్యను కలిగి ఉంది, ఈ ఇమెయిల్స్ మూలాలు అనామకంగా ఉన్నాయి. ఈ డైరెక్టరీలోని నోట్‌బుక్ ను అనుసరించండి.

అన్వేషణాత్మక డేటా విశ్లేషణ

లైఫ్‌సైకిల్ యొక్క క్యాప్చర్ దశలో డేటా సేకరించబడుతుంది అలాగే సమస్యలు మరియు ప్రశ్నలు కూడా ఉంటాయి, కానీ డేటా చివరి ఫలితాన్ని మద్దతు ఇవ్వగలదని ఎలా తెలుసుకోవాలి?
డేటా సైంటిస్ట్ డేటాను సేకరించినప్పుడు క్రింది ప్రశ్నలు అడగవచ్చు:

  • ఈ సమస్యను పరిష్కరించడానికి నాకు సరిపడా డేటా ఉందా?
  • ఈ సమస్యకు డేటా అంగీకారయోగ్యమైన నాణ్యత కలిగి ఉందా?
  • ఈ డేటా ద్వారా అదనపు సమాచారం కనుగొన్నట్లయితే, మనం లక్ష్యాలను మార్చడం లేదా పునర్నిర్వచించడం పరిగణించాలా?
    అన్వేషణాత్మక డేటా విశ్లేషణ అనేది ఆ డేటాను తెలుసుకోవడంలో సహాయపడే ప్రక్రియ మరియు ఈ ప్రశ్నలకు సమాధానం ఇవ్వడానికి, అలాగే డేటాసెట్‌తో పని చేసే సవాళ్లను గుర్తించడానికి ఉపయోగపడుతుంది. దీన్ని సాధించడానికి ఉపయోగించే కొన్ని సాంకేతికతలపై దృష్టి పెట్టుకుందాం.

డేటా ప్రొఫైలింగ్, వివరణాత్మక గణాంకాలు, మరియు Pandas

ఈ సమస్యను పరిష్కరించడానికి సరిపడా డేటా ఉందా అని ఎలా అంచనా వేయాలి? డేటా ప్రొఫైలింగ్ వివరణాత్మక గణాంకాల సాంకేతికతల ద్వారా మన డేటాసెట్ గురించి కొన్ని సాధారణ సమాచారం సారాంశం చేయగలదు మరియు సేకరించగలదు. డేటా ప్రొఫైలింగ్ మనకు ఏమి అందుబాటులో ఉందో అర్థం చేసుకోవడంలో సహాయపడుతుంది, మరియు వివరణాత్మక గణాంకాలు మనకు ఎంతమంది వస్తున్నారో అర్థం చేసుకోవడంలో సహాయపడతాయి.

గత పాఠాలలో కొన్ని సందర్భాల్లో, మేము Pandas ఉపయోగించి describe() ఫంక్షన్ తో కొన్ని వివరణాత్మక గణాంకాలు అందించాము. ఇది సంఖ్యాత్మక డేటాపై కౌంట్, గరిష్ఠ మరియు కనిష్ఠ విలువలు, సగటు, ప్రమాణ విభిన్నం మరియు క్వాంటైల్‌లను అందిస్తుంది. describe() వంటి వివరణాత్మక గణాంకాలను ఉపయోగించడం మీ వద్ద ఎంత డేటా ఉందో అంచనా వేయడంలో మరియు మరింత అవసరమో లేదో తెలుసుకోవడంలో సహాయపడుతుంది.

నమూనా తీసుకోవడం మరియు ప్రశ్నించడం

పెద్ద డేటాసెట్‌లో ప్రతిదీ అన్వేషించడం చాలా సమయం తీసుకునే పని మరియు సాధారణంగా కంప్యూటర్‌కు అప్పగించబడే పని. అయితే, నమూనా తీసుకోవడం డేటాను అర్థం చేసుకోవడంలో సహాయపడే సాధనం మరియు డేటాసెట్‌లో ఏమి ఉందో మరియు అది ఏమి సూచిస్తున్నదో మెరుగ్గా అర్థం చేసుకోవడానికి అనుమతిస్తుంది. ఒక నమూనాతో, మీరు ప్రాబబిలిటీ మరియు గణాంకాలను వర్తింపజేసి మీ డేటా గురించి సాధారణ నిర్ణయాలకు రావచ్చు. మీరు ఎంత డేటా నమూనా తీసుకోవాలో నిర్దిష్ట నియమం లేదు కానీ మీరు ఎక్కువ డేటాను నమూనా తీసుకుంటే, మీరు డేటా గురించి సాధారణీకరణను మరింత ఖచ్చితంగా చేయగలుగుతారు.
Pandas లైబ్రరీలో sample() ఫంక్షన్ ఉంది, దీని ద్వారా మీరు ఎన్ని యాదృచ్ఛిక నమూనాలు కావాలో ఆర్గ్యుమెంట్‌గా ఇవ్వవచ్చు మరియు ఉపయోగించవచ్చు.

డేటాను సాధారణంగా ప్రశ్నించడం మీకు కొన్ని సాధారణ ప్రశ్నలు మరియు సిద్ధాంతాలకు సమాధానం ఇవ్వడంలో సహాయపడుతుంది. నమూనా తీసుకోవడానికి విరుద్ధంగా, ప్రశ్నలు మీరు డేటాలో మీకు ఆసక్తి ఉన్న నిర్దిష్ట భాగాలపై నియంత్రణ మరియు దృష్టి కల్పిస్తాయి.
Pandas లైబ్రరీలోని query() ఫంక్షన్ ద్వారా మీరు కాలమ్స్‌ను ఎంచుకుని, రోస్ ద్వారా డేటా గురించి సులభ సమాధానాలు పొందవచ్చు.

విజువలైజేషన్లతో అన్వేషణ

డేటా పూర్తిగా శుభ్రపరచబడిన మరియు విశ్లేషించబడిన తర్వాత మాత్రమే విజువలైజేషన్లు సృష్టించాల్సిన అవసరం లేదు. వాస్తవానికి, అన్వేషణ సమయంలో విజువల్ ప్రాతినిధ్యం ఉండటం డేటాలో నమూనాలు, సంబంధాలు మరియు సమస్యలను గుర్తించడంలో సహాయపడుతుంది. అదనంగా, విజువలైజేషన్లు డేటాను నిర్వహించడంలో పాల్గొనని వారితో కమ్యూనికేషన్ సాధనాన్ని అందిస్తాయి మరియు క్యాప్చర్ దశలో పరిష్కరించని అదనపు ప్రశ్నలను పంచుకోవడానికి మరియు స్పష్టత ఇవ్వడానికి అవకాశం కల్పిస్తాయి. మరింత తెలుసుకోవడానికి విజువలైజేషన్ల విభాగం ను చూడండి.

అసమంజసతలను గుర్తించడానికి అన్వేషణ

ఈ పాఠంలోని అన్ని అంశాలు మిస్సింగ్ లేదా అసమంజస విలువలను గుర్తించడంలో సహాయపడతాయి, కానీ Pandas కొన్ని ఫంక్షన్లను అందిస్తుంది వాటిని తనిఖీ చేయడానికి. isna() లేదా isnull() మిస్సింగ్ విలువలను తనిఖీ చేయగలవు. మీ డేటాలో ఈ విలువలు ఎందుకు అలాంటి స్థితిలో ఉన్నాయో అన్వేషించడం ఒక ముఖ్యమైన భాగం. ఇది మీరు వాటిని పరిష్కరించడానికి తీసుకోవాల్సిన చర్యలను నిర్ణయించడంలో సహాయపడుతుంది.

అసైన్‌మెంట్

సమాధానాల కోసం అన్వేషణ


అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.