డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ


డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ - Sketchnote by @nitya

ప్రీ-లెక్చర్ క్విజ్

డేటా లైఫ్‌సైకిల్‌లో విశ్లేషణ అనేది డేటా ప్రతిపాదించిన ప్రశ్నలకు సమాధానం ఇవ్వగలదా లేదా ఒక నిర్దిష్ట సమస్యను పరిష్కరించగలదా అని నిర్ధారిస్తుంది. ఈ దశ మోడల్ ఈ ప్రశ్నలు మరియు సమస్యలను సరిగ్గా పరిష్కరిస్తుందా అని నిర్ధారించడంపై కూడా దృష్టి పెట్టవచ్చు. ఈ పాఠం అన్వేషణాత్మక డేటా విశ్లేషణ లేదా EDA పై కేంద్రీకృతమై ఉంది, ఇవి డేటాలో లక్షణాలు మరియు సంబంధాలను నిర్వచించడానికి ఉపయోగించే సాంకేతికతలు మరియు మోడలింగ్ కోసం డేటాను సిద్ధం చేయడానికి ఉపయోగించవచ్చు.

మనం Kaggle నుండి ఒక ఉదాహరణ డేటాసెట్‌ను ఉపయోగించి ఇది Python మరియు Pandas లైబ్రరీతో ఎలా వర్తించవచ్చో చూపించబోతున్నాము. ఈ డేటాసెట్ ఇమెయిల్స్‌లో కనిపించే కొన్ని సాధారణ పదాల సంఖ్యను కలిగి ఉంది, ఈ ఇమెయిల్స్ మూలాలు అనామకంగా ఉన్నాయి. ఈ డైరెక్టరీలోని నోట్‌బుక్ ను అనుసరించండి.

అన్వేషణాత్మక డేటా విశ్లేషణ

లైఫ్‌సైకిల్ యొక్క క్యాప్చర్ దశలో డేటా సేకరించబడుతుంది అలాగే సమస్యలు మరియు ప్రశ్నలు కూడా ఉంటాయి, కానీ డేటా చివరి ఫలితాన్ని మద్దతు ఇవ్వగలదని ఎలా తెలుసుకోవాలి?
డేటా సైంటిస్ట్ డేటాను సేకరించినప్పుడు క్రింది ప్రశ్నలు అడగవచ్చు:

ఈ సమస్యను పరిష్కరించడానికి నాకు సరిపడా డేటా ఉందా?
ఈ సమస్యకు డేటా అంగీకారయోగ్యమైన నాణ్యత కలిగి ఉందా?
ఈ డేటా ద్వారా అదనపు సమాచారం కనుగొన్నట్లయితే, మనం లక్ష్యాలను మార్చడం లేదా పునర్నిర్వచించడం పరిగణించాలా?
అన్వేషణాత్మక డేటా విశ్లేషణ అనేది ఆ డేటాను తెలుసుకోవడంలో సహాయపడే ప్రక్రియ మరియు ఈ ప్రశ్నలకు సమాధానం ఇవ్వడానికి, అలాగే డేటాసెట్‌తో పని చేసే సవాళ్లను గుర్తించడానికి ఉపయోగపడుతుంది. దీన్ని సాధించడానికి ఉపయోగించే కొన్ని సాంకేతికతలపై దృష్టి పెట్టుకుందాం.

డేటా ప్రొఫైలింగ్, వివరణాత్మక గణాంకాలు, మరియు Pandas

ఈ సమస్యను పరిష్కరించడానికి సరిపడా డేటా ఉందా అని ఎలా అంచనా వేయాలి? డేటా ప్రొఫైలింగ్ వివరణాత్మక గణాంకాల సాంకేతికతల ద్వారా మన డేటాసెట్ గురించి కొన్ని సాధారణ సమాచారం సారాంశం చేయగలదు మరియు సేకరించగలదు. డేటా ప్రొఫైలింగ్ మనకు ఏమి అందుబాటులో ఉందో అర్థం చేసుకోవడంలో సహాయపడుతుంది, మరియు వివరణాత్మక గణాంకాలు మనకు ఎంతమంది వస్తున్నారో అర్థం చేసుకోవడంలో సహాయపడతాయి.

గత పాఠాలలో కొన్ని సందర్భాల్లో, మేము Pandas ఉపయోగించి describe() ఫంక్షన్ తో కొన్ని వివరణాత్మక గణాంకాలు అందించాము. ఇది సంఖ్యాత్మక డేటాపై కౌంట్, గరిష్ఠ మరియు కనిష్ఠ విలువలు, సగటు, ప్రమాణ విభిన్నం మరియు క్వాంటైల్‌లను అందిస్తుంది. describe() వంటి వివరణాత్మక గణాంకాలను ఉపయోగించడం మీ వద్ద ఎంత డేటా ఉందో అంచనా వేయడంలో మరియు మరింత అవసరమో లేదో తెలుసుకోవడంలో సహాయపడుతుంది.

నమూనా తీసుకోవడం మరియు ప్రశ్నించడం

పెద్ద డేటాసెట్‌లో ప్రతిదీ అన్వేషించడం చాలా సమయం తీసుకునే పని మరియు సాధారణంగా కంప్యూటర్‌కు అప్పగించబడే పని. అయితే, నమూనా తీసుకోవడం డేటాను అర్థం చేసుకోవడంలో సహాయపడే సాధనం మరియు డేటాసెట్‌లో ఏమి ఉందో మరియు అది ఏమి సూచిస్తున్నదో మెరుగ్గా అర్థం చేసుకోవడానికి అనుమతిస్తుంది. ఒక నమూనాతో, మీరు ప్రాబబిలిటీ మరియు గణాంకాలను వర్తింపజేసి మీ డేటా గురించి సాధారణ నిర్ణయాలకు రావచ్చు. మీరు ఎంత డేటా నమూనా తీసుకోవాలో నిర్దిష్ట నియమం లేదు కానీ మీరు ఎక్కువ డేటాను నమూనా తీసుకుంటే, మీరు డేటా గురించి సాధారణీకరణను మరింత ఖచ్చితంగా చేయగలుగుతారు.
Pandas లైబ్రరీలో sample() ఫంక్షన్ ఉంది, దీని ద్వారా మీరు ఎన్ని యాదృచ్ఛిక నమూనాలు కావాలో ఆర్గ్యుమెంట్‌గా ఇవ్వవచ్చు మరియు ఉపయోగించవచ్చు.

డేటాను సాధారణంగా ప్రశ్నించడం మీకు కొన్ని సాధారణ ప్రశ్నలు మరియు సిద్ధాంతాలకు సమాధానం ఇవ్వడంలో సహాయపడుతుంది. నమూనా తీసుకోవడానికి విరుద్ధంగా, ప్రశ్నలు మీరు డేటాలో మీకు ఆసక్తి ఉన్న నిర్దిష్ట భాగాలపై నియంత్రణ మరియు దృష్టి కల్పిస్తాయి.
Pandas లైబ్రరీలోని query() ఫంక్షన్ ద్వారా మీరు కాలమ్స్‌ను ఎంచుకుని, రోస్ ద్వారా డేటా గురించి సులభ సమాధానాలు పొందవచ్చు.

విజువలైజేషన్లతో అన్వేషణ

డేటా పూర్తిగా శుభ్రపరచబడిన మరియు విశ్లేషించబడిన తర్వాత మాత్రమే విజువలైజేషన్లు సృష్టించాల్సిన అవసరం లేదు. వాస్తవానికి, అన్వేషణ సమయంలో విజువల్ ప్రాతినిధ్యం ఉండటం డేటాలో నమూనాలు, సంబంధాలు మరియు సమస్యలను గుర్తించడంలో సహాయపడుతుంది. అదనంగా, విజువలైజేషన్లు డేటాను నిర్వహించడంలో పాల్గొనని వారితో కమ్యూనికేషన్ సాధనాన్ని అందిస్తాయి మరియు క్యాప్చర్ దశలో పరిష్కరించని అదనపు ప్రశ్నలను పంచుకోవడానికి మరియు స్పష్టత ఇవ్వడానికి అవకాశం కల్పిస్తాయి. మరింత తెలుసుకోవడానికి విజువలైజేషన్ల విభాగం ను చూడండి.

అసమంజసతలను గుర్తించడానికి అన్వేషణ

ఈ పాఠంలోని అన్ని అంశాలు మిస్సింగ్ లేదా అసమంజస విలువలను గుర్తించడంలో సహాయపడతాయి, కానీ Pandas కొన్ని ఫంక్షన్లను అందిస్తుంది వాటిని తనిఖీ చేయడానికి. isna() లేదా isnull() మిస్సింగ్ విలువలను తనిఖీ చేయగలవు. మీ డేటాలో ఈ విలువలు ఎందుకు అలాంటి స్థితిలో ఉన్నాయో అన్వేషించడం ఒక ముఖ్యమైన భాగం. ఇది మీరు వాటిని పరిష్కరించడానికి తీసుకోవాల్సిన చర్యలను నిర్ణయించడంలో సహాయపడుతుంది.

పోస్ట్-లెక్చర్ క్విజ్

అసైన్‌మెంట్

సమాధానాల కోసం అన్వేషణ

అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ

ప్రీ-లెక్చర్ క్విజ్

అన్వేషణాత్మక డేటా విశ్లేషణ

డేటా ప్రొఫైలింగ్, వివరణాత్మక గణాంకాలు, మరియు Pandas

నమూనా తీసుకోవడం మరియు ప్రశ్నించడం

విజువలైజేషన్లతో అన్వేషణ

అసమంజసతలను గుర్తించడానికి అన్వేషణ

పోస్ట్-లెక్చర్ క్విజ్

అసైన్‌మెంట్

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

డేటా సైన్స్ లైఫ్‌సైకిల్: విశ్లేషణ

ప్రీ-లెక్చర్ క్విజ్

అన్వేషణాత్మక డేటా విశ్లేషణ

డేటా ప్రొఫైలింగ్, వివరణాత్మక గణాంకాలు, మరియు Pandas

నమూనా తీసుకోవడం మరియు ప్రశ్నించడం

విజువలైజేషన్లతో అన్వేషణ

అసమంజసతలను గుర్తించడానికి అన్వేషణ

పోస్ట్-లెక్చర్ క్విజ్

అసైన్‌మెంట్