![]() |
|---|
| ការកំណត់វិទ្យាសាស្ត្រទិន្នន័យ - Sketchnote ដោយ @nitya |
នៅក្នុងជីវិតប្រចាំថ្ងៃរបស់យើង យើងតែងតែជុំវិញដោយទិន្នន័យ។ អត្ថបទដែលអ្នកកំពុងអានឥឡូវនេះគឺជាទិន្នន័យ។ បញ្ជីលេខទូរសព្ទ័របស់មិត្តភក្តិរបស់អ្នកនៅក្នុងស្មាតហ្វូនរបស់អ្នកគឺជាទិន្នន័យ ដូចជាឥឡូវនេះម៉ោងបង្ហាញនៅលើនาฬិការបស់អ្នកផងដែរ។ ជាមនុស្ស យើងធម្មតាជាមួយទិន្នន័យដោយរាប់ប្រាក់ដែលយើងមាន ឬដោយសរសេរពីសំបុត្រទៅមិត្តភក្តិរបស់យើង។
ទោះយ៉ាងណា ទិន្នន័យមានសារៈសំខាន់បន្ថែមឡើងជាងមុនជាមួយការបង្កើតកុំព្យូទ័រ។ តួនាទីសំខាន់របស់កុំព្យូទ័រគឺបំពេញការគណនា ប៉ុន្តែកុំព្យូទ័រត្រូវការទិន្នន័យដើម្បីដំណើរការ។ ដូចនេះ យើងត្រូវយល់ពីរបៀបដែលកុំព្យូទ័រផ្ទុក និងដំណើរការទិន្នន័យ។
ជាមួយការកើតមាននៃអ៊ិនធឺណេត តួនាទីរបស់កុំព្យូទ័រជាឧបករណ៍ដំណើរការទិន្នន័យក៏បានកើនឡើង។ ប្រសិនបើអ្នកគិតពីវា ឥឡូវនេះយើងប្រើកុំព្យូទ័រច្រើន និងច្រើនសម្រាប់ដំណើរការទិន្នន័យ និងការទំនាក់ទំនង មិនមែនគឺការគណនាពិតប្រាកដទេ។ ពេលយើងសរសេរអ៊ីមែលទៅមិត្តភក្តិ ឬស្វែងរកព័ត៌មានមួយនៅលើអ៊ិនធឺណេត - យើងគឺកំពុងបង្កើត ផ្ទុក ផ្ទេរ និងដំណើរការទិន្នន័យ។
តើអ្នកអាចចងចាំពេលចុងក្រោយដែលអ្នកបានប្រើកុំព្យូទ័រដើម្បីគណនារឿងមួយបានទេ?
នៅក្នុង វិគីភីឌា, វិទ្យាសាស្ត្រទិន្នន័យ ត្រូវបានកំណត់ជា វិស័យវិទ្យាសាស្ត្រមួយដែលប្រើវិធីសាស្ត្រវិទ្យាសាស្រ្តដើម្បីដាក់ទិន្នន័យដែលមានរចនាសម្ព័ន្ធនិងគ្មានរចនាសម្ព័ន្ធ ដើម្បីទាញយកចំណេះដឹង និងការយល់ដឹង និងអនុវត្តចំណេះដឹង និងការយល់ដឹងដែលអាចអនុវត្តបានពីទិន្នន័យ នៅក្នុងវិស័យអនុវត្តន៍ជាច្រើន។
ការកំណត់នេះបង្ហាញនូវមុខមាត់សំខាន់ៗដូចខាងក្រោមនៃវិទ្យាសាស្ត្រទិន្នន័យ៖
- គោលដៅសំខាន់នៃវិទ្យាសាស្ត្រទិន្នន័យគឺ ទាញយកចំណេះដឹង ពីទិន្នន័យ ឬថា - យល់ពី ទិន្នន័យ រកឃើញពាណិជ្ជកម្មលាក់ខ្លួន និងកសាង ម៉ូឌែល។
- វិទ្យាសាស្ត្រទិន្នន័យប្រើ វិធីសាស្ត្រវិទ្យាសាស្ត្រ ដូចជាភាពហានិភ័យ និងស្ថិតិយវិទ្យា។ ពិតណាស់ ពេលដែលពាក្យ វិទ្យាសាស្ត្រទិន្នន័យ ត្រូវបានណែនាំជាលើកដំបូង មានមនុស្សខ្លះបានជជែកថាវីទ្យាសាស្ត្រទិន្នន័យគ្រាន់តែជាឈ្មោះថ្មីសម្រាប់ស្ថិតិយវិទ្យា។ ប៉ុន្តែកាលពីពេលបច្ចុប្បន្ន វាបានជាក់លាក់ថាវិស័យនេះធំបំផុត។
- ចំណេះដឹងដែលទទួលបានគួរត្រូវបានអនុវត្តដើម្បីផលិតជាការយល់ដឹងដែលអាចអនុវត្តបាន ប្រសិនបើមានគឺជាការយល់ដឹងប្រតិបត្តិដែលអ្នកអាចប្រើបានក្នុងស្ថានភាពអាជីវកម្មពិត។
- យើងគួរតែអាចដំណើរការជាមួយទាំងទិន្នន័យដែលមាន រចនាសម្ព័ន្ធ និង គ្មានរចនាសម្ព័ន្ធ។ យើងនឹងត្រឡប់មកពិភាក្សាអំពីប្រភេទទិន្នន័យផ្សេងៗនៅពេលក្រោយក្នុងវគ្គសិក្សា។
- ដែនអនុវត្តន៍ គឺជាគំនិតសំខាន់មួយ ហើយអ្នកវិទ្យាសាស្ត្រទិន្នន័យភាគច្រើនត្រូវការមានវាយនភាពខ្លះបំផុតក្នុងដែនបញ្ហា ឧទាហរណ៍៖ ហិរញ្ញវត្ថុ វេជ្ជសាស្ត្រ ឬទីផ្សារ។
មុខមាត់សំខាន់មួយទៀតនៃវិទ្យាសាស្ត្រទិន្នន័យ គឺវាសិក្សារបៀបដែលទិន្នន័យអាចត្រូវបានប្រមូល ផ្ទុក និងដំណើរការដោយប្រើកុំព្យូទ័រ។ ខណៈដែលស្ថិតិយវិទ្យាប្រគល់មូលដ្ឋានគណិតវិទ្យា វិទ្យាសាស្ត្រទិន្នន័យនាំយកគំនិតគណិតវិទ្យាដើម្បីទាញយកចំណេះដឹងពីទិន្នន័យមែន។
វិធីមួយ (ដែលមានមូលដ្ឋានពី Jim Gray) ដើម្បីមើលវិទ្យាសាស្ត្រទិន្នន័យគឺជាវិធីសាស្ត្រផ្សេងទៀតនៃវិទ្យាសាស្ត្រ៖
- ការពិសោធន៍ផ្ទាល់ (Empirical) ដែលយើងផ្អែកគ្រប់គ្នាសម្រាប់ការសង្កេត និងលទ្ធផលនៃសាកល្បង។
- ទ្រឹស្តី (Theoretical) ដែលយើងបង្កើតគំនិតថ្មីពីចំណេះដឹងវិទ្យាសាស្ត្រមានស្រាប់។
- កុំព្យូទិក (Computational) ដែលយើងរកឃើញគោលការណ៍ថ្មីៗដោយផ្អែកលើការសាកល្បងកុំព្យូទិក។
- មូលដ្ឋានទិន្នន័យ (Data-Driven) ដែលផ្អែកលើការរកឃើញទំនាក់ទំនង និងគំរូទិន្នន័យ។
ដោយសារតែទិន្នន័យមាននៅគ្រប់ទីកន្លែង យ៉ាងហោចណាស់វិទ្យាសាស្ត្រទិន្នន័យផ្ទាល់ខ្លួនក៏ជាវិស័យធំបែបធំ ដែលប៉ះពាល់ដល់វិស័យផ្សេងៗជាច្រើន។
- មូលដ្ឋានទិន្នន័យ (Databases)
- ការបញ្ចូនចិត្តសំខាន់គឺ របៀបផ្ទុក ទិន្នន័យ វានៅក្នុងរូបមន្តណាមួយដែលអាចដំណើរការបានយ៉ាងលឿន។ មានប្រភពមូលដ្ឋានទិន្នន័យផ្សេងៗដែលផ្ទុកទិន្នន័យមានរចនាសម្ព័ន្ធ និងគ្មានរចនាសម្ព័ន្ធ ដែល យើងនឹងពិចារណាក្នុងវគ្គសិក្សារបស់យើង។
- ទិន្នន័យធំ (Big Data)
- ម្តងម្ដែង យើងត្រូវរក្សាទិន្នន័យច្រើនខ្លាំងក្នុងរចនាសម្ព័ន្ធសាមញ្ញ។ មានវិធីសាស្ត្រ និងឧបករណ៍ពិសេសដើម្បីទុកទិន្នន័យនោះលើកុំព្យូទ័រច្រើនប្រព្រឹត្តទៅ ហើយដំណើរការយ៉ាងមានប្រសិទ្ធភាព។
- ការរៀនម៉ាស៊ីន (Machine Learning)
- វិធីដើម្បីយល់ពីទិន្នន័យគឺ កសាងម៉ូឌែល ដែលអាចព្យាករណ៍លទ្ធផលដែលចង់បាន។ ការបង្កើតម៉ូឌែលពីទិន្នន័យហៅថា ការរៀនម៉ាស៊ីន។ អ្នកអាចចង់មើលប្រមុខមុខវិជ្ជា Machine Learning for Beginners ដើម្បីរៀនបន្ថែម។
- បញ្ញាសិប្បនិម្មិត (Artificial Intelligence)
- វិស័យមួយនៃការរៀនម៉ាស៊ីនគឺបញ្ញាសិប្បនិម្មិត (AI) ក៏ផ្អែកលើទិន្នន័យ ហើយវាអំពាវនាវការកសាងម៉ូឌែលស្មុគស្មាញខ្ពស់ដូចជាគំនិតគិតរបស់មនុស្ស។ វិធីសាស្ត្រ AI ជាញឹកញាប់អនុញ្ញាតឲ្យយើងបម្លែងទិន្នន័យគ្មានរចនាសម្ព័ន្ធ (ដូចជាភាសាជាតិត្រង់) ទៅជាការយល់ដឹងដែលមានរចនាសម្ព័ន្ធ។
- ការតំណាងទិន្នន័យ (Visualization)
- ទិន្នន័យច្រើនធំទូលាយលំបាកយល់សម្រាប់មនុស្ស ប៉ុន្តិប៉ុន្មានពេលដែលយើងបង្កើតការតំណាងប្រយោជន៍ពីទិន្នន័យនោះ យើងអាចយល់បានល្អប្រសើរពីទិន្នន័យ និងធ្វើចំណាំកំណត់សម្រេច។ ដូច្នេះ វាសំខាន់ក្នុងការដឹងពីវិធីសាស្ត្រច្រើនក្នុងការតំណាងព័ត៌មាន - អ្វីដែលយើងនឹងពិភាក្សានៅ ផ្នែក 3 នៃវគ្គសិក្សារបស់យើង។ វិស័យទាក់ទងផ្សេងទៀតរួមមាន Infographics និង Human-Computer Interaction ទូទៅ។
ដូចដែលយើងបានរៀបរាប់រួចមកទេ ទិន្នន័យមាននៅគ្រប់ទីកន្លែង។ យើងតែត្រូវចាប់យកវាតាមរបៀបត្រឹមត្រូវ! វាជាគន្លងមានប្រយោជន៍ក្នុងការបែងចែកទិន្នន័យជា មានរចនាសម្ព័ន្ធ និង គ្មានរចនាសម្ព័ន្ធ។ ប្រភេទមុនសំដៅលើទម្រង់ដែលមានរចនាសម្ព័ន្ធល្អ ជាទូទៅជាតារាង ឬចំនួនតារាង ខណៈដែលប្រភេទក្រោយគ្រាន់តែជាការប្រមូលផ្គុំឯកសារ។ ពេលខ្លះវានៅមានចំណែកជា ឆ្វេងតាំងរចនាសម្ព័ន្ធ ដែលមានរចនាសម្ព័ន្ធមួយណាមួយដែលអាចខុសគ្នាខ្លាំង។
| មានរចនាសម្ព័ន្ធ | ឆ្វេងតាំងរចនាសម្ព័ន្ធ | គ្មានរចនាសម្ព័ន្ធ |
|---|---|---|
| បញ្ជីមនុស្សជាមួយលេខទូរសព្ទ័ររបស់ពួកគេ | ទំព័រវិគីភីឌាជាមួយតំណភ្ជាប់ | អត្ថបទព្រះរាជាណាចក្រអង់គ្លេស Britannica |
| សីតុន្ថាននៅក្នុងបន្ទប់ទាំងអស់នៃអាគារទាំងមូលក្នុងមួយនាទីសម្រាប់រយៈពេល 20 ឆ្នាំចុងក្រោយ | ប្រមូលផ្តុំអត្ថបទវិទ្យាសាស្ត្រជាទម្រង់ JSON មានអ្នកនិពន្ធ ថ្ងៃខែឆ្នាំផ្សាយ និងសេចក្ដីសង្ខេប | ការចែករំលែកឯកសារជាមួយឯកសារពាណិជ្ជកម្ម |
| ទិន្នន័យអាយុ និងស្រី ភេទរបស់មនុស្សទាំងអស់ដែលចូលទៅក្នុងអាគារ | ទំព័រអ៊ិនធឺណេត | វីដេអូធម្មជាតិពីកាមេរ៉ាស្ងោចរក្សា |
មានប្រភពទិន្នន័យជាច្រើន ហើយវានឹងមិនអាចរាប់បញ្ចូលគ្រប់អ្វីបានទេ! ទោះបីជាយ៉ាងណា យើងនឹងរាយបញ្ជីពីកន្លែងធម្មតាដែលអ្នកអាចទាញយកទិន្នន័យ៖
- មានរចនាសម្ព័ន្ធ
- Internet of Things (IoT) រួមមានទិន្នន័យពីឧបករណ៍ស័ង្កសម្រាប់តាមដានផ្សេងៗ ដូចជាសវន្តុភាពឬសម្ពាធផ្តល់នូវទិន្នន័យដែលមានប្រយោជន៍។ ឧទាហរណ៍ បើស្ថាបនាការិយាល័យមានឧបករណ៍ IoT យើងអាចគ្រប់គ្រងកម្តៅ និងការចាក់ភ្លើងដោយស្វ័យប្រវត្តិ ដើម្បីបន្ថយការចំណាយ។
- ការស្ទង់មតិ ដែលយើងស្នើសុំអ្នកប្រើបញ្ចប់បន្ទាប់ពីការទិញ អូរឬបន្ទាប់ពីទស្សនាគេហទំព័រ។
- វិភាគអាកប្បកិរិយា អាចជួយយើងយល់ថាអ្នកប្រើចូលរួមក្នុងគេហទំព័រយ៉ាងជ្រាលជ្រៅ និងហេតុផលធម្មតាសម្រាប់លាចាកចោលគេហទំព័រ។
- គ្មានរចនាសម្ព័ន្ធ
- អត្ថបទ អាចជាផ្ទៃដីសម្បូរបែបនៃការយល់ដឹង ដូចជាពិន្ទុអារម្មណ៍សរុប ឬការទាញយកពាក្យគន្លឹះ និងន័យផ្ទាល់ខ្លួន។
- រូបភាព ឬ វីដេអូ វីដេអូពីកាមេរ៉ាស្ងោចរក្សាអាចប្រើសម្រាប់វាស់វិញ្ញាណចរាចរណ៍លើផ្លូវ និងជូនដំណឹងអំពីចរាចរណ៍តំណក់ខ្លះ។
- កំណត់ហេតុបម្រើគេហទំព័រ (Logs) អាចប្រើសម្រាប់យល់ថាតើទំព័រណានៃគេហទំព័រយើងត្រូវបានចូលមើលខ្ពស់បំផុត និងរយៈពេលប៉ុន្មាន។
- ឆ្វេងតាំងរចនាសម្ព័ន្ធ
- ក្រាហ្វបណ្តាញសង្គមអាចជាផ្ទាំងប្រភពទិន្នន័យល្អសម្រាប់យល់អំពីបុគ្គលភាពអ្នកប្រើ និងប្រសិទ្ធភាពក្នុងការចែកចាយព័ត៌មាន។
- ពេលយើងមានរូបថតជាច្រើនពីការប្រជុំ យើងអាចព្យាយាមទាញយកទិន្នន័យ សារសំឡេងក្រុម ដោយកសាងក្រាហ្វមនុស្សដែលថតរូបជាមួយគ្នា។
ដោយដឹងពីប្រភពទិន្នន័យផ្សេងៗ អ្នកអាចពិចារណាពីសេណារីយ៉ូផ្សេងៗដែលបច្ចេកទេសវិទ្យាសាស្ត្រទិន្នន័យអាចអនុវត្តបាន ដើម្បីយល់បរិបទល្អប្រសើរជាងមុន និងបង្កើនដើមថ្នល់អាជីវកម្ម។
ក្នុងវិទ្យាសាស្ត្រទិន្នន័យ យើងផ្តោតលើជំហានខាងក្រោមនៃការធ្វើដំណើរទិន្នន័យ៖
- ១) ការប្រមូលទិន្នន័យ (Data Acquisition)
- ជំហានដំបូងគឺ ប្រមូលទិន្នន័យ។ បើសិនជាករណីជាច្រើន វាអាចជាព្រះបញ្ញាដំណើរការងាយស្រួល ដូចជាទិន្នន័យចេញពីកម្មវិធីវេបកម្ពុជទៅមូលដ្ឋានទិន្នន័យ ក៏ប៉ុន្តែនៅពេលខ្លះ យើងត្រូវប្រើវិធីសាស្ត្រពិសេស។ ឧទាហរណ៍ ទិន្នន័យពីឧបករណ៍ IoT អាចច្រើនខ្លាំង ហើយវាជារបៀបល្អក្នុងការប្រើបញ្ចប់ប៊ុហ្វឺរដូចជា IoT Hub ដើម្បីប្រមូលទិន្នន័យទាំងអស់មុនពេលដំណើរការបន្ថែម។
- ២) ការផ្ទុកទិន្នន័យ (Data Storage)
-
ការផ្ទុកទិន្នន័យអាចជាលំបាក ជាពិសេសប្រសិនបើយើងនិយាយអំពីទិន្នន័យធំ។ ពេលសម្រេចចិត្តពីរបៀបផ្ទុកទិន្នន័យ វាសមរម្យក្នុងការចាត់ទុករបៀបដែលអ្នកចង់សួរទិន្នន័យនៅថ្ងៃអនាគត។ មានវិធីច្រើនក្នុងការផ្ទុកទិន្នន័យ៖
- មូលដ្ឋានទិន្នន័យទំនាក់ទំនងផ្ទុកកំណត់តាលាងមួយជាច្រើន ហើយប្រើភាសាពិសេសដែលហៅថា SQL ដើម្បីសួរកំណត់តាលាង។ ជាទូទៅ កំណត់តាលាងត្រូវបានរៀបចំជាច្រើនក្រុមហៅថា schemas។ នៅក្នុងករណីជាច្រើន យើងត្រូវបំលែងទិន្នន័យពីទម្រង់ដើមឲ្យត្រូវនឹង schema។
- មូលដ្ឋានទិន្នន័យ NoSQL ដូចជា CosmosDB មិនដាក់កំណត់ schema លើទិន្នន័យនោះទេ ហើយអនុញ្ញាតឲ្យផ្ទុកទិន្នន័យស្មុគស្មាញជាងមុន ដូចជាឯកសារ JSON ជារចនាសម្ព័ន្ធដំណាក់កាល ឬក្រាហ្វ។ ប៉ុន្តែមូលដ្ឋានទិន្នន័យ NoSQL មិនមានសមត្ថភាពសួរច្រើនដូច SQL និងមិនផ្ដល់កត្តានៃភាពសម្របសម្រួលរវាងតារាង រួមទាំងច្បាប់ភាពយល់ព្រមពីរបៀបដែលទិន្នន័យទាន់សម័យក្នុងតារាងនិងគ្រប់គ្រងទំនាក់ទំនងរវាងតារាងទេ។
- ទឹកស្តុកទិន្នន័យ (Data Lake) ត្រូវបានប្រើសម្រាប់ប្រមូលផ្តុំទិន្នន័យធំៗក្នុងទម្រង់មិនរចនាសម្ព័ន្ធសម្រាប់ទិន្នន័យធំ ដែលមិនអាចផ្ទុកផ្ទាល់នៅលើម៉ាស៊ីនម្នាក់បាន ហើយត្រូវបានប្រើរួមជាមួយក្រុមម៉ាស៊ីនបម្រើ។ Parquet គឺជាទម្រង់ទិន្នន័យដែលត្រូវបានប្រើជាញឹកញាប់ជាមួយទិន្នន័យធំ។
- ៣) ការដំណើរការទិន្នន័យ (Data Processing)
- នេះជាផ្នែកគួរឱ្យរំភើបបំផុតនៃដំណើរទិន្នន័យ ដែលពាក់ព័ន្ធនឹងការបំលែងទិន្នន័យពីទម្រង់ដើមទៅទម្រង់ដែលអាចប្រើសម្រាប់ការតំណាង/បណ្តុះបណ្តាលម៉ូឌែល។ បើទិន្នន័យគ្មានរចនាសម្ព័ន្ធដូចជាអត្ថបទ ឬរូបភាព យើងប្រហែលត្រូវប្រើបច្ចេកទេស AI ឆែកយក លក្ខណៈសម្បត្តិ ពីទិន្នន័យ ដូច្នេះបំលែងវាជារចនាសម្ព័ន្ធត្រឹមត្រូវ។
- ៤) ការតំណាង / ការយល់ដឹងមនុស្ស
- ជាញឹកញាប់ ដើម្បីយល់ពីទិន្នន័យ យើងត្រូវតំណាងវា។ មានបច្ចេកទេសតំណាងច្រើននៅក្នុងឧបករណ៍ស្ដុករបស់យើង យើងអាចរកទស្សនៈត្រឹមត្រូវដើម្បីបង្កើតការយល់ចិត្តល្អ។ ជាញឹកញាប់ អ្នកវិទ្យាសាស្ត្រទិន្នន័យត្រូវ "លេងជាមួយទិន្នន័យ" តំណាងវាច្រើនដង ហើយស្វែងរកទំនាក់ទំនងមួយចំនួន។ ក៏ដូចជាយើងប្រើបច្ចេកវិទ្យាស្ថិតិ ដើម្បីសាកល្បងសន្មត ឬបង្ហាញពីការទាក់ទងរវាងបំណែកទិន្នន័យផ្សេងៗ។
- ៥) បណ្តុះបណ្តាលម៉ូឌែលទស្សន៍ទាយ
- ដោយសារគោលដៅចុងក្រោយនៃវិទ្យាសាស្ត្រទិន្នន័យគឺឲ្យអាចធ្វើសម្រេចចិត្តដោយផ្អែកលើទិន្នន័យ យើងអាចចង់ប្រើបច្ចេកទេស ការរៀនម៉ាស៊ីន ដើម្បីកសាងម៉ូឌែលទស្សន៍ទាយ។ បន្ទាប់មកយើងអាចប្រើវាដើម្បីទស្សន៍ទាយដោយប្រើសំណុំទិន្នន័យថ្មីដែលមានរចនាសម្ព័ន្ធដូចគ្នា។
នៅពិតប្រាកដ អាស្រ័យលើទិន្នន័យពិតប្រាកដ មួយចំនួនជំហានអាចគ្មាន (ឧ. ពេលដែលយើងមានទិន្នន័យរួចនៅក្នុងមូលដ្ឋានទិន្នន័យ ឬពេលដែលមិនត្រូវការបណ្តុះបណ្តាលម៉ូឌែលទេ) ឬជំហានមួយចំនួនអាចត្រូវធ្វើម្តងសងអស់ច្រើនដង (ដូចជា ការដំណើរការទិន្នន័យ)។
ក្នុងសតវត្សទីបី ក្រុមហ៊ុនជាច្រើនបានចាប់ផ្តើមយល់ពីសារៈសំខាន់របស់ទិន្នន័យនៅពេលធ្វើសម្រេចចិត្តអាជីវកម្ម។ ដើម្បីអនុវត្តវិធានការវិទ្យាសាស្ត្រទិន្នន័យលើការជួបប្រជុំអាជីវកម្ម អ្នកត្រូវតែចាប់ផ្តើមដោយប្រមូលទិន្នន័យមួយចំនួន ឬបម្លែងដំណើរការអាជីវកម្មទៅជាទម្រង់ឌីជីថល។ វាគឺហៅថា ការឌីជីថល។ ការអនុវត្តបច្ចេកទេសវិទ្យាសាស្ត្រទិន្នន័យទៅលើទិន្នន័យនេះដើម្បីណែនាំការសម្រេចចិត្ត អាចនាំឲ្យមានកំណើនប្រសិទ្ធភាពយ៉ាងច្រើន (ឬដ zelfs ការបម្លែងអាជីវកម្ម) ហៅថា ការបម្លែងឌីជីថល។
យើងចូលចិត្តបង្ហាញឧទាហរណ៍មួយ។ បើសិនជាយើងមានវគ្គសិក្សាវិទ្យាសាស្ត្រទិន្នន័យ (ដូចនេះ) ដែលយើងផ្តល់ជូនតាមអនឡាញសិស្ស ហើយយើងចង់ប្រើវិទ្យាសាស្ត្រទិន្នន័យដើម្បីធ្វើឲ្យវល្អប្រសើរឡើង។ តើយើងធ្វើបែបណា?
យើងអាចចាប់ផ្តើមដោយសួរ "តើអ្វីដែលអាចត្រូវបានបំលែងជាឌីជីថល?" របៀបសាមញ្ញបំផុតគឺវាស់ពេលវេលាដែលសិស្សម្នាក់ៗចំណាយក្នុងការបញ្ចប់មេរៀនមួយ និងវាស់ចំណេះដឹងដែលទទួលបានដោយផ្តល់លទ្ធផលតេស្តជាច្រើនជម្រើសនៅចុងមេរៀននីមួយៗ។ ដោយគណនាពេលវេលាเฉลี่ยទាំងអស់នៃសិស្សទាំងអស់ យើងអាចរកឃើញថា មេរៀនណាដែលមានភាពពិបាកបំផុតសម្រាប់សិស្ស ហើយធ្វើការកែលម្អវា។
អ្នកអាចធ្វើអោយផ្ទាចថាវិធីនេះមិនល្អនៅព្រោះម៉ូឌុលអាចមានកម្ពស់ខុសៗគ្នា។ វាអាចពិតជាយល់សមរម្យជាងក្នុងការបែងចែកពេលវេលាតាមរយៈប្រវែងម៉ូឌុល (ក្នុងចំនួនតួអក្សរ) ហើយប្រៀបធៀបតម្លៃទាំងនោះជំនួស។
នៅពេលយើងចាប់ផ្តើមវិភាគលទ្ធផលនៃតេស្តជ្រើសរើសចម្លើយច្រើន យើងអាចព្យាយามកំណត់ថាភាពយល់ច្រឡំអ្វីខ្លះដែលសិស្សមាន ក៏ដូចជាការប្រើប្រាស់ព័ត៌មាននោះ ដើម្បីកែលម្អមាតិកា។ ដើម្បីធ្វើអោយបានដូច្នោះ យើងត្រូវរចនាតេស្តក្នុងវិធីដែលសំណួរពីរបីត្រូវដាក់ទៅជាមួយគំនិត ឬចំណុចចំណេះដឹងមួយ។
បើសិនចង់ធ្វើអោយកាន់តែស្មុគស្មាញ យើងអាចគូសជាមួយពេលវេលាដែលចំណាយសម្រាប់ម៉ូឌុលមួយៗ ប្រៀបធៀបទៅនឹងវ័យរបស់សិស្ស។ យើងអាចស្វែងរកថាសម្រាប់វ័យខ្លះៗ វាត្រូវចំណាយពេលយូរពេកក្នុងការបញ្ចប់ម៉ូឌុល ឬសិស្សបោះបង់មុនពេលបញ្ចប់វា។ នេះអាចជួយផ្តល់នូវការផ្ដល់អនុសាសន៍អាយុសម្រាប់ម៉ូឌុល និងកាត់បន្ថយការមិនពេញចិត្តពីការរំពឹងយ៉ាងខុស។
នៅក្នុងការប្រកួតនេះ យើងនឹងព្យាយាមស្វែងរកគំនិតដែលពាក់ព័ន្ធនឹងវិស័យ Data Science ដោយមើលតាមអត្ថបទ។ យើងនឹងយកអត្ថបទវិចិប៊ីគីពី Data Science ទាញយក និងដំណើរការអត្ថបទ ហើយបង្កើតមេឃពាក្យដូចជា:
ចូលទៅកាន់ notebook.ipynb ដើម្បីអានកូដ។ អ្នកក៏អាចដំណើរការកូដ វានឹងបង្ហាញពីរបៀបកែប្រែទិន្នន័យទាំងអស់ដោយផ្ទាល់។
បើអ្នកមិនដឹងរបៀបដំណើរការកូដក្នុង Jupyter Notebook ទេ សូមពិនិត្យមើល អត្ថបទនេះ។
- កិច្ចការ ១៖ កែប្រែកូដខាងលើ ដើម្បីស្វែងរកគំនិតពាក់ព័ន្ធសម្រាប់វិស័យ Big Data និង Machine Learning
- កិច្ចការ ២៖ គិតអំពីសណ្ឋានភាព Data Science
មេរៀននេះត្រូវបានបង្កើតដោយសេចក្តីស្រលាញ់
ការបដិសេធ៖
ឯកសារនេះត្រូវបានប្រែសម្រួលតាមសេវាកម្មប្រែសម្រួល AI Co-op Translator។ ខណៈដែលយើងព្យាយាមធ្វើឱ្យត្រឹមត្រូវ សូមយល់ព្រមថាការប្រែសម្រួលស្វ័យប្រវត្តិអាចមានកំហុស ឬការមិនត្រឹមត្រូវ។ ឯកសារមូលដ្ឋានក្នុងភាសាដើមរបស់វាគួរត្រូវបានពិចារណាជាប្រភពផ្លូវការ។ សម្រាប់ព័ត៌មានសំខាន់ៗ ការប្រែសម្រួលដោយមនុស្សជំនាញកាន់តែត្រូវបានផ្ដល់អាទិភាព។ យើងមិនទទួលខុសត្រូវចំពោះការយល់ច្រឡំ ឬការបកស្រាយខុសៗដែលកើតមានពីការប្រើប្រាស់ការប្រែសម្រួលនេះឡើយ។


