Skip to content

Latest commit

 

History

History
262 lines (185 loc) · 31.3 KB

File metadata and controls

262 lines (185 loc) · 31.3 KB

Khoa học dữ liệu cho người mới bắt đầu - Chương trình học

Open in GitHub Codespaces

GitHub license GitHub contributors GitHub issues GitHub pull-requests PRs Welcome

GitHub watchers GitHub forks GitHub stars

Microsoft Foundry Discord

Microsoft Foundry Developer Forum

Các Nhà vận động Điện toán Đám mây Azure tại Microsoft vui mừng giới thiệu một chương trình học 10 tuần, 20 bài học hoàn toàn về Khoa học Dữ liệu. Mỗi bài học bao gồm các bài kiểm tra trước và sau bài học, hướng dẫn bằng văn bản để hoàn thành bài học, một giải pháp và một bài tập. Phương pháp giảng dạy dựa trên dự án cho phép bạn học đồng thời với việc xây dựng, một cách đã được chứng minh để các kỹ năng mới được "giữ lại".

Chân thành cảm ơn các tác giả của chúng tôi: Jasmine Greenaway, Dmitry Soshnikov, Nitya Narasimhan, Jalen McGee, Jen Looper, Maud Levy, Tiffany Souterre, Christopher Harrison.

🙏 Đặc biệt cảm ơn 🙏 các tác giả, người đánh giá và đóng góp nội dung Microsoft Student Ambassador, nổi bật là Aaryan Arora, Aditya Garg, Alondra Sanchez, Ankita Singh, Anupam Mishra, Arpita Das, ChhailBihari Dubey, Dibri Nsofor, Dishita Bhasin, Majd Safi, Max Blum, Miguel Correa, Mohamma Iftekher (Iftu) Ebne Jalal, Nawrin Tabassum, Raymond Wangsa Putra, Rohit Yadav, Samridhi Sharma, Sanya Sinha, Sheena Narula, Tauqeer Ahmad, Yogendrasingh Pawar , Vidushi Gupta, Jasleen Sondhi

Sketchnote by @sketchthedocs https://sketchthedocs.dev
Khoa học dữ liệu cho người mới bắt đầu - Sketchnote bởi @nitya

🌐 Hỗ trợ đa ngôn ngữ

Hỗ trợ qua GitHub Action (Tự động & Luôn cập nhật)

Arabic | Bengali | Bulgarian | Burmese (Myanmar) | Chinese (Simplified) | Chinese (Traditional, Hong Kong) | Chinese (Traditional, Macau) | Chinese (Traditional, Taiwan) | Croatian | Czech | Danish | Dutch | Estonian | Finnish | French | German | Greek | Hebrew | Hindi | Hungarian | Indonesian | Italian | Japanese | Kannada | Khmer | Korean | Lithuanian | Malay | Malayalam | Marathi | Nepali | Nigerian Pidgin | Norwegian | Persian (Farsi) | Polish | Portuguese (Brazil) | Portuguese (Portugal) | Punjabi (Gurmukhi) | Romanian | Russian | Serbian (Cyrillic) | Slovak | Slovenian | Spanish | Swahili | Swedish | Tagalog (Filipino) | Tamil | Telugu | Thai | Turkish | Ukrainian | Urdu | Vietnamese

Ưu tiên sao chép về máy?

Kho lưu trữ này bao gồm hơn 50 bản dịch ngôn ngữ làm tăng kích thước tải xuống đáng kể. Để sao chép mà không có bản dịch, hãy sử dụng sparse checkout:

Bash / macOS / Linux:

git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
cd Data-Science-For-Beginners
git sparse-checkout set --no-cone '/*' '!translations' '!translated_images'

CMD (Windows):

git clone --filter=blob:none --sparse https://github.com/microsoft/Data-Science-For-Beginners.git
cd Data-Science-For-Beginners
git sparse-checkout set --no-cone "/*" "!translations" "!translated_images"

Điều này cung cấp cho bạn tất cả những gì bạn cần để hoàn thành khóa học với tốc độ tải xuống nhanh hơn nhiều.

Nếu bạn muốn có thêm các ngôn ngữ bản dịch, các ngôn ngữ được hỗ trợ được liệt kê tại đây

Tham gia Cộng đồng của chúng tôi

Microsoft Foundry Discord

Chúng tôi đang có một loạt chương trình học trên Discord với chủ đề học cùng AI, tìm hiểu thêm và tham gia cùng chúng tôi tại Learn with AI Series từ ngày 18 - 30 tháng 9 năm 2025. Bạn sẽ nhận được các mẹo và thủ thuật sử dụng GitHub Copilot cho Khoa học Dữ liệu.

Learn with AI series

Bạn là sinh viên?

Bắt đầu với các tài nguyên sau:

  • Trang Trung tâm Sinh viên Trong trang này, bạn sẽ tìm thấy các tài nguyên cho người mới bắt đầu, các bộ tài liệu dành cho sinh viên và thậm chí các cách để lấy voucher chứng nhận miễn phí. Đây là một trang bạn nên đánh dấu trang và kiểm tra định kỳ vì chúng tôi thay đổi nội dung ít nhất mỗi tháng.
  • Microsoft Learn Student Ambassadors Tham gia cộng đồng đại sứ sinh viên toàn cầu, đây có thể là con đường dẫn bạn đến Microsoft.

Bắt đầu

📚 Tài liệu

👨‍🎓 Dành cho Sinh viên

Hoàn toàn mới: Mới với khoa học dữ liệu? Bắt đầu với các ví dụ thân thiện với người mới bắt đầu! Những ví dụ đơn giản, có chú thích đầy đủ này sẽ giúp bạn hiểu được cơ bản trước khi bước vào toàn bộ chương trình học. Sinh viên: để sử dụng chương trình học này một mình, hãy fork toàn bộ repo và hoàn thành các bài tập một mình, bắt đầu bằng bài kiểm tra trước bài giảng. Sau đó đọc bài giảng và hoàn thành các hoạt động còn lại. Cố gắng tạo ra các dự án bằng cách hiểu bài học hơn là sao chép mã giải pháp; tuy nhiên, mã đó có sẵn trong các thư mục /solutions trong mỗi bài học theo dự án. Một ý tưởng khác là thành lập nhóm học cùng bạn bè và cùng nhau học nội dung. Để học sâu hơn, chúng tôi khuyên bạn nên dùng Microsoft Learn.

Bắt đầu nhanh:

  1. Xem Hướng dẫn cài đặt để thiết lập môi trường của bạn
  2. Xem qua Hướng dẫn sử dụng để học cách làm việc với chương trình học
  3. Bắt đầu với Bài học 1 và làm tuần tự
  4. Tham gia cộng đồng Discord để được hỗ trợ

👩‍🏫 Dành cho Giáo viên

Giáo viên: chúng tôi đã bao gồm một số gợi ý về cách sử dụng chương trình giảng dạy này. Chúng tôi rất mong nhận được phản hồi của bạn trong diễn đàn thảo luận của chúng tôi!

Gặp gỡ Đội ngũ

Video giới thiệu

Gif bởi Mohit Jaisal

🎥 Nhấp vào hình ảnh phía trên để xem video về dự án và những người đã tạo ra nó!

Phương pháp giảng dạy

Chúng tôi đã chọn hai nguyên tắc giảng dạy khi xây dựng chương trình này: đảm bảo rằng nó dựa trên dự án và bao gồm các bài kiểm tra thường xuyên. Đến cuối loạt bài này, học sinh sẽ học được các nguyên tắc cơ bản của khoa học dữ liệu, bao gồm các khái niệm đạo đức, chuẩn bị dữ liệu, các cách khác nhau để làm việc với dữ liệu, trực quan hóa dữ liệu, phân tích dữ liệu, các trường hợp sử dụng thực tế của khoa học dữ liệu và nhiều hơn nữa.

Ngoài ra, một bài kiểm tra nhẹ nhàng trước khi lên lớp sẽ thiết lập mục đích học tập của học viên về một chủ đề, trong khi bài kiểm tra thứ hai sau lớp đảm bảo việc ghi nhớ lâu hơn. Chương trình này được thiết kế linh hoạt và vui nhộn và có thể được học toàn bộ hoặc từng phần. Các dự án bắt đầu nhỏ và trở nên phức tạp hơn theo chu kỳ 10 tuần.

Tìm Bộ quy tắc ứng xử, Hướng dẫn đóng góp, Dịch thuật của chúng tôi. Chúng tôi rất hoan nghênh phản hồi xây dựng của bạn!

Mỗi bài học bao gồm:

  • Ghi chú tóm tắt tùy chọn
  • Video bổ sung tùy chọn
  • Bài kiểm tra khởi động trước bài học
  • Bài học bằng văn bản
  • Đối với các bài học dựa trên dự án, hướng dẫn từng bước để xây dựng dự án
  • Kiểm tra kiến thức
  • Một thử thách
  • Bài đọc bổ sung
  • Bài kiểm tra sau bài học

Lưu ý về bài kiểm tra: Tất cả các bài kiểm tra được chứa trong thư mục Quiz-App, tổng cộng 40 bài kiểm tra với mỗi bài 3 câu hỏi. Chúng được liên kết trong các bài học, nhưng ứng dụng kiểm tra có thể chạy cục bộ hoặc triển khai trên Azure; làm theo hướng dẫn trong thư mục quiz-app. Chúng đang dần được địa phương hóa.

🎓 Ví dụ thân thiện với người mới bắt đầu

Mới với Khoa học Dữ liệu? Chúng tôi đã tạo một thư mục ví dụ đặc biệt với mã đơn giản, có chú thích rõ ràng để giúp bạn bắt đầu:

  • 🌟 Hello World - Chương trình khoa học dữ liệu đầu tiên của bạn
  • 📂 Tải dữ liệu - Học cách đọc và khám phá các bộ dữ liệu
  • 📊 Phân tích đơn giản - Tính toán thống kê và tìm các mẫu
  • 📈 Trực quan hóa cơ bản - Tạo biểu đồ và đồ thị
  • 🔬 Dự án thực tế - Quy trình hoàn chỉnh từ đầu đến cuối

Mỗi ví dụ đều có chú thích chi tiết giải thích từng bước, phù hợp hoàn hảo cho người mới bắt đầu hoàn toàn!

👉 Bắt đầu với các ví dụ 👈

Các bài học

 Ghi chú tóm tắt bởi @sketchthedocs https://sketchthedocs.dev
Khoa học Dữ liệu cho Người mới bắt đầu: Lộ trình - Ghi chú tóm tắt bởi @nitya
Số bài học Chủ đề Nhóm bài học Mục tiêu học tập Liên kết bài học Tác giả
01 Định nghĩa Khoa học Dữ liệu Giới thiệu Học các khái niệm cơ bản về khoa học dữ liệu và cách nó liên quan đến trí tuệ nhân tạo, học máy, và dữ liệu lớn. bài học video Dmitry
02 Đạo đức trong Khoa học Dữ liệu Giới thiệu Các khái niệm, thách thức và khung đạo đức dữ liệu. bài học Nitya
03 Định nghĩa Dữ liệu Giới thiệu Cách dữ liệu được phân loại và các nguồn phổ biến. bài học Jasmine
04 Giới thiệu thống kê & xác suất Giới thiệu Các kỹ thuật toán học về xác suất và thống kê để hiểu dữ liệu. bài học video Dmitry
05 Làm việc với Dữ liệu Quan hệ Làm việc với Dữ liệu Giới thiệu dữ liệu quan hệ và các kiến thức cơ bản về khám phá và phân tích dữ liệu quan hệ với Ngôn ngữ Truy vấn Cấu trúc, hay gọi là SQL (đọc là "see-quell"). bài học Christopher
06 Làm việc với Dữ liệu NoSQL Làm việc với Dữ liệu Giới thiệu dữ liệu phi quan hệ, các loại khác nhau và kiến thức cơ bản về khám phá và phân tích cơ sở dữ liệu tài liệu. bài học Jasmine
07 Làm việc với Python Làm việc với Dữ liệu Cơ bản sử dụng Python cho khám phá dữ liệu với các thư viện như Pandas. Khuyến nghị có hiểu biết nền tảng lập trình Python. bài học video Dmitry
08 Chuẩn bị Dữ liệu Làm việc với Dữ liệu Các chủ đề về kỹ thuật dữ liệu để làm sạch và biến đổi dữ liệu nhằm xử lý các thách thức về dữ liệu thiếu, không chính xác, hoặc không đầy đủ. bài học Jasmine
09 Trực quan hóa Số lượng Trực quan hóa Dữ liệu Học cách sử dụng Matplotlib để trực quan hóa dữ liệu về chim 🦆 bài học Jen
10 Trực quan hóa Phân bố Dữ liệu Trực quan hóa Dữ liệu Trực quan hóa các quan sát và xu hướng trong một khoảng thời gian. bài học Jen
11 Trực quan hóa Tỷ lệ Trực quan hóa Dữ liệu Trực quan hóa tỷ lệ phần trăm rời rạc và nhóm. bài học Jen
12 Trực quan hóa Mối quan hệ Trực quan hóa Dữ liệu Trực quan hóa các kết nối và tương quan giữa các tập dữ liệu và các biến của chúng. bài học Jen
13 Trực quan hóa Có ý nghĩa Trực quan hóa Dữ liệu Kỹ thuật và hướng dẫn để làm trực quan hóa của bạn có giá trị cho việc giải quyết vấn đề hiệu quả và đưa ra những hiểu biết. bài học Jen
14 Giới thiệu vòng đời Khoa học Dữ liệu Vòng đời Giới thiệu về vòng đời khoa học dữ liệu và bước đầu tiên là thu thập và trích xuất dữ liệu. bài học Jasmine
15 Phân tích Vòng đời Giai đoạn trong vòng đời khoa học dữ liệu tập trung vào các kỹ thuật phân tích dữ liệu. bài học Jasmine
16 Truyền đạt Vòng đời Giai đoạn trong vòng đời khoa học dữ liệu tập trung vào trình bày những hiểu biết từ dữ liệu theo cách giúp người ra quyết định dễ hiểu hơn. bài học Jalen
17 Khoa học Dữ liệu trên mây Dữ liệu trên mây Loạt bài giới thiệu khoa học dữ liệu trên đám mây và các lợi ích của nó. bài học TiffanyMaud
18 Khoa học Dữ liệu trên mây Dữ liệu trên mây Huấn luyện mô hình bằng công cụ Low Code. bài học TiffanyMaud
19 Khoa học Dữ liệu trên mây Dữ liệu trên mây Triển khai mô hình với Azure Machine Learning Studio. bài học TiffanyMaud
20 Khoa học Dữ liệu trong thực tế Trong thực tế Các dự án khoa học dữ liệu ứng dụng trong thế giới thực. bài học Nitya

GitHub Codespaces

Thực hiện các bước sau để mở mẫu này trong một Codespace:

  1. Nhấp vào menu thả xuống Code và chọn tùy chọn Open with Codespaces.
  2. Chọn + New codespace ở dưới cùng của bảng. Để biết thêm thông tin, xem tài liệu GitHub.

VSCode Remote - Containers

Thực hiện các bước sau để mở repo này trong container bằng máy cục bộ và VSCode sử dụng extension VS Code Remote - Containers:

  1. Nếu đây là lần đầu tiên bạn sử dụng container phát triển, vui lòng đảm bảo hệ thống của bạn đáp ứng các yêu cầu trước (ví dụ đã cài Docker) trong tài liệu hướng dẫn bắt đầu.

Để sử dụng repo này, bạn có thể mở repo trong một Docker volume cô lập:

Lưu ý: Về cơ bản, điều này sẽ sử dụng lệnh Remote-Containers: Clone Repository in Container Volume... để sao chép mã nguồn vào Docker volume thay vì hệ thống tập tin cục bộ. Volumes là cơ chế được khuyến nghị để lưu trữ dữ liệu container.

Hoặc mở bản sao repo đã clone hoặc tải về trên máy cục bộ:

  • Sao chép repo này vào hệ thống tập tin local của bạn.
  • Nhấn F1 và chọn lệnh Remote-Containers: Open Folder in Container....
  • Chọn thư mục đã sao chép, chờ container khởi động và thử nghiệm.

Truy cập Offline

Bạn có thể chạy tài liệu này offline bằng cách sử dụng Docsify. Fork repo này, cài đặt Docsify trên máy local của bạn, rồi trong thư mục gốc của repo, nhập docsify serve. Website sẽ chạy trên cổng 3000 ở localhost: localhost:3000.

Lưu ý, các notebook sẽ không được hiển thị qua Docsify, vì vậy khi bạn cần chạy notebook, hãy làm điều đó riêng trong VS Code với kernel Python.

Các chương trình giảng dạy khác

Đội ngũ của chúng tôi còn sản xuất nhiều chương trình giảng dạy khác! Hãy xem:

LangChain

LangChain4j dành cho Người mới bắt đầu LangChain.js cho Người mới bắt đầu LangChain cho Người mới bắt đầu

Azure / Edge / MCP / Agents

AZD cho Người mới bắt đầu Edge AI cho Người mới bắt đầu MCP cho Người mới bắt đầu AI Agents cho Người mới bắt đầu


Chuỗi AI Sinh tạo

AI Sinh tạo cho Người mới bắt đầu AI Sinh tạo (.NET) AI Sinh tạo (Java) AI Sinh tạo (JavaScript)


Học tập Cốt lõi

ML cho Người mới bắt đầu Khoa học Dữ liệu cho Người mới bắt đầu AI cho Người mới bắt đầu An ninh mạng cho Người mới bắt đầu Phát triển Web cho Người mới bắt đầu IoT cho Người mới bắt đầu Phát triển XR cho Người mới bắt đầu


Chuỗi Copilot

Copilot cho Lập trình AI Hợp tác Copilot cho C#/.NET Cuộc phiêu lưu Copilot

Nhận Hỗ Trợ

Gặp sự cố? Hãy xem Hướng dẫn Khắc phục sự cố để tìm giải pháp cho các vấn đề phổ biến.

Nếu bạn bị mắc kẹt hoặc có bất kỳ câu hỏi nào về việc xây dựng ứng dụng AI. Hãy tham gia cùng các học viên và nhà phát triển có kinh nghiệm trong các cuộc thảo luận về MCP. Đây là cộng đồng hỗ trợ, nơi các câu hỏi được chào đón và kiến thức được chia sẻ tự do.

Microsoft Foundry Discord

Nếu bạn có phản hồi về sản phẩm hoặc gặp lỗi trong quá trình xây dựng, hãy truy cập:

Diễn đàn Nhà phát triển Microsoft Foundry


Tuyên bố từ chối trách nhiệm:
Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI Co-op Translator. Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc sự không chính xác. Tài liệu gốc bằng ngôn ngữ bản địa nên được xem là nguồn chính xác và đáng tin cậy. Đối với các thông tin quan trọng, nên sử dụng dịch vụ dịch thuật chuyên nghiệp bởi con người. Chúng tôi không chịu trách nhiệm về bất kỳ sự hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này.