Skip to main content

Intermediate Python for Data Science


Khóa học về python cấp trung học rất quan trọng đối với chương trình giảng dạy khoa học dữ liệu của bạn. Học cách hình dung dữ liệu thực với các chức năng của matplotlib và tìm hiểu các cấu trúc dữ liệu mới như từ điển và Pandas DataFrame. Sau khi bao gồm các khái niệm chính như logic boolean, điều khiển luồng và vòng lặp trong Python, bạn đã sẵn sàng để pha trộn tất cả mọi thứ bạn đã học để giải quyết một nghiên cứu tình huống bằng cách sử dụng thống kê.

Các mục sẽ học trong phần này
  1.  Matplotlib
    1. Giới thiệu matplotlib
    2. Histogram
    3. Customization
  2.  Dictionaries & Pandas 
    1. Dictionaries - part1
    2. Dictionaries - part2
    3. Pandas - part 1
    4. Pandas - part 2
  3.  Logic, Control Flow and Filtering
    1. Comparison Operators
    2. Boolean Operators
    3. if, elif, else
    4. Filtering Pandas DataFrame
  4.  Loops 
    1. While loop
    2. For loop
    3. Looping Data Structures - part 1
    4. Looping Data Structures - part 2
  5. Case Study: Hacker Statistics
    1. Random Numbers
    2. Random Walk
    3. Distribution


Popular posts from this blog

[Intermediate Python] - Matplotlib: Histogram

Bài viết này giới thiệu về histogram, histogram là cách nhìn rất hữu ích để khám phá dữ liệu LÝ THUYẾT Hãy tưởng tượng có 12 giá trị giữa 0 và 6 và tôi đặt nó trên 1 đường thẳng, để xây dựng một biểu đồ histogram cho những giá trị này, tôi sẽ chia đường thẳng thành những đoạn bằng nhau, được gọi là những ngăn (bins). Giả sử bạn có 3 ngăn, mỗi ngăn có độ rộng là 2, tiếp theo bạn đếm xem có bao nhiêu điểm dữ liệu bên trong mỗi ngăn, ở đây ta có 4 điểm trong ngăn 1, 6 điểm trong ngăn 2 và 2 điểm trong ngăn 3, cuối cùng, ta sẽ vẽ 1 thanh biểu trưng cho mỗi ngăn, chiều cao của thanh tương ứng với số lượng điểm dữ liệu trong ngăn đó. Kết quả của biểu đồ cho ta một cái nhìn tổng quan về cách mà 12 giá trị được phân phối, một vài giá trị ở ngăn giữa, nhưng có nhiều giá trị nhỏ hơn 2 và lớn hơn 4.  Tất nhiên, matplotlib cũng có khả năng tạo biểu đồ histograms, như bài học trước thì ta cũng cần phải import gói pyplot bên trong matplotlib, tiếp theo ta có thể sử dụng hàm hist() ...

[Intermediate Python] - Matplotlib: Basic plots with matplotlib

Trong bài này, bạn sẽ được học cách hình dung dữ liệu thực tế, cách lưu trữ dữ liệu trong các cấu trúc dữ liệu mới; khi đã thành thạo các cấu trúc điều khiển, bạn cần điều chỉnh các đoạn scripts và các thuật toán, chúng ta sẽ  kết thúc chương này với một bài tập nhỏ và chúng ta sẽ phải kết hợp mọi thứ đã  học để giải quyết bài toán.  LÝ THUYẾT Phần đầu tiên của chương là về cách hình dung dữ liệu (data visualization), nó rất quan trọng trong việc phân tích dữ liệu. Đầu tiên, bạn sẽ sử dụng nó để khám phá tập dữ liệu (dataset) để hiểu dữ liệu của bạn một cách rõ nhất, từ đó bạn mới có một cái nhìn sâu sắc về nó, và chia sẻ cái mà bạn đã nhận thức được từ dữ liệu với người khác   Ví dụ: ta nhìn vào biểu đồ xinh đẹp bên trên, nó được tạo bởi giáo sư người Thụy Sĩ Hans Rosling, giáo sư nói về sự phát triển dân số toàn cầu được xem hàng triệu lần và sắp xếp chúng tạo nên 1 biểu đồ, giáo sư đã để dữ liệu nói lên lịch sử của chính nó. Ở đây, chúng ta thấy ...

[DFP] - 6: How to create Ad tags in DoubleClick ad Exchange

Chúng ta sẽ học một vài thủ thuật và mẹo để quản lý quảng cáo một cách hiệu quả. Tạo các tags từ network chẳng hạn như Google Ad Exchange là phần trọng tâm của bất kỳ thiết lập DFP nào, bài hướng dẫn này trình bày ngữ trường hợp sử dụng cao hơn DFP ở mức Order. B1 : Lên kế hoạch các kiểu của tags mà bạn muốn tổ chức thực hiện trên spreadsheet hoặc notepad Bước đầu tiên là lên kế hoạch các kiểu của ad tags mà bạn muốn thực hiện và ghi chúng lại vào spreadsheet hoặc notepad. Tên của tags cũng rất quan trọng, nó vừa thể hiện được ý nghĩa của tags đồng thời là yếu tố nhận dạng để chúng ta theo dõi nó. Bạn sẽ muốn quy định một hệ thống danh pháp cho những tags này. Chúng tôi đề nghị chia tags thành "components" và gắn nó với một hệ thống cho tất cả các thẻ. Ví dụ: chúng ta đã từng xây dựng những tên tags như "ch1_AdX_MonetizeMore_top_728x90", ghi chú là chúng ta sử dụng dấu gạch chân để phân tách các thành phần trong nhãn, không thể ngăn cách bằng khoảng trắn...