Qualitative variable là gì

Qualitative variable là gì

Trước khi chúng ta bắt đầu, tôi muốn chào mừng các bạn đã đến với series bài viết về khoa học dữ liệu, thống kê cùng R. Ở phần đầu tiên này,tôisẽ giới thiệu về bản thân cũng như lý do tại sao chúng ta nên học R. Cũng trong phần này,tôisẽ thảo luận lý do chúng ta nên học về xác xuất và một số khái niệm thống kê cơ bản.

Nếu các bạn muốn đọc phiên bản tiếng Anh của bài viết này, có thể truy cập ởđây.

Tại sao tôi lại sử dụng R?

Tôi là một lập trình viên và là một kĩ sư về dữ liệu, hầu hết ngôn ngữ lập trình mà tôi dùng để làm việc nhiều nhất là Python. Tôi đã làm việc với nhiều dự án về dữ liệu khác nhau ở nhiều lĩnh vực, như là xử lý hình ảnh trong y khoa, phân tích kinh tế. Có thể bạn thắc mắc vì sao tôi lại học R nếu tôi có thể sử dụng tốt Python? Thật ra, Python ngày một lớn mạnh, nên ngày nay chúng ta hầu hết có thể sử dụng Python để thay thế những thứ R có thể làm. Mặt khác, R rất khó sử dụng cũng như rất khó để tìm hiểu. Vậy tại sao chúng ta nên biết về R?

Ở Việt Nam, rất ít người biết hoặc nghe tới ngôn ngữ lập trình R. Sinh viên và giảng viên đại học có lẽ là số ít những người sử dụng R, cơ bản vì R là ngôn ngữ mã nguồn mở và miễn phí. Dĩ nhiên, R rất mạnh nếu chúng ta dùng trong khoa học dữ liệu hay xác xuất thống kê bởi lẽ, R được viết và phát triển bởi cộng đồng của các chuyên gia thống kê. Tuy vậy, hầu hết mọi người sau khi ra trường hoặc bước vào môi trường công nghiệp đều không sử dụng tới R (thực chất rất ít công ty yêu cầu R trong tuyển dụng). Tôi cũng không phải ngoại lệ, tôi thậm chí chưa bao giờ nghe tới R cho tới lúc tôi gặp người hướng dẫn luận án Thạc sĩ của tôi 1 năm trước đây. Cô ấy là một chuyên gia về dữ liệu, và cô ấy cũng rất nhiệt tình giúp đỡ tôi trong công việc. Một lần cô ấy mời tôi đến nhà chơi, cô ấy đã chỉ cho tôi một bức hình rất đẹp được treo trên tường. Đối với tôi, đó là một bức tranh được tạo ra bằng cách phân tích dữ liệu (data visualization) đẹp nhất mà tôi từng được thấy. Vì đó là thông tin cá nhân của cô ấy, tôi sẽ không nói thêm nhiều về bức hình này, nhưng tôi chỉ muốn nói rằng tôi rất thích nó cũng như lý do vì sao cô ấy đã tạo ra nó.

Tôi quyết định học R cũng chỉ vì một lý do để thỏa tính tò mò của mình. Trong chuỗi bài viết này, chúng ta sẽ cùng nhau phân tích cách sử dụng R trong nhiều lĩnh vực khác nhau. Trong cuộc hành trình này, tôi cũng sẽ so sánh với Python, từ đó chúng ta có thể hiểu được thế mạnh của từng ngôn ngữ lập trình khác nhau.

Chúc các bạn học vui vẻ!

Tại sao chúng ta nên học xác xuất thống kê?

Có một thứ tôi luôn hối hận, đó là vì sao tôi không yêu thích và tiếp thu môn học thống kê tốt hơn khi tôi học cấp 3, hay đại học. Có lẽ vì tôi chưa tìm được một người truyền dạy tốt về môn học này. Nhưng nếu bạn cũng tò mò và tự hỏi làm thế nào để trả lời được các câu hỏi thú vị, bạn nên bắt đầu học xác xuất thống kê rồi đấy. Dù nó rất khó, nhưng thực chất nó chính là sức mạnh giúp bạn trả lời các câu hỏi thường ngày, cũng như những nghiên cứu chuyên sâu mà bạn đang phải làm. Ví dụ, bạn có tự hỏi dựa vào đâu mà người ta nói với bạn rằng hút thuốc lá sẽ dẫn đến ung thư phổi? Hay, đâu là quá trình để người ta giới thiệu và đưa một loại thuốc mới ra thị trường? Xác xuất thống kê sẽ giúp bạn hiểu những điều này.

Quá trình nghiên cứu dữ liệu (Research process)

5 giai đoạn của quá trình nghiên cứu dữ liệu.
  1. Chúng ta cùng bắt đầu với một vấn đề thực tế (real-world problem). Đây có thể là bất cứ thứ gì cần bạn giải thích, hoặc bạn nhận được một tập dữ liệu từ khách hàng của bạn. Một số ví dụ về vấn đề thực tế như, làm thế nào để biết được ảnh hưởng của một hợp chất mới trên tế bào của con người, hay trang web của bạn có hiệu quả để người đọc trở thành khách hàng của bạn hay không?
  2. Chúng ta không nên trực tiếp phân tích dữ liệu khi có vấn đề. Đầu tiên chúng ta phải biết chúng ta muốn gì.Luôn luôn phải đặt câu hỏi!Câu hỏi đặt ra sẽ giúp chúng ta xác định được mục tiêu của việc nghiên cứu, cũng như nó sẽ giúp chúng ta giải quyết đúng vấn đề được đặt ra trong quá trình phân tích.
  3. Từ câu hỏi được đặt ra, chúng ta có thể đặt ra nhiềugiả thuyết thống kê(hypothesis). Chúng ta có thể coi những giả thuyết này là những lý giải hoặc giả định đầu tiên mà chúng ta có để trả lời cho câu hỏi đặt ra. Tuy nhiên, những giả định này thường được đưa ra với rất ít bằng chứng (evidence), hoặc chỉ dựa trên quan sát và giả thuyết cá nhân.
  4. Kiểm tra những giả định là phần rất quan trọng trong quá trình xử lý phân tích. Để làm được điều này,chúng ta cần dữ liệu. Vấn đề sẽ rất đơn giản nếu dữ liệu đã được cung cấp sẵn bởi khách hàng, và việc chúng ta cần làm chỉ là phân tích. Trong trường hợp chúng ta bắt đầu với một vấn đề, hay một câu hỏi khoa học, chúng ta cầnthu thập dữ liệu(collect data). Có nhiều cách để làm điều này, như là làm một cuộc khảo sát, hoặc làm thí nghiệm.
  5. Khi đã có dữ liệu trong tay, bước cuối cùng làxử lý dữ liệu(data analysis). Bước này đòi hỏi bạn phải có sự hiểu biết cơ bản về khái niệm thống kê, một chút sự tưởng tượng để có thểbiểuthị(visualize) và giải thích được dữ liệu đã thu thập.

Phân tích dữ liệu xong không có nghĩa là chúng ta đã hoàn thành việc cần làm. Chúng ta cần nhớ rằng lý do chúng ta phân tích là để giải thích và kiểm tra những giả định của chúng ta. Nếu giả định đúng, chúng ta có thể trả lời được câu hỏi được đặt ra cho vấn đề của mình. Tùy theo kết quả của quá trình phân tích, nó có thể hỗ trơ cho những giả thuyết ban đầu, cũng như phủ nhận hoặc điều chỉnh nó. Chúng ta sẽ bắt đầu lại quá trình từ bước 3 sau khi đã chỉnh sửa những giả định ban đầu cho đến khi chúng ta có thể chứng minh là đúng, từ đó trả lời câu hỏi ban đầu.

Những khái niệm thống kê cơ bản nào chúng ta cần biết?

Ở phần trên, tôi đã giới thiệu ngắn gọn về quá trình nghiên cứu mà chúng ta cần làm trong một dự án dữ liệu (data project). Mỗi bước trong quá trình trên trên đòi hỏi nền tảng về khái niệm thống kê.

Variables (Biến trong thống kê)

Đầu tiên chúng ta cần định nghĩa về biến (variables) một khái niệm thống kê quan trọng. Biến được đặt ra và được điều chỉnh tùy vào giả định cũng như thí nghiệm mà chúng ta đặt ra. Nếu bạn quen với một ngôn ngữ lập trình bất kì, khái niệm biến có lẽ không có gì xa lạ. Nói ngắn gọn, biến dùng để gọi một thứ hay một giá trị có thể thay đổi trong quá trình nghiên cứu. Biến có thể tượng trưng cho bất cứ thứ gì, ví dụ như, một đại lượng hay thuộc tính có thể thay đổi trong quá trình thí nghiệm.

Những dạng cơ bản của biến bao gồmbiến độc lập(independent variable) vàbiến phụ thuộc(dependent variable).

Giá trị thay đổi thế nào?

Độc lập với các biến khác.

Giá trị thay đổi dựa vào biến độc lập (nguyên nhân)

Những gì làm thay đổi giá trị?

Các nhà nghiên cứu và nhà khoa học thường thay đổi giá trị của biến này cho mục đích quan sát sự thay đổi của biến phụ thuộc.

Sự thay đổi của biến độc lập sẽ dẫn đến sự thay đổi của biến phụ thuộc.

Bảng so sánh trên đã tóm tắt sự khác nhau giữa hay dạng biến cơ bản. Chúng ta có thể biểu thị hầu hết những giả định (hypothesis) bằng một nguyên nhân và một kết quả. Biến độc lập thường được dùng để biểu thị nguyên nhân vì lý do đơn giản, nó không phụ thuộc vào bất cứ biến nào khác. Trong thực tế, những biến này thường được thay đổi bởi những người làm thí nghiệm theo cái cách mà họ muốn kiểm chứng. Những thay đổi của biến độc lập thường dẫn tới sự biến đổi của kết quả đại lượng thực tế mà chúng ta muốn đánh giá.

Thước đo trong thống kê (Levels of Measurement)

Có rất nhiềunguồnkhác nhau giải thích rất rõ về khái niệm này. Trong bài này, tôi chỉ nhắc lại một số thông tin quan trọng mà chúng ta cần lưu ý.

Đầu tiên, chúng ta cần bàn về dạng của dữ liệu. Nhìn chung, có 3 dạng biến thường gặp:biến phân loại(categorical variable),biến rời rạc(discrete variable) vàbiến liên tục(continuousvariable). Biến phân loại thường chứa một tập hữu hạn các giá trị không phải là số, như là giới tính (nam hay nữ), giống loài (chó, mèo), tình trạng hôn nhân (độc thân, đã kết hôn, hay li dị). Nếu biến phân loại chỉ có hai giá trị duy nhất, ví dụ đúng hay sai, chúng ta thường gọi đó làbiến nhị phân(binary variable). Mặt khác, biến rời rạc và biến liên tục đều là biến chứa các giá trị là số. Biến rời rạc chứa những tập hữu hạn các giá trị được giới hạn bởi một khoảng xác định, trong khi biến liên tục có thể chứa vô hạn các giá trị nằm giữa hai giá trị khác.

Ví dụ sau đây có thể giúp chúng ta hiểu thêm về biến liên tục và biến rời rạc. Giả sử chúng ta muốn biết đánh giá của khách hàng về trải nghiệm của họ về trang web của chúng ta. Chúng ta có thể yêu cầu họ nhập một con số từ 0 tới 10, ví dụ, 7.5, những giá trị này sẽ cho chúng ta một biến liên tục. Mặt khác, thay vì cho phép họ nhập bất kì con số nào, chúng ta có thể giới hạn việc đánh giá bằng một trong những giá trị trong thang đo [1, 2, 3, 4, 5], trong đó giá trị 1 biểu thị cho đánh giá thấp nhất cho việc trải nghiệm, trong khi 5 thể hiện sự hài lòng trong việc trải nghiệm. Chúng ta không thể nói được cách đánh giá nào tốt hơn, vì thực chất nó phụ thuộc vào thí nghiệm hoặc mục đích của nghiên cứu. Bạn có thể tìm thấy ởđâymột cuộc thảo luận rất thú vị về việc chúng ta nên dùng biến rời rạc hay liên tục để làm thước đo trong một cuộc khảo sát.

Nếu bạn theo dõi cuộc thảo luận, bạn sẽ thấy rằng họ dùng rất nhiều thuật ngữ và các khái niệm thống kê cơ bản. Tôi thật sự thấy rất thú vị khi mình có thể hiểu được cuộc nói chuyện của họ. Hy vọng bài viết này cũng sẽ giúp các bạn giao tiếp bằng ngôn ngữ thống kê này.

Tiếp theo chúng ta sẽ thảo luận về cácthước đo trong thống kê(levels of measurement, hayscales of measurement). Nó biểu hiện cho mối quan hệ giữa các biến số và đặc tính mà những biến đó thể hiện (Nguồn). Khái niệm này có vẻ khó hiểu nhưng thực tế chỉ có 4 mức đo cơ bản:

  • Thang đo định danh(Nominal variable):thang đo này thường được dùng cho các biến thuộc nhóm biến phân loại (categorical variable). Ví dụ, khi bạn muốn biến biểu thị cho giá trị về giới tính hay tình trạng hôn nhân. Một điều thường thấy trong việc sử dụng thang đo này chính là chúng ta có thể sử dụng những con số để thay thế cho các giá trị thực của biến. Ví dụ như, 0 cho nam và 1 cho nữ, hay 0 cho độc thân, 1 cho đã kết hôn và 2 cho li dị. Tuy được thể hiện bằng số, nhưng những con số này không có ý nghĩa về thứ tự. Nghĩa là trong thang đo này, 2 không lớn hơn 1 cũng như 1 thì không lớn hơn 0. Điều này tương tự như trong số áo mà các cầu thủ mặc trong một đội bóng, số áo có thể thể hiện cho vị trí của các cầu thủ, nhưng không thể hiện cầu thủ số áo lớn hơn thì chơi hay hơn số nhỏ hơn (bạn không thể nói thủ môn mặc áo số 1 thì chơi tệ hơn cầu thủ mặc áo số 6 được).
  • Thang đo thứ bậc(Ordinal variable):cũng là một thang đo cho biến phân loại. Về cơ bản, thang đo thứ bậc giống với thang đo định danh, tuy nhiên, các giá trị của thang đo này có thứ bậc lớn nhỏ. Ví dụ, những lựa chọn cho một câu hỏi trong một cuộc khảo sát bao gồm không tốt, tạm ổn, và tốt có thể được biểu hiện bằng các mức 1, 2, 3 theo thứ tự. Và ở dạng này, tốt thì dĩ nhiên sẽ lớn hơn không tốt.
  • Thang đo định khoảng(Interval variable):Đây là một mức đo dành cho biến số (numerical variable), thường là cho biến liên tục. Một đặc tính của mức đo này chính làsự chênh lệch giữa các khoảng bằng nhau phải mang ý nghĩa giống nhau. Một ví dụ điển hình cho thang đo này chính là nhiệt độ. Sự chênh lệch giữa 10 và 20 độ C sẽ mang ý nghĩa tương đương với sự chênh lệch giữa 30 hay 40 độ C. Trong thang đo này, bạn có thể tính toán các giá trị bằng phép tính cộng và trừ, có thể tính được giá trị trung bình. Một điều đáng lưu ý trong thang đo này đó là sẽkhông có giá trị 0 tuyệt đối. Ví dụ, 0 độ C không có nghĩa là không có nhiệt độ, mà là một mức quy ước khi nước chuyển từ thể lỏng sang thể rắn (0 độ C còn được xấp xỉ là 273 độ K, hay 32 độ F), nên thực tế không có giá trị 0. Tuy vậy, thang đo nàykhông tính tới tỉ lệ giữa 2 giá trị, ví dụ, chúng ta không thể nói 40 độ C nóng gấp đôi 20 độ C. Nó không có ý nghĩa về mặt vật lý.
  • Thang đo tỉ lệ(Ratio variable):thang đo này cũng giống như thang đo định khoảng, nhưng yêu cầu cao hơn một bậc làtính tới trường hợp tỉ lệ giữa các giá trị trong thước đo. Những tỉ lệ này phải mang ý nghĩa thực tế. Đây là thang đo có thể dùng được với tất cả các phép tính như cộng trừ nhân chia, nên có thể có giá trị 0 tuyệt đối. Những giá trị liên quan đến đo đạc hoặc thời gian thuộc vào thang đo này. Ví dụ, chúng ta muốn biết thời gian để một chiếc xe hơi có thể gia tốc từ 0 tới 100 km/h. Thời gian gia tốc có thể là 10 hay 20 giây. Chúng ta có thể nói thời gian gia tốc 10 giây nhanh gấp đôi thời gian 20 giây. 0 giây là trường hợp bất khả thi, nhưng nó vẫn có nghĩa là ngay lập tức. Trong đo lường như chiều dài hay rộng, 0 mét có nghĩa là chiều đó không tồn tại.

Sai số trong đo lường (Measurement error)

Không phải lúc nào chúng ta cũng có thể đo hoặc tính toán chính xác giá trị cho các biến. Ví dụ như khi bạn muốn biết cân nặng của mình, việc đó hoàn toàn phụ thuộc vào độ chính xác của cân mà bạn sử dụng, nó có thể có một sự sai số nhỏ nếu bạn sử dụng 2 cái cân khác nhau để đo.

Có hai loại sai số thường gặp: sai số ngẫu nhiên (unsystematic hoặc random error) và sai số hệ thống.

  • Sai số ngẫu nhiênthường không thể tránh khỏi trong các thí nghiệm, ngay cả khi chúng ta cố gắng tạo ra một môi trường hoàn hảo. Sai số này thường không rõ ràng, có thể khác nhau ở các giai đoạn đo khác nhau.
  • Sai số hệ thốngcó thể dự đoán được và thường là cố định. Ví dụ như sai số của thước đo. Nếu bạn dùng 1 thước đo cố định để đo đạc, thì sai số đó là cố định, không thay đổi qua các lần đo.

Ở phần này của chuỗi bài viết, tôi đã đề cập tới một số khái niệm thống kê cơ bản, nhưng hầu hết trong việc làm thí nghiệm và nghiên cứu. Phần tiếp theo tôi sẽ giới thiệu rõ hơn về các khái niệm thống kê có liên quan đến dữ liệu, cũng như việc tính toán sử dụng R. Những khái niệm thống kê này tuy cơ bản nhưng lại quan trọng và theo chúng ta suốt cuộc hành trình.

Tôi không phải là một chuyên gia trong lĩnh vực này, tôi chỉ cố gắng chia sẻ kiến thức của mình. Vì thế, tôi rất hoan nghênh mọi đóng góp hoặc phê bình của các bạn. Các bạn có thể tham gia bình luận ở dưới phần comment, hoặc gửi email cho tôi.

Chúc các bạn học vui vẻ!

Video liên quan

Related posts:

Post a Comment

Previous Post Next Post

Discuss

×Close