Thống kê được hiểu là một dạng phân tích toán học sử dụng các mô hình, sự biểu diễn và tóm tắt định lượng cho một tập hợp dữ liệu thực nghiệm hoặc nghiên cứu thực tế nhất định nhằm mục đích phục vụ cho quá trình phân tích, dự đoán và quyết định. Có nhiều kĩ thuật thống kê được sử dụng trong thực tiễn. Một trong số những kĩ thuật thống kê khá phổ biến đó là tổng bình phương phần dư. hắc hẳn hiện nay vẫn còn nhiều người chưa biết đến thuật ngữ này.
Mục lục bài viết
1. Tổng bình phương phần dư:
Khái niệm tổng bình phương phần dư:
Tổng bình phương phần dư được hiểu là một kĩ thuật thống kê được sử dụng nhằm mục đích để thực hiện đo số phương sai không giải thích được bằng mô hình hồi quy trong một tập dữ liệu.
Phân tích hồi quy được hiểu là một biện pháp giúp xác định mức độ mối quan hệ giữa một biến phụ thuộc và một loạt các biến thay đổi hay biến độc lập khác.
Tổng bình phương phần dư được sử dụng để thực hiện đo lượng sai số còn lại giữa hàm hồi quy và tập dữ liệu. Tổng bình phương phần dư nhỏ hơn thể hiện hàm hồi quy tốt hơn, về cơ bản thì nó xác định một mô hình hồi quy giải thích hoặc biểu thị dữ liệu trong mô hình tốt như thế nào.
Tổng bình phương phần dư trong tiếng Anh là gì?
Tổng bình phương phần dư trong tiếng Anh là Residual Sum of Squares – RSS.
Đặc điểm tổng bình phương phần dư:
Phân tích hồi quy liên quan đến việc phân tích mối quan hệ giữa biến phụ thuộc và các biến giải thích khác.
Mô hình nào cũng có sai số giữa các giá trị dự đoán được và kết quả trong thực tế. Mặc dù phương sai cũng có thể được giải thích bằng phân tích hồi quy, tổng bình phương phần dư biểu thị phần phương sai hay sai số không được giải thích bởi mô hình.
Bởi vì hàm hồi quy có thể được điều chỉnh phức tạp hơn để phù hợp với hầu hết mọi tập dữ liệu, nên việc nghiên cứu thêm nhằm mục đích để có thể xác định xem hàm hồi quy đang sử dụng có thực sự hiệu quả trong việc giải thích phương sai của tập dữ liệu hay không.
Thông thường, giá trị tổng bình phương phần dư được cho rằng càng nhỏ thì mô hình hồi quy càng lí tưởng vì nó có nghĩa là có ít điểm ngoại lai hơn trong tập dữ liệu.
Nói một cách khác, tổng số dư bình phương càng thấp thì mô hình hồi quy càng tốt trong việc giải thích dữ liệu.
Tổng bình phương phần dư trong tài chính:
Thị trường tài chính được hiểu là thị trường mà ở đó diễn ra các hoạt động trao đổi, mua bán quyền sử dụng các nguồn tài chính thông qua những phương thức giao dịch và công cụ tài chính nhất định, hay theo cách hiểu khái quát nhất thì đó là nơi diễn ra quá trình trao đổi mua bán các công cụ tài chính và công cụ thanh toán. Bản chất của thị trường tài chính đó chính là sự luân chuyển vốn, giao lưu vốn trong xã hội. Chính sự phát triển của nền kinh tế thị trường là cơ sở để thị trường tài chính hình thành và phát triển. Theo đó, khi nền kinh tế thị trường phát triển cũng sẽ làm xuất hiện những chủ thể cần nguồn tài chính và những người có khả năng cung ứng nguồn tài chính. Với thị trường tài chính đang ngày càng trở nên định hướng hơn, để tìm kiếm các lợi thế đầu tư, nhiều chủ thể là các nhà đầu tư sử dụng các phương pháp thống kê tiên tiến để hỗ trợ cho các quyết định đầu tư của họ.
Dữ liệu lớn (Big data), học máy (Machine learning) và ứng dụng trí tuệ nhân tạo (Artificial intelligence) sẽ đòi hỏi phải sử dụng các biện pháp thống kê để nhằm hướng dẫn sử dụng các chiến lược đầu tư hiện đại.
Tổng bình phương phần dư là một trong nhiều thông số thống kê được sử dụng rất phổ biến.
Các mô hình thống kê được sử dụng bởi các chủ thể là các nhà đầu tư và nhà quản lí danh mục đầu tư để nhằm mục đích theo dõi giá chứng khoán và sử dụng dữ liệu đó để dự đoán các biến động giá trong tương lai.
2. Những thuật ngữ liên quan:
Phân tích hồi quy:
Phân tích hồi quy được hiểu là một trong số những kỹ thuật thống kê được dùng nhằm mục đích để ước lượng phương trình phù hợp nhất với các tập hợp kết quả quan sát của biến phụ thuộc và biến độc lập. Phân tích hồi quy cho phép đạt được kết quả ước lượng tốt nhất về mối quan hệ chân thực giữa các biến số. Từ phương trình ước lượng được này, người ta có thể dự báo về biến phụ thuộc (chưa biết) dựa vào giá trị cho trước của biến độc lập (đã biết).
Dữ liệu lớn:
– Ta hiểu về dữ liệu lớn như sau:
Dữ liệu lớn trong tiếng Anh là Big data. Dữ liệu lớn là một thuật ngữ được sử dụng từ cuối những năm 1990, dùng để chỉ lượng dữ liệu khổng lồ được tạo ra bởi các công ty hoạt động ở các ngành nghề khác nhau, chính phủ, cá nhân và các thiết bị điện tử.
Ta có thể hiểu nó đơn giản như tên gọi, dữ liệu lớn là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, dữ liệu lớn lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường. Vì khối dữ liệu quá lớn nên việc triển khai dữ liệu lớn sẽ gặp những trở ngại bao gồm thu nhận dữ liệu, lưu trữ dữ liệu, tìm kiếm, chia sẻ, chuyển giao, cập nhật…
Phân loại dữ liệu lớn:
Dữ liệu lớn bao gồm dữ liệu truyền thống và dữ liệu phi truyền thống. Cụ thể như sau:
+ Dữ liệu truyền thống bao gồm:
Dữ liệu của công ty dưới dạng báo cáo hàng năm, hồ sơ theo quy định, số liệu bán hàng và thu nhập và các cuộc hội nghị bằng điện thoại.
Dữ liệu được tạo ra trên thị trường tài chính, bao gồm giá và khối lượng giao dịch.
Thống kê của chính phủ.
+ Dữ liệu phi truyền thống bao gồm:
Dữ liệu từ cá nhân: Bài đăng trên các mạng xã hội, các đánh giá trực tuyến, email và việc truy cập trang web.
Dữ liệu từ các doanh nghiệp: Hồ sơ ngân hàng và dữ liệu máy quét bán lẻ.
Dữ liệu từ các thiết bị điện tử: Dữ liệu được tạo ra từ nhiều loại thiết bị, bao gồm điện thoại thông minh, máy ảnh, micrô, đầu đọc nhận dạng tần số vô tuyến, cảm biến không dây và vệ tinh.
Khi Internet và các thiết bị nối mạng ngày càng phát triển, việc sử dụng các nguồn dữ liệu phi truyền thống đã tăng lên, bao gồm thông tin trên các mạng xã hội, email và các phương thức giao tiếp bằng văn bản, lưu lượng truy cập trang web, trang tin tức trực tuyến và các nguồn thông tin điện tử khác.
Học máy:
Học máy hay máy học trong tiếng Anh là Machine learning.
Học máy được hiểu là một công nghệ phát triển từ lĩnh vực trí tuệ nhân tạo. Các thuật toán học máy là các chương trình máy tính có khả năng học hỏi về cách hoàn thành các nhiệm vụ và cách cải thiện hiệu suất theo thời gian.
Học máy vẫn đòi hỏi sự đánh giá của con người trong việc tìm hiểu dữ liệu cơ sở và lựa chọn các kĩ thuật phù hợp để phân tích dữ liệu. Bên cạnh đó, trước khi sử dụng, dữ liệu phải sạch, không có sai lệch và không có dữ liệu giả.
Các mô hình học máy yêu cầu lượng dữ liệu đủ lớn để nhằm huấn luyện và đánh giá mô hình. Trước đây, các thuật toán học máy thiếu quyền truy cập vào một lượng lớn dữ liệu cần thiết để mô hình hóa các mối quan hệ giữa các dữ liệu. Sự tăng trưởng trong dữ liệu lớn (big data) đã cung cấp các thuật toán học máy với đủ dữ liệu để cải thiện độ chính xác của mô hình và dự đoán.
Trí tuệ nhân tạo:
– Ta hiểu về trí tuệ nhân tạo như sau:
Trí tuệ nhân tạo trong tiếng Anh là Artificial Intelligence.
Trí tuệ nhân tạo hiện nay là một thuật ngữ đề cập đến việc hệ thống máy tính được lập trình để mô phỏng nhận thức và khả năng ra quyết định của con người.
Mạng thần kinh nhân tạo một ví dụ về trí tuệ nhân tạo. Mô hình này mô phỏng cách các tế bào thần kinh làm việc trong não người.
– Ứng dụng của trí tuệ nhân tạo:
Những tiến bộ kĩ thuật dựa trên trí tuệ nhân tạo được ứng dụng trong việc phân tích dữ liệu phức tạp ở các lĩnh vực khác nhau.
Ban đầu, trí tuệ nhân tạo được hiểu là một loại lập trình máy tính mô phỏng nền tảng kiến thức và khả năng phân tích của con người trong các bối cảnh cụ thể. Điều này thường được thực hiện thông qua việc sử dụng các quy tắc “nếu – thì”.
Vào cuối những năm 1990, các mạng nhanh hơn và bộ xử lí mạnh hơn cho phép trí tuệ nhân tạo được triển khai trong lĩnh vực hậu cần, khai thác dữ liệu, phân tích tài chính, chẩn đoán y tế và các lĩnh vực khác.