Khi xã hội ngày càng phát triển thì lượng thông tin ngày càng lớn hay còn được biết đến là nguồn dữ liệu lớn là một thuật ngữ mô tả khối lượng dữ liệu lớn. Dữ liệu lớn có thể được phân tích để tìm hiểu thông tin chi tiết giúp cải thiện các quyết định và mang lại hiệu quả trong kinh doanh chiến lược.
Mục lục bài viết
1. Big Data là gì?
Big Data hay được biết đến là dữ liệu lớn nó đề cập đến các tập dữ liệu có cấu trúc và phi cấu trúc phức tạp khổng lồ được tạo và truyền nhanh chóng từ nhiều nguồn khác nhau. Các thuộc tính này tạo nên ba chữ V của dữ liệu lớn:
Khối lượng: Lượng dữ liệu khổng lồ đang được lưu trữ.
Tốc độ: Tốc độ cực nhanh mà tại đó các luồng dữ liệu phải được xử lý và phân tích.
Đa dạng: Các nguồn và hình thức khác nhau mà dữ liệu được thu thập, chẳng hạn như số, văn bản, video, hình ảnh, âm thanh và văn bản.
Việc thu thập dữ liệu có thể bắt nguồn từ việc nền văn minh cổ đại sử dụng những chiếc móng tay để theo dõi thực phẩm, nhưng lịch sử của dữ liệu lớn thực sự bắt đầu muộn hơn nhiều. Dưới đây là dòng thời gian ngắn gọn về một số khoảnh khắc đáng chú ý đã đưa chúng ta đến vị trí của ngày hôm nay.
Năm 1881
Một trong những trường hợp quá tải dữ liệu đầu tiên đã xảy ra trong cuộc điều tra dân số năm 1880. Máy lập bảng Hollerith được phát minh và công việc xử lý dữ liệu điều tra dân số được cắt giảm từ mười năm lao động xuống dưới một năm.
Năm 1928
Kỹ sư người Đức-Áo Fritz Pfleumer phát triển lưu trữ dữ liệu từ tính trên băng, dẫn đầu cho cách dữ liệu kỹ thuật số sẽ được lưu trữ trong thế kỷ tới.
Năm 1948
Shannon’s Information Theory được phát triển, đặt nền móng cho cơ sở hạ tầng thông tin được sử dụng rộng rãi ngày nay.
Năm 1970
Edgar F. Codd, một nhà toán học tại IBM, trình bày một “cơ sở dữ liệu quan hệ” hiển thị cách thông tin trong cơ sở dữ liệu lớn có thể được truy cập mà không cần biết cấu trúc hoặc vị trí của nó. Điều này trước đây dành riêng cho các chuyên gia hoặc những người có kiến thức máy tính sâu rộng.
Năm 1976
Sử dụng thương mại Hệ thống lập kế hoạch yêu cầu vật liệu (MRP) được phát triển để tổ chức và lập lịch thông tin, trở nên phổ biến hơn để xúc tác hoạt động kinh doanh.
Năm 1989
World Wide Web được tạo ra bởi Tim Berners-Lee.
Năm 2001
Doug Laney đã trình bày một bài báo mô tả “3 chữ V của dữ liệu”, đây là đặc điểm cơ bản của dữ liệu lớn. Cùng năm đó, thuật ngữ “phần mềm như một dịch vụ” đã được chia sẻ lần đầu tiên.
Năm 2005
Hadoop, khung phần mềm mã nguồn mở để lưu trữ tập dữ liệu lớn được tạo ra.
Năm 2007
Thuật ngữ “dữ liệu lớn” được giới thiệu với công chúng trong bài báo trên Wired “Sự kết thúc của lý thuyết: Sự tràn ngập dữ liệu khiến phương pháp khoa học trở nên lỗi thời.”
Năm 2008
Một nhóm các nhà nghiên cứu khoa học máy tính đã xuất bản bài báo “Điện toán dữ liệu lớn: Tạo đột phá cách mạng trong thương mại, khoa học và xã hội”, mô tả cách dữ liệu lớn thay đổi cơ bản cách các công ty và tổ chức kinh doanh.
Năm 2010
Giám đốc điều hành Google Eric Schmidt tiết lộ rằng cứ hai ngày một lần mọi người lại tạo ra nhiều thông tin như những người đã tạo ra từ thời kỳ đầu của nền văn minh cho đến năm 2003.
Năm 2014
Ngày càng nhiều công ty bắt đầu chuyển Hệ thống hoạch định nguồn lực doanh nghiệp (ERP) của họ lên đám mây.Internet of Things (IoT) được sử dụng rộng rãi với ước tính khoảng 3,7 tỷ thiết bị hoặc vật dụng được kết nối đang được sử dụng, truyền tải một lượng lớn dữ liệu mỗi ngày.
Năm 2016
Chính quyền Obama ban hành “Kế hoạch phát triển chiến lược và nghiên cứu dữ liệu lớn liên bang”, được thiết kế để thúc đẩy nghiên cứu và phát triển các ứng dụng dữ liệu lớn sẽ trực tiếp mang lại lợi ích cho xã hội và nền kinh tế.
Năm 2017
Nghiên cứu của IBM cho biết 2,5 nghìn tỷ byte dữ liệu được tạo ra hàng ngày và 90% dữ liệu trên thế giới đã được tạo ra trong hai năm qua.
Ngày nay, dữ liệu liên tục được tạo ra bất cứ lúc nào chúng ta mở ứng dụng, tìm kiếm trên Google hoặc đơn giản là đi du lịch đến nơi bằng các thiết bị di động của mình. Kết quả? Bộ sưu tập khổng lồ thông tin có giá trị mà các công ty và tổ chức cần quản lý, lưu trữ, hình dung và phân tích. Các công cụ dữ liệu truyền thống không được trang bị để xử lý loại phức tạp và khối lượng này, điều này đã dẫn đến một loạt các giải pháp kiến trúc và phần mềm dữ liệu lớn chuyên dụng được thiết kế để quản lý tải.
2. Ứng dụng và những điều cần biết về Big Data:
Sự đa dạng của dữ liệu lớn làm cho nó vốn đã trở nên phức tạp, dẫn đến nhu cầu về các hệ thống có khả năng xử lý các khác biệt khác nhau về cấu trúc và ngữ nghĩa của nó. Dữ liệu lớn yêu cầu cơ sở dữ liệu NoSQL chuyên biệt có thể lưu trữ dữ liệu theo cách không yêu cầu tuân thủ nghiêm ngặt một mô hình cụ thể.
Dữ liệu lớn về cơ bản là sự kết hợp của ba chữ V để hiểu rõ hơn và đưa ra dự đoán, vì vậy sẽ hữu ích khi xem xét kỹ hơn từng thuộc tính.
Âm lượng
Dữ liệu lớn là rất lớn. Trong khi dữ liệu truyền thống được đo bằng các kích thước quen thuộc như megabyte, gigabyte và terabyte, dữ liệu lớn được lưu trữ bằng petabyte và zettabyte.
Để hiểu được mức độ to lớn của sự khác biệt về quy mô, hãy xem xét so sánh này từ Trường Thông tin Berkeley: một gigabyte tương đương với một video 7 phút ở chế độ HD, trong khi một zettabyte tương đương với 250 tỷ DVD.
Đây chỉ là đỉnh của tảng băng trôi. Theo một báo cáo của EMC, vũ trụ kỹ thuật số đang tăng gấp đôi kích thước sau mỗi hai năm và đến năm 2020 dự kiến sẽ đạt 44 nghìn tỷ zettabyte.
Dữ liệu lớn cung cấp kiến trúc xử lý loại dữ liệu này. Nếu không có các giải pháp thích hợp để lưu trữ và xử lý, sẽ không thể khai thác thông tin chi tiết.
Vận tốc
Từ tốc độ tạo cho đến lượng thời gian cần thiết để phân tích, mọi thứ về dữ liệu lớn đều nhanh chóng. Một số người đã mô tả nó giống như đang cố gắng uống từ vòi cứu hỏa.
Các công ty và tổ chức phải có khả năng khai thác dữ liệu này và tạo ra thông tin chi tiết từ nó trong thời gian thực, nếu không, nó không hữu ích lắm. Xử lý thời gian thực cho phép những người ra quyết định hành động nhanh chóng, giúp họ có vị thế trong cuộc cạnh tranh.
Mặc dù một số dạng dữ liệu có thể được xử lý hàng loạt và vẫn có liên quan theo thời gian, nhưng phần lớn dữ liệu lớn đang truyền trực tuyến vào các tổ chức theo từng đoạn và yêu cầu hành động ngay lập tức để có kết quả tốt nhất. Dữ liệu cảm biến từ các thiết bị sức khỏe là một ví dụ tuyệt vời. Khả năng xử lý dữ liệu sức khỏe ngay lập tức có thể cung cấp cho người dùng và bác sĩ thông tin có khả năng cứu sống.
Đa dạng
Khoảng 95% dữ liệu lớn là không có cấu trúc, có nghĩa là nó không dễ dàng phù hợp với một mô hình đơn giản, truyền thống. Mọi thứ từ email và video đến dữ liệu khoa học và khí tượng đều có thể tạo thành một luồng dữ liệu lớn, mỗi dữ liệu có các thuộc tính riêng biệt.
Điều này cung cấp sự linh hoạt cần thiết để phân tích một cách gắn kết các nguồn thông tin dường như khác nhau để có được cái nhìn tổng thể về những gì đang xảy ra, cách thức hành động và thời điểm hành động. Khi tổng hợp, xử lý và phân tích dữ liệu lớn, nó thường được phân loại là dữ liệu hoạt động hoặc dữ liệu phân tích và được lưu trữ cho phù hợp. Các hệ thống hoạt động cung cấp các lô lớn dữ liệu trên nhiều máy chủ và bao gồm đầu vào như khoảng không quảng cáo, dữ liệu khách hàng và mua hàng – thông tin hàng ngày trong một tổ chức.
Các hệ thống phân tích phức tạp hơn các hệ thống vận hành của chúng, có khả năng xử lý các phân tích dữ liệu phức tạp và cung cấp cho các doanh nghiệp những hiểu biết sâu sắc về việc ra quyết định. Các hệ thống này thường sẽ được tích hợp vào các quy trình và cơ sở hạ tầng hiện có để tối đa hóa việc thu thập và sử dụng dữ liệu.
Bất kể nó được phân loại như thế nào, dữ liệu ở khắp mọi nơi. Điện thoại, thẻ tín dụng, ứng dụng phần mềm, xe cộ, hồ sơ, trang web và phần lớn “mọi thứ” trong thế giới của chúng ta có khả năng truyền tải một lượng lớn dữ liệu và thông tin này vô cùng quý giá. Dữ liệu lớn được sử dụng trong hầu hết mọi ngành để xác định các mẫu và xu hướng, trả lời các câu hỏi, hiểu rõ hơn về khách hàng và giải quyết các vấn đề phức tạp. Các công ty và tổ chức sử dụng thông tin vì nhiều lý do như phát triển doanh nghiệp của họ, hiểu các quyết định của khách hàng, tăng cường nghiên cứu, đưa ra dự báo và nhắm mục tiêu các đối tượng chính để quảng cáo.
3. Ví dụ các ngành cuộc cách mạng dữ liệu lớn đã và đang được tiến hành:
– Tài chính
Các ngành tài chính và bảo hiểm sử dụng dữ liệu lớn và phân tích dự đoán để phát hiện gian lận, đánh giá rủi ro, xếp hạng tín dụng, dịch vụ môi giới và công nghệ blockchain, trong số các ứng dụng khác. Các tổ chức tài chính cũng đang sử dụng dữ liệu lớn để tăng cường nỗ lực bảo mật không gian mạng và cá nhân hóa các quyết định tài chính cho khách hàng.
– Chăm sóc sức khỏe
Các bệnh viện, nhà nghiên cứu và các công ty dược phẩm đang áp dụng các giải pháp dữ liệu lớn để cải thiện và nâng cao chất lượng chăm sóc sức khỏe. Với quyền truy cập vào lượng lớn dữ liệu về bệnh nhân và dân số, dịch vụ chăm sóc sức khỏe đang tăng cường các phương pháp điều trị, thực hiện nghiên cứu hiệu quả hơn về các bệnh như ung thư và Alzheimer, phát triển các loại thuốc mới và có được những hiểu biết quan trọng về các mô hình sức khỏe dân số.
– Truyền thông & Giải trí
Nếu bạn đã từng sử dụng Netflix, Hulu hoặc bất kỳ dịch vụ phát trực tuyến nào khác cung cấp các đề xuất, bạn đã chứng kiến dữ liệu lớn tại nơi làm việc. Các công ty truyền thông phân tích thói quen đọc, xem và nghe của chúng tôi để xây dựng trải nghiệm cá nhân hóa. Netflix thậm chí còn sử dụng dữ liệu về đồ họa, tiêu đề và màu sắc để đưa ra quyết định về sở thích của khách hàng.
– Nông nghiệp
Từ hạt giống kỹ thuật đến dự đoán năng suất cây trồng với độ chính xác đáng kinh ngạc, dữ liệu lớn và tự động hóa đang nhanh chóng nâng cao ngành trồng trọt. Với sự tràn ngập dữ liệu trong hai thập kỷ qua, thông tin dồi dào hơn lương thực ở nhiều quốc gia, các nhà nghiên cứu và nhà khoa học hàng đầu phải sử dụng dữ liệu lớn để giải quyết nạn đói và suy dinh dưỡng. Với các nhóm như Dữ liệu mở Toàn cầu về Nông nghiệp & Dinh dưỡng (GODAN) thúc đẩy quyền truy cập mở và không hạn chế vào dữ liệu nông nghiệp và dinh dưỡng toàn cầu, một số tiến bộ đang được thực hiện trong cuộc chiến chấm dứt nạn đói trên thế giới.
– Các lĩnh vực ứng dụng khác
Tiếp thị quảng cáo
Việc kinh doanh
Thương mại điện tử & bán lẻ
Giáo dục
Internet of Things
Các môn thể thao