Tin về Big Data
Big data với những vấn đề, giải pháp & thách thức
Dữ liệu lớn có ở rất nhiều tổ chức, nhiều hoạt động xã hội, kinh doanh, khoa học và tiềm ẩn nhiều giá trị to lớn. Việc đó đồng nghĩa với các nhà khoa học phải đau đầu khi đối phó với việc lưu trữ, xử lý khối lượng số liệu khổng lồ và đa dạng về chủng loại dữ liệu.
Vì vậy việc nghiên cứu các công nghệ, thuật toán để giải quyết bài toán về lưu trữ, xử lý và phân tích các loại dữ liệu lớn (Big data) một cách nhanh nhất sẽ đáp ứng được yêu cầu cấp thiết của mọi lĩnh vực.
Một trong những giải pháp về Big data là mã nguồn mở rất nổi tiếng, đang được rất nhiều các nhà khoa học trên thế giới quan tâm nghiên cứu và hoàn thiện, đó chính là Hadoop. Giải pháp Hadoop đem lại rất nhiều tính năng ưu việt trong việc lưu trữ và tính toán xử lý song song trên nhiều máy chủ với số liệu rất lớn trong thời gian rất ngắn.
Một số thuật ngữ
Big data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể nào đảm đương được. Nói đến Big data, người ta thường nói có 4 chữ V thể hiện đặc trưng của Big data:
Volume: là sự tăng trưởng về mặt khối lượng. Dữ liệu trong các hệ thống thông tin luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng). Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng Terabyte và Petabyte. Theo tài liệu của Intel hồi tháng 9/2013, cứ mỗi 11 giây, 1 PB1 dữ liệu được tạo ra trên toàn thế giới, tương đương với một đoạn video HD dài 13 năm. Facebook phải xử lý khoảng 500 TB2 dữ liệu mỗi ngày.
Velocity: là sự tăng trưởng về mặt tốc độ. Bên cạnh sự tăng trưởng về khối lượng, tốc độ tăng trưởng của dữ liệu cũng tăng lên một cách chóng mặt. Đơn cử, trên các mạng xã hội, đôi khi các thông báo cách đó vài giây (tweet, status….) đã là cũ và không được người dùng quan tâm. Người dùng thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu giờ đây hầu như là thực tế (real time), và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây.
Variety: là sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu không chỉ ở dạng có cấu trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ liệu cảm biến, cũng như các file log. Dữ liệu của một doanh nghiệp hay một hệ thống thông tin ngày nay không còn đơn giản chỉ có một hoặc một vài loại dữ liệu nữa, tính đa dạng của nó đang gia tăng theo từng ngày, dữ liệu ngày càng phức tạp hơn.
Veracity: là tính xác thực của dữ liệu. Với xu hướng “Social” ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng “Mobile”, bức tranh xác định về độ tin cậy và tính chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big data.
Vấn đề xử lý Big data
Big data được xử lý thông qua 4 giai đoạn: thu thập (acquire), tổ chức (organize), phân tích (analyze), quyết định (decide).
Đến nay, giai đoạn thu thập hầu hết đã có giải pháp. Đơn cử, Oracle đưa ra NoSQL Database, Google có Google BigTable…
Giai đoạn tổ chức: có thể lưu trữ dữ liệu ở dạng phân tán, song song… nhưng phổ biến nhất vẫn là Hadoop/MapReduce.
Giai đoạn phân tích: với các dữ liệu truyền thống, các công ty lớn đều đã có giải pháp. Đơn cử, Oracle có Oracle Data warehousing, IBM có InfoSphere warehouse…
Giai đoạn quyết định: dựa vào các thông tin được phân tích sẽ đưa ra các quyết định giải pháp kinh doanh kịp thời.
Các giải pháp Hadoop
Hadoop đã được tạo ra hồi năm 2005 bởi Doug Cutting và Mike Cafarella, để giải quyết các vấn đề của Big data. Đến năm 2011, Hadoop được sử dụng rộng rãi trong các công ty lớn.
Hadoop là một nền tảng mới. Nó cung cấp môi trường quen thuộc cho các nhà phát triển, nhà phân tích dữ liệu, và nhà quản trị hệ thống để sử dụng và khai thác sức mạnh của nó. Đơn cử, nhà phát triển quen thuộc với Java, .NET và các ngôn ngữ hướng đối tượng như Python hay Pig, có các Tool, SDK và API để làm việc với Hadoop.
Hadoop là một framework mã nguồn mở hỗ trợ lưu trữ và xử lý Big data với các cấu trúc khác nhau (kể cả không cấu trúc) trên những máy chủ bình thường. Hadoop có nhiều lợi thế so với các framework khác:
- Khả năng mở rộng: cho phép thay đổi số lượng phần cứng mà không cần thay đổi định dạng dữ liệu hay khởi động lại hệ thống.
- Hiệu quả chi phí: hỗ trợ lưu trữ và xử lý song song trên những máy chủ bình thường.
- Linh hoạt: hỗ trợ bất kỳ loại dữ liệu từ bất kỳ nguồn nào.
- Chịu lỗi: thiếu dữ liệu và phân tích thất bại là hiện tượng thường gặp trong phân tích Big data. Hadoop có thể phục hồi và phát hiện nguyên nhân thất bại do tắc nghẽn mạng.
Một số thách thức cho Big data
Việc phân tích và xử lý Big data đang đối mặt với nhiều thách thức.
- Truyền dữ liệu: việc truyền dữ liệu lớn thường phải gánh chịu chi phí cao, đây là “nút cổ chai” của việc tính toán Big data. Tuy nhiên, truyền dữ liệu là không thể tránh khỏi trong các ứng dụng Big data. Nâng cao hiệu quả truyền dữ liệu lớn là một yếu tố quan trọng để nâng cao tính toán Big data.
- Tốc độ xử lý trong các yêu cầu thời gian thực: khi dữ liệu số lượng dữ liệu tăng nhanh chóng, gây ra một thách thức rất lớn đối với các ứng dụng thời gian thực, thì việc tìm ra các phương pháp hiệu quả trong suốt luồng dữ liệu là cần thiết để đáp ứng yêu cầu về thời gian thực.
- Nền tảng Big data: mặc dù Hadoop đã trở thành một trụ cột trong nền tảng phân tích Big data nhưng nó vẫn còn trong giai đoạn phát triển, so với cơ sở dữ liệu quan hệ. Đầu tiên, Hadoop phải tích hợp với thời gian thực cho việc thu thập và truyền Big data, và cung cấp xử lý nhanh hơn dựa trên các mô hình xử lý hàng loạt. Thứ hai, Hadoop nên cung cấp một giao diện lập trình ngắn gọn, và ẩn những tiến trình xử lý phức tạp bên dưới. Thứ ba, trong những hệ thống Hadoop lớn, số lượng máy chủ lên hàng ngàn, thậm chí hàng trăm ngàn, nghĩa là năng lượng tiêu thụ đáng kể. Vì vậy, Hadoop nên có cơ chế sử dụng năng lượng hiệu quả.
- Bảo mật dữ liệu và quyền riêng tư: là vấn đề rất quan trọng. Một số ví dụ trong thực tế cho thấy, không chỉ thông tin cá nhân người tiêu dùng, thông tin mật của các tổ chức mà ngay cả các bí mật an ninh quốc gia cũng có thể bị xâm phạm. Do vậy, giải quyết các vấn đề an ninh dữ liệu bằng các công cụ kỹ thuật và các chính sách trở nên vô cùng cấp bách. Các nền tảng Big data nên cân bằng tốt giữa việc truy cập dữ liệu và xử lý dữ liệu.
Như vậy, Big data ngày càng đóng vai trò quan trọng. Để giải quyết được bài toán Big data, đòi hỏi cần tổng hợp nhiều công nghệ và kỹ thuật khác nhau. Mỗi công nghệ và kỹ thuật cần có thời gian nghiên cứu và phát triển để hoàn thiện. Do vậy, với Big data, rất nhiều lợi ích nhưng cũng còn nhiều vấn đề và thách thức cần giải quyết.
Theo hoahocphothong
Big Data Solutions
Phân tích Khách hàng
DỊCH VỤ CUNG CẤP DỮ LIỆU KINH TẾ/TÀI CHÍNH
Dịch vụ khảo sát và cung cấp dữ liệu nghiên cứu
Phân tích chuỗi cung ứng
Dịch và và giải pháp Bigdata, Dịch vụ dữ liệu chính xác, tin cậy , đúng mục tiêu
Phân tích dữ liệu trong ngành hàng bán lẻ và tiêu dùng
Data hàng trăm ngàn record về địa điểm, bệnh viện, trường học, công viên, sân bay, bến xe buýt,...
Phân tích con người
Dịch vụ và giải pháp Big Data cho lĩnh vực Y - Dược - Chăm Sóc Sức Khỏe
Dịch vụ và giải pháp Big Data cho lĩnh vực du lịch
Có thể bạn quan tâm:
Quản lý thu chi kinh doanh, tài chính cá nhân,... trên điện thoại và máy tính bảng.
Đầy đủ tính năng cần thiết và dễ dàng sử dụng. Dùng miễn phí nhưng an toàn tuyệt đối!
Quản lý thu chi kinh doanh.
Quản lý thu chi bán hàng online.
Quản lý thu chi cửa hàng.
Quản lý vay nợ, trả nợ.
Quản lý thanh khoản hợp đồng.
Quản lý tài chính cá nhân.
Quản lý tài chính hộ gia đình.
Quản lý tài khoản tiền mặt, tài khoản ngân hàng.
An toàn, không sợ bị lộ dữ liệu tài chính.
Dễ dàng thao tác mọi lúc mọi nơi.
* Ứng dụng của chúng tôi hoàn toàn miễn phí, chạy offline, trên ứng dụng chỉ có banner quảng cáo nhỏ của Google. Chúng tôi không thu thập dữ liệu người dùng, không cài cắm các phần mềm độc hại, không gây tốn pin,...
Cài đặt và sử dụng hoàn toàn miễn phí và an toàn khi sử dụng cho điện thoại và máy tính bảng Android TẠI ĐÂY >>
hoặc qua QRCODE sau:
Cài đặt và sử dụng hoàn toàn miễn phí và an toàn khi sử dụng qua file APK, tải file tại đây >>
Cài đặt và sử dụng hoàn toàn miễn phí và an toàn khi sử dụng cho iOS (iPhone và iPad) TẠI ĐẬY >>
Xem hướng dẫn chi tiết từng tính năng tại phần Hướng dẫn >>
- Các nền tảng công nghệ hỗ trợ cho KHỞI NGHIỆP và CHUYỂN ĐỔI SỐ tiết kiệm, hiệu quả,...
- 5 lý do sở hữu một ứng dụng di động là cần thiết đối với doanh nghiệp vừa và nhỏ
- Hệ thống điều hành, tìm gọi và quản lý xe sử dụng công nghệ mới
- Khắc phục lỗi đăng nhập Windows 10, không thể login vào Windows 10
- Mạng xã hội là gì? Hiểu đầy đủ nhất về mạng xã hội
- IoT là gì? ứng dụng của IoT trong cuộc sống hiện đại
- Hướng dẫn cài ứng dụng, phần mềm cho Android trực tiếp bằng tập tin APK
- Ứng dụng bán hàng trên smartphone, smart TV, mạng xã hội...
- 100 Website đặt backlink miễn phí chất lượng
- Platform là gì?
- Cách đổi tên thiết bị Android
- Hệ thống order chuyên nghiệp cho quán ăn, cafe, nhà hàn
- Thông tin Du Lịch có ngay trong túi mọi người
- Phân hệ Quản lý Đội xe (Fleet Management) trong một hệ thống ERP thường có gì?
- Giải pháp cho dịch vụ bác sĩ gia đình
- Hệ thống chấm công từ xa thông minh SAttendance và hệ thống định vị STracking
- Phòng khám, bệnh viện thông minh
- Bác sĩ gia đình, chăm sóc sức khỏe tại nhà
- Kinh doanh vé xe, đặt vé xe, vé máy bay trên smartphone, Smart TV, Mạng xã hội
- Tìm bất động sản, tìm nhà đất, tìm phòng theo mô hình uber trên smartphone
- App hẹn lịch chăm sóc sắc đẹp, book vé spa, massage
- STracking ứng dụng chấm công nhân viên làm các công việc ngoài văn phòng công ty
- Nhà thuốc, dược trên smartphone và tablet
- VIP Finance Hệ Sinh Thái phân tích đánh giá cổ phiếu, trái phiếu, thị trường vàng, thị trường forex
Bằng cách đăng ký kênh và chia sẻ bài, bạn đã cùng DVMS chia sẻ những điều hữu ích