SK Telecom của Hàn Quốc được cho là tung ra một nền tảng dựa trên blockchain cho việc xác thực định danh của khách hàng trong năm nay.
Khoa học dữ liệu đang dần khẳng định vai trò của mình trong việc cải thiện sức khỏe ngày nay. Big Data không chỉ được ứng dụng để xác định phương hướng điều trị mà giúp cải thiện quá trình chăm sóc sức khỏe. Từ khi Big Data được ứng dụng vào lĩnh vực chăm sóc sức khỏe, nó đã tạo nên nhiều tác động lớn trong việc giảm lãng phí tiền bạc và thời gian.

Xem thêm: Giải pháp Big data cho lĩnh vực y tế
Khoa học phân tích dữ liệu là một nhánh rẽ quan trọng trong lĩnh vực công nghệ thông tin. Nó sớm bộc lộ những tiềm lực quan trọng thúc đẩy sự phát triển của thế giới. Với sự phát triển nhanh chóng và lan rộng của mình, ngành Khoa học Dữ liệu đặc biệt thu hút sự quan tâm của các chuyên gia Việt Nam và cả trên khắp thế giới.

Xem thêm: Khoa học phân tích dữ liệu – Góc nhìn từ Việt Nam và Thế Giới
Marketing là chìa khóa để cánh cửa thành công cho bất kỳ doanh nghiệp nào. Giờ đây, không chỉ các công ty lớn có thể điều hành các hoạt động quảng cáo tiếp thị mà cả các doanh nhân nhỏ cũng có thể chạy các chiến dịch quảng cáo thành công trên các nền tảng truyền thông xã hội và quảng bá sản phẩm của họ.

Xem thêm: Giải pháp Big data cho lĩnh vực Marketing
Nếu các bạn đã theo dõi các bài viết của Big Data Uni thì chắc cũng đã nắm được tổng quan về Big Data bao gồm khái niệm, lợi ích và ứng dụng của nó trong nhiều lĩnh vực khác nhau. Trong chủ đề bài viết lần này và sắp tới, chúng tôi sẽ không đề cập về những giá trị mà Big Data đem lại mà đi vào trọng tâm một trong những công cụ, quá trình quan trọng nhất đối với mỗi dự án Big Data đó chính là Data mining (hay còn gọi là khai phá dữ liệu).

Xem thêm: TỔNG QUAN VỀ DATA MINING (P1): KHAI PHÁ DỮ LIỆU LÀ GÌ?
Tại Việt Nam, kho dữ liệu còn rất hạn chế, muốn nghiên cứu phải đòi hỏi nền tảng công nghệ rất lớn. Tuy nhiên, để phục vụ người dân tốt hơn thì việc xây dựng dữ liệu lớn (big data) là việc cần thiết, phải đẩy mạnh triển khai trong thời gian tới.

Nhiều doanh nghiệp Việt Nam chưa xây dựng big data trong hoạt động sản xuất, kinh doanh và quản trị doanh nghiệp
Xem thêm: Việt Nam còn thiếu big data?
Vấn đề là Bộ y tế, cơ quan Bảo hiểm xã hội nên sử dụng quyền hạn của mình như thế nào để yêu cầu các bệnh viện cùng tham gia vào chiến lược xây dựng hệ thống Big Data một cách đồng bộ.

Xem thêm: Dữ liệu lớn góp phần tăng giá trị lớn cho ngành chăm sóc sức khỏe
Ở 2 bài viết trước đã giới thiệu đến các bạn thuật toán Classification đầu tiên là KNN (K – nearest neighbor) và một số phương pháp đánh giá mô hình phân loại như Hold out, Cross validation, hay Confusion matrix, Lift, Gain chart, ROC/ AUC. Trở lại với chủ đề về những thuật toán phân loại trong Data mining, lần này chúng tôi và các bạn sẽ tìm hiểu về Decision Tree, thuật toán có thể nói là “nổi tiếng”, “phổ biến” mà bất kỳ ai hoạt động và làm việc trong lĩnh vực khoa học dữ liệu, hoặc phân tích dữ liệu đều phải biết đến.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.1) : CLASSIFICATION & REGRESSION TREE (CART)
Dữ liệu (Data) được coi là biểu tượng hoặc dấu hiệu, đại diện cho các kích thích hoặc tín hiệu, sự kiện đã xảy ra được ghi nhận bởi tác nhân quan sát (sensor, người hay thiết bị thu thập data chuyên dụng)

Xem thêm: Hiểu về thế giới từ dữ liệu như thế nào?
Quay trở lại với chủ đề về Decision trees, thì ở 2 bài viết trước đã giới thiệu đến các bạn khái quát thế nào là thuật toán cây quyết định, bao gồm các thành phần, và một số công thức tính toán để lựa chọn các biến phân nhánh hay cách phân nhánh tối ưu, mục đích dự báo, phân loại, phân nhóm các đối tượng dữ liệu vào các nhóm, các lớp của biến mục tiêu sao cho chính xác nhất.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.3): C4.5 (ENTROPY)
Ở các bài viết trước, chúng tôi đã giới thiệu về khái niệm Chatbot và cách thức vận hành cũng như những phương pháp áp dụng cho quá trình phát triển Chatbot. Ở bài viết lần này, chúng tôi sẽ trình bày các lợi ích của Chatbot đem lại cho khách hàng và các công ty hoạt động kinh doanh.

Xem thêm: TỔNG QUAN VỀ CHATBOT (PHẦN 3): LỢI ÍCH CỦA CHATBOT
Quay trở lại với chủ đề về dữ liệu khách hàng, ở bài viết phần 1 và phần 2, đã giới thiệu đến các bạn những khái niệm về phân tích dữ liệu khách hàng, loại dữ liệu khách hàng có thể thu thập, và lợi ích, cũng như mục đích của quá trình Customer data analytics. Trong phần 3 lần này, chúng tôi sẽ cung cấp những giải pháp hỗ trợ các công ty khai thác nguồn dữ liệu khách hàng của họ sao cho hiệu quả nhất.

Xem thêm: TỔNG QUAN VỀ CUSTOMER DATA (P.3) GIẢI PHÁP KHAI THÁC CUSTOMER DATA HIỆU QUẢ
Để thu thập các thông tin bệnh nhân các nhà nghiên cứu phải sử dụng đến đơn vị petabyte. Mỗi petabyte dữ liệu tương đương với 1 triệu gigabyte. Công ty Express Scripts, có trụ sở tại St Louis, Missouri, Mỹ, đã thu thập được 22 petabyte dữ liệu y tế từ 83 triệu bệnh nhân, với số lượng dữ liệu này được chuyển đổi thành định dạng MP3, sẽ mất khoảng 44.000 năm để lắng nghe hết số lượng tệp nhạc này.

Xem thêm: Sự ảnh hưởng của “Big data” tới ngành Dược trong tương lai
Ứng dụng Big Data trong ngành truyền thông và giải trí là cả một nghệ thuật. Khoa học và nghệ thuật là hai lĩnh vực trái ngược. Nhưng Big Data và nghệ thuật lại bổ sung cho nhau khá tốt. Ngành truyền thông và giải trí đã chứng kiến một sự thay đổi lớn thông qua liên kết với phân tích Big Data.

Xem thêm: Ứng dụng Big Data trong ngành truyền thông và giải trí
Từ khi có ứng dụng data science, ngành y tế và chăm sóc sức khỏe cũng có những bước nhảy vọt quan trọng. 5 nhóm lĩnh vực data science đã áp dụng thành công những ứng dụng của data science có thể kể đến như Phân tích hình ảnh y khoa, gien và bộ gien, Điều chế thuốc, phân tích và chẩn đoán, ứng dụng phần mềm sức khỏe hay trợ lý sức khỏe tâm lý.

Xem thêm: Ứng dụng Data Science vào lĩnh vực Y tế mang tính đột phá
Theo một báo cáo mới được công bố tại Diễn đàn Kinh tế Thế giới, những thay đổi về nhân khẩu học và tiến bộ kỹ thuật có thể dẫn đến việc 5 triệu việc làm sẽ biến mất vào năm 2020. Tuy nhiên, ngược lại có một số công việc lại được dự đoán sẽ có sự tăng trưởng đáng kể, trong đó có nghề phân tích dữ liệu.

Xem thêm: Chọn nghề phân tích dữ liệu?
Big Data ngày càng được sử dụng để tối ưu hóa các quy trình kinh doanh. Các nhà bán lẻ có thể tối ưu hóa cổ phiếu của họ dựa trên dự đoán. Từ dữ liệu truyền thông xã hội, xu hướng tìm kiếm trên web và dự báo thời tiết.

Xem thêm: Giải Pháp Big Data Tối ưu hóa quy trình kinh doanh
Hàn Quốc tự hào là nước có ngân hàng dữ liệu quốc gia về sức khoẻ của toàn bộ người dân. Hiện nay, Hàn Quốc đã bắt đầu nghiên cứu ứng dụng “Y học chính xác” hay “Y học cá thể” từ kho dữ liệu lớn về sức khoẻ của quốc gia. Tại quốc gia này, dữ liệu sức khoẻ của người dân được chia làm 6 nhóm dữ liệu.

Dữ liệu gen và SDOH là đầu vào của tình trạng sức khỏe, dữ liệu lâm sàng và PGHD là đầu ra của tình trạng sức khỏe
Xem thêm: Tìm hiểu các loại dữ liệu sức khoẻ của “Big data” tại Hàn Quốc
Trở lại với chủ đề Data security, bảo mật dữ liệu, ở phần 1 bài viết trước chúng ta đã cùng nhau tìm hiểu về thực trạng Data security trên toàn cầu thông qua bàn luận những số liệu từ các báo cáo, nghiên cứu của Verizon và IBM về Data breach (xâm phạm, đánh cắp, rò rỉ dữ liệu) tại những công ty, tổ chức đến từ nhiều quốc gia khác nhau; cũng như tìm hiểu tổng quan về Data security như khái niệm, lợi ích, thách thức.

Xem thêm: GIẢI PHÁP CẢI THIỆN BẢO MẬT DỮ LIỆU – DATA SECURITY
Trở lại với chủ đề bài viết về phân tích dự báo – Predictive analytics, ở phần 1, đã giới thiệu đến các bạn thế nào là phân tích dự báo, phân biệt nó với Data analytics, Descriptive analytics (phân tích mô tả) và Prescriptive analytics (phân tích đề xuất), còn phần 2 lần này chúng tôi sẽ đi vào trình bày một cách tổng quan về bản chất, cách thức vận hành, quy trình, và các thuật toán hay kỹ thuật phân tích được sử dụng trong Predictive analytics.

Xem thêm: TỔNG QUAN VỀ PREDICTIVE ANALYTICS (PHÂN TÍCH DỰ BÁO) (PHẦN 2)
Ở phần 1 “Sự bùng nổ của social media và xu hướng marketing mới”, chúng ta đã tìm hiểu về social media và xu hướng marketing tập trung vào social media trong thời đại công nghệ phát triển. Tiếp theo của chủ đề bài viết, chúng ta sẽ tìm hiểu về tác động của Big data và lợi ích của nó đến social media marketing.

Xem thêm: TÁC ĐỘNG BIG DATA ĐẾN XU HƯỚNG SOCIAL MEDIA MARKETING
Phân tích dữ liệu là một công việc rất quan trọng giúp chúng ta có thể lập báo cáo tốt hơn, tránh được những sai sót, đảm bảo được tính chính xác của báo cáo. Vậy phân tích dữ liệu là phải làm những công việc gì? Sau đây chúng ta sẽ tìm hiểu về kỹ năng phân tích dữ liệu trước khi lập báo cáo trên Excel thông qua 1 bài tập sau:
Giả sử rằng bạn làm ở vị trí trưởng bộ phận bán hàng. Cuối tháng bạn nhận được 1 bảng dữ liệu về bán hàng trong tháng của cửa hàng mình như sau:

Như vậy chúng ta đã cùng nhau đi qua 4 phần của series bài viết về thuật toán Decision trees hay còn gọi là thuật toán cây quyết định. Chúng ta đã làm quen với định nghĩa tổng quát, các dạng cây quyết định bao gồm phân 2 nhánh – CART, và nhiều nhánh C4.5 sử dụng các công thức Goodness of Split, Gini Index, Entropy kết hợp với Information Gain, hay Gain Ratio để xây dựng mô hình áp dụng cho biến mục tiêu là biến định tính, và chúng ta cũng tiếp cận qua một số cách thức để tăng độ hiệu quả của mô hình, tránh trường hợp Overfitting hay Underfitting như Stopping rule và Pruning method, và nhìn lại những ưu điểm, khuyết điểm một cách tổng thể về Decision Trees.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.5) REGRESSION TREE VÀ DECISION RULES
Tất cả chúng ta đang đều sống và làm việc trong thời đại công nghệ hiện đại nó đang làm thay đổi toàn bộ cục diện của tất cả hầu hết các lĩnh vực kinh tế, xã hội, y tế, quốc phòng,..

Xem thêm: BIG DATA – THÀNH QUẢ CỦA CÁCH MẠNG CÔNG NGHỆ HIỆN ĐẠI
Nếu các bạn có theo dõi các bài viết trước của Big Data Uni về Chatbot thì cũng đã biết sự cần thiết và tầm quan trọng của hệ thống trả lời tự động ứng dụng trong mọi lĩnh vực, với mục đích quản lý hiệu quả các hoạt động tạo dựng, duy trì mối quan hệ với khách hàng đồng thời thu hút họ mua sản phẩm và đăng ký sử dụng dịch vụ.

Xem thêm: CÁC CHỈ SỐ KPI ĐÁNH GIÁ CHATBOT
Big data là gì? Công nghệ dữ liệu lớn là gì? Phân tích dữ liệu lớn là gì? Mang lại lợi ích như thế nào? Ứng dụng của Big Data trong thời đại công nghệ 4.0 là gì?
Các công ty công nghệ lớn hiện nay tại sao lại cần và ứng dụng Big Data nhiều đến vậy? Những cơ hội và thách thức khi ứng dụng Big Data là gì?
Hẳn là bạn đã từng giật mình khi bạn tìm kiếm thông tin nào đó trên Google. Mua sắm ở các trang thương mại trực tuyến và nhận thấy các trang này.

Xem thêm: Big Data công nghệ biến “sắt” thành mỏ “vàng”, Cơ hội và thách thức
Trở lại với chủ đề bài viết về thuật toán cây quyết định, ở bài viết trước đã giới thiệu đến các bạn tổng quan thế nào là Decision Tree, các công thức quan trọng để xác định cách phân nhánh tối ưu hay nói cách khác là đem lại kết quả phân loại (classification) chính xác dựa trên các thuộc tính dữ liệu và đặc biệt là thuật toán CART (classification and regression tree) sử dụng công thức “Goodness of Split”.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.2): CART (GINI INDEX)
Giới thiệu về K – nearest neighbor (KNN)
Ở các bài viết trước đã giới thiệu đến các bạn một cách tổng quan những chủ đề về Data mining (Khai phá dữ liệu), Predictive analytics (Phân tích dự báo), Statistics (Thống kê) bao gồm các khái niệm quan trọng, kỹ thuật phân tích và ứng dụng, lợi ích trong các lĩnh vực khác nhau.

Xem thêm: THUẬT TOÁN KNN VÀ VÍ DỤ ĐƠN GIẢN TRONG NGÀNH NGÂN HÀNG
Ở bài viết trước, phần 1 về ứng dụng Big Data trong lĩnh vực E-commerce, đã giới thiệu đến các bạn tổng quan về thị trường E-commerce, các định nghĩa, khái niệm về kinh doanh trực tuyến, đồng thời mô tả nguồn dữ liệu E-commerce có những đặc tính được coi là Big Data và nói lên nhu cầu khai thác.

Xem thêm: ỨNG DỤNG BIG DATA TRONG LĨNH VỰC E-COMMERCE (PHẦN 2)
Dịch vụ dữ liệu chính xác, tin cậy , đúng mục tiêu , đúng nhu cầu cho lĩnh vực du lịch, lữ hành, team-building,...
Ngoài ra chúng tôi còn có sẵn data địa điểm rất hữu ích cho các dự án khởi nghiệp về du lịch, địa điểm, mạng xã hội du lịch, ...

Xem thêm: Dịch vụ và giải pháp Big Data cho lĩnh vực du lịch
Phân tích dự báo hay còn gọi Predictive analytics là một trong những phương pháp, kỹ thuật phân tích dữ liệu phổ biến và quan trọng nhất ngày nay. Đây là công cụ hữu ích để những nhà khoa học, chuyên gia hoạt động ở lĩnh vực Data science có cái nhìn chi tiết về đối tượng nghiên cứu, khám phá các mối liên hệ, đưa ra những phán đoán về đối tượng nghiên cứu ở tương lai chứ không chỉ dừng lại tại quá trình mô tả.

Xem thêm: TỔNG QUAN VỀ PREDICTIVE ANALYTICS (PHÂN TÍCH DỰ BÁO) (PHẦN 1)
Ở các phần trước trong chủ đề về Statistics (thống kê) đã giới thiệu đến các bạn các khái niệm, lợi ích, ứng dụng của thống kê, đặc biệt Descriptive statistics (thống kê mô tả), một trong 2 dạng cơ bản của Statistics. Trở lại với bài viết lần này chúng tôi sẽ trình bày tóm tắt về dạng còn lại, chính là một số kiến thức của Inferential Statistics hay còn gọi là thống kê suy luận.

Xem thêm: TỔNG QUAN VỀ STATISTICS: INFERENTIAL STATISTICS (THỐNG KÊ SUY LUẬN)
Thông thường, khi khối lượng của một tập dữ liệu rất lớn và không thể quản lý được như các cơ sở dữ liệu truyền thống, thì chúng ta có thể gọi nó là Big Data. Đến lúc này, đám mây cung cấp cơ sở hạ tầng cần thiết cho việc tính toán dữ liệu lớn. Trong cuộc sống thực, nhiều tổ chức đang kết hợp hai công nghệ này để cải thiện hoạt động điều phối kinh doanh của mình.

Xem thêm: Giải pháp Big data cho lĩnh vực Điện Toán Đám Mây
Đây là một trong những lĩnh vực sử dụng Big data công khai và lớn nhất hiện nay. Big data được sử dụng để hiểu rõ hơn về khách hàng cũng như hành vi và sở thích của họ. Các công ty rất muốn mở rộng bộ dữ liệu truyền thông của họ, dữ liệu truyền thông xã hội, nhật ký trình duyệt cũng như phân tích văn bản, dữ liệu cảm biến. Để có được bức tranh đầy đủ hơn về khách hàng của họ. Mục tiêu lớn hơn, trong nhiều trường hợp, là tạo ra các mô hình dự đoán.

Xem thêm: Giải pháp Big data giúp hiểu Khách Hàng Mục Tiêu
Murray Webb, 33 tuổi, tốt nghiệp thạc sĩ về thống kê ứng dụng (applied statistics) tại Trường Đại học Kennesaw (Atlanta, Mỹ), hiện kiếm được 160.000 đô la một năm với công việc chủ yếu là theo dõi phần thông tin về dữ liệu chăm sóc sức khỏe khách hàng cho các bệnh viện. Webb cho biết hằng tuần đều có người đại diện của các công ty cũng như các công ty chuyên cung cấp nguồn nhân lực tìm đến anh và đưa ra các lời mời làm việc như một nhà khoa học dữ liệu (data scientist).

Xem thêm: Khoa học dữ liệu – nghề đang hái ra tiền ở Mỹ
Ở thời điểm nay, không phải tài sản vật chất, thiết bị máy móc hay cơ sở hạ tầng sản phẩm là tài sản lớn nhất của một doanh nghiệp, mà chính là khách hàng. Nếu bạn không thể làm hài lòng khách hàng và hiểu nhu cầu của họ, thì bạn sẽ không bao giờ trở thành chủ sở hữu của một doanh nghiệp thành công.

Xem thêm: Giải pháp Big data cho lĩnh vực Dịch Vụ Khách Hàng
Các công ty truyền thông và người hoạt động trong lĩnh vực giải trí cần thúc đẩy chuyển đổi kỹ thuật số để phân phối sản phẩm và nội dung của họ nhanh nhất có thể tại thị trường hiện tại.

Xem thêm: Giải pháp Big data cho lĩnh vực Truyền Thông và Giải Trí
Big Data được ứng dụng trong rất nhiều lĩnh vực khác nhau như đã giới thiệu ở bài viết “Big Data – Tên gọi gợi lên khái niệm”. Bài viết tiếp theo dưới đây sẽ nói chi tiết hơn về các ứng dụng của Big data trong từng trường hợp cụ thể, và trong từng lĩnh vực đặc thù. Qua đó chúng ta sẽ thấy được tầm quan trọng trong việc thu thập và phân tích dữ liệu Big data.

Xem thêm: ỨNG DỤNG CỦA BIG DATA TRONG MỌI LĨNH VỰC
Ngày nay, tiềm năng phát triển các chiến lược kinh doanh dựa trên dữ liệu và thông tin là lớn hơn bao giờ hết. Đối với một số tổ chức, dữ liệu và phân tích dữ liệu đã trở thành động lực chính trong việc đề xuất các chiến lược kinh doanh của họ.

Xem thêm: CÔNG TY ĐỊNH HƯỚNG DỮ LIỆU (DATA – DRIVEN ENTERPRISE) (PHẦN 2)
1. Xu hướng nghề nghiệp trong tương lai
Hiện tại, chúng ta đang sống trong giai đoạn đầu của thời kỳ cách mạng công nghiệp lần thứ 4. Triết lý của cuộc cách mạng công nghiệp 4.0 là chúng ta phải sử dụng công nghệ thông tin để tăng được năng suất lao động, từ đó tiết kiệm được chi phí, mang lại lợi ích cho người tiêu dùng.

Xem thêm: CHUYÊN GIA PHÂN TÍCH DỮ LIỆU – SỰ THÀNH CÔNG TRONG TƯƠNG LAI