Một dự án lớn đang được tiến hành ở cả Anh và Mỹ nhằm thu thập thông tin thông qua một khối lượng lớn dữ liệu bệnh nhân. Đây là một dự án đầy hứa hẹn nhằm tối ưu hóa giá trị sử dụng thuốc, từ việc xác định sự kém tuân thủ trong điều trị để nâng cao chất lượng kê đơn.

Xem thêm: Dữ liệu lớn Big data và Tương lai của ngành Dược?
Trở lại với chủ đề về thống kê, ở phần trước chúng tôi đã giới thiệu đến các bạn các khái niệm về thống kê cũng như lợi ích và ứng dụng của nó, tiếp theo ở phần này, chúng tôi sẽ đề cập đến một mảng kiến thức quan trọng khác đó chính Descriptive statistics (thống kê mô tả)

Xem thêm: TỔNG QUAN VỀ STATISTICS: DESCRIPTIVE STATISTICS (THỐNG KÊ MÔ TẢ)
Tại Việt Nam, kho dữ liệu còn rất hạn chế, muốn nghiên cứu phải đòi hỏi nền tảng công nghệ rất lớn. Tuy nhiên, để phục vụ người dân tốt hơn thì việc xây dựng dữ liệu lớn (big data) là việc cần thiết, phải đẩy mạnh triển khai trong thời gian tới.

Nhiều doanh nghiệp Việt Nam chưa xây dựng big data trong hoạt động sản xuất, kinh doanh và quản trị doanh nghiệp
Xem thêm: Việt Nam còn thiếu big data?
Ở 2 bài viết trước đã giới thiệu đến các bạn thuật toán Classification đầu tiên là KNN (K – nearest neighbor) và một số phương pháp đánh giá mô hình phân loại như Hold out, Cross validation, hay Confusion matrix, Lift, Gain chart, ROC/ AUC. Trở lại với chủ đề về những thuật toán phân loại trong Data mining, lần này chúng tôi và các bạn sẽ tìm hiểu về Decision Tree, thuật toán có thể nói là “nổi tiếng”, “phổ biến” mà bất kỳ ai hoạt động và làm việc trong lĩnh vực khoa học dữ liệu, hoặc phân tích dữ liệu đều phải biết đến.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.1) : CLASSIFICATION & REGRESSION TREE (CART)
Sự phát triển của ngành ngân hàng (Banking) đi đôi với sự ra đời của Big Data
Ngành ngân hàng đã phát triển theo bước nhảy vọt trong thập kỷ qua từ hoạt động vận hành kinh doanh đến cung cấp dịch vụ. Điều đáng ngạc nhiên chính là, hầu hết các ngân hàng đều gặp khó khăn hay thất bại trong việc sử dụng, khai thác thông tin, dữ liệu từ cơ sở dữ liệu (database) mà họ có được từ khách hàng và từ các chi nhánh, bộ phận của tổ chức.

Xem thêm: ỨNG DỤNG CỦA BIG DATA TRONG LĨNH VỰC NGÂN HÀNG (PHẦN 1)
Dịch vụ dữ liệu chính xác, tin cậy , đúng mục tiêu , đúng nhu cầu cho lĩnh vực du lịch, lữ hành, team-building,...
Ngoài ra chúng tôi còn có sẵn data địa điểm rất hữu ích cho các dự án khởi nghiệp về du lịch, địa điểm, mạng xã hội du lịch, ...

Xem thêm: Dịch vụ và giải pháp Big Data cho lĩnh vực du lịch
Hàng ngày, chúng ta thường xuyên kết nối thông qua điện thoại, máy tính bảng, bảng điều khiển trò chơi và hầu hết các ứng dụng, các kênh kết nối đều được thực hiện qua các thiết bị này.Khi di chuyển giữa các thiết bị và kênh, họ đang tạo ra nhiều điểm tiếp xúc, kết nối giữa các thiết bị khác nhau mà không hề hay biết.

Xem thêm: BIG DATA Là Chìa Khóa Thành Công Của Marketing Thời Đại Số
Ở phần 1 bài viết cùng chủ đề, đã giới thiệu các khái niệm về Data quality, Data quality management; lợi ích; tầm quan trọng; và các tiêu chuẩn, tiêu chí đánh giá chất lượng dữ liệu. Mặc dù nhiều công ty, tổ chức hiện nay đã nhận thức được sự cần thiết của các nhiệm vụ trong Data quality, nhưng họ vẫn phải đối mặt với nhiều thách thức, khó khăn khác nhau dẫn đến việc thiết lập, và triển khai các giải pháp thích hợp càng được quan tâm hơn bao giờ hết.

Xem thêm: TỔNG QUAN VỀ DATA QUALITY – CHẤT LƯỢNG DỮ LIỆU (P2)
Theo một báo cáo mới được công bố tại Diễn đàn Kinh tế Thế giới, những thay đổi về nhân khẩu học và tiến bộ kỹ thuật có thể dẫn đến việc 5 triệu việc làm sẽ biến mất vào năm 2020. Tuy nhiên, ngược lại có một số công việc lại được dự đoán sẽ có sự tăng trưởng đáng kể, trong đó có nghề phân tích dữ liệu.

Xem thêm: Chọn nghề phân tích dữ liệu?
Ở bài viết trước, đã giới thiệu đến các bạn khái niệm về Data management – quản lý dữ liệu – lịch sử ra đời, cũng như các thành phần, quy trình, chức năng có trong Data management. Trở lại với phần 2 “Tầm quan trọng của quản lý dữ liệu” , sẽ đi vào phân tích chi tiết các lợi ích chính, các thách thức mỗi tổ chức phải đối mặt khi triển khai, và liệt kê một số giải pháp thực tiễn sẽ hỗ trợ hiệu quả.

Xem thêm: TẦM QUAN TRỌNG CỦA QUẢN LÝ DỮ LIỆU (DATA MANAGEMENT) (P2)
Phân tích dự báo hay còn gọi Predictive analytics là một trong những phương pháp, kỹ thuật phân tích dữ liệu phổ biến và quan trọng nhất ngày nay. Đây là công cụ hữu ích để những nhà khoa học, chuyên gia hoạt động ở lĩnh vực Data science có cái nhìn chi tiết về đối tượng nghiên cứu, khám phá các mối liên hệ, đưa ra những phán đoán về đối tượng nghiên cứu ở tương lai chứ không chỉ dừng lại tại quá trình mô tả.

Xem thêm: TỔNG QUAN VỀ PREDICTIVE ANALYTICS (PHÂN TÍCH DỰ BÁO) (PHẦN 1)
Bạn có biết là những vị trí liên quan tới lĩnh vực khoa học dữ liệu (data science) và phân tích dữ liệu (data analysis) là khó tuyển nhất với một công ty không? Sự bùng nổ nhu cầu tìm kiếm các chuyên gia trong những lĩnh vực này mở ra hàng loạt nhu cầu và đồng thời, đẩy thị trường tuyển dụng vào tình trạng cung không đủ đáp ứng cầu.

Xem thêm: Data Analysis là gì? Cần học những gì?
Dữ liệu lớn (big data) là một trong những công nghệ mới quan trọng nhất mà ngành du lịch khách sạn cần nắm bắt.
Các ngành công nghiệp khác đã sử dụng dữ liệu lớn và gặt hái được một số thành công đáng kể. Bao gồm khả năng đưa ra quyết định chính xác, nhờ tìm hiểu về khách hàng, đối thủ cạnh tranh, cải thiện trải nghiệm khách hàng và tăng doanh thu. Trong bài viết này, bạn sẽ tìm hiểu thêm về dữ liệu lớn và cách nó có thể đem lại lợi ích cho các công ty du lịch và khách sạn.

Xem thêm: 5 lợi ích dữ liệu lớn (Big data) đem lại cho ngành du lịch khách sạn
Trở lại với chủ đề bài viết về Data mining, ở 2 phần trước đã giới thiệu dến các bạn khái niệm, tầm quan trọng, lợi ích, thách thức và đặc biệt là ứng dụng của Data mining trong nhiều lĩnh vực khác nhau. Phần cuối của chủ đề Data mining lần này, sẽ phân tích về các quy trình, kỹ thuật và thuật toán của Data mining, hay tìm hiểu làm cách Data mining khai thác giá trị, những thông tin hữu ích từ dữ liệu?

Xem thêm: TỔNG QUAN VỀ DATA MINING (P3): QUÁ TRÌNH VÀ PHƯƠNG PHÁP
Trở lại với chủ đề về các xu hướng Big Data sẽ đi đầu trong năm 2019, ở phần 1, Big Data Uni đã đề cập về sự phát triển và thay đổi của Internet of Things (IOT), trí tuệ nhân tạo (Artificial Intelligence – AI), Machine Learning (ML) tác động như thế nào đến lĩnh vực Big Data, và một số dự báo về thị trường Big Data. Phần 2 bài viết, chúng tôi sẽ đề cập chi tiết về các xu hướng của những công cụ, cách thức hỗ trợ cho việc khai thác, tiếp cận Big Data, cùng với các vấn đề, thách thức mới trong lĩnh vực Big Data.

Xem thêm: TOP CÁC XU HƯỚNG BIG DATA SẼ ĐI ĐẦU TRONG NĂM 2019 (PHẦN 2)
Giới thiệu về K – nearest neighbor (KNN)
Ở các bài viết trước đã giới thiệu đến các bạn một cách tổng quan những chủ đề về Data mining (Khai phá dữ liệu), Predictive analytics (Phân tích dự báo), Statistics (Thống kê) bao gồm các khái niệm quan trọng, kỹ thuật phân tích và ứng dụng, lợi ích trong các lĩnh vực khác nhau.

Xem thêm: THUẬT TOÁN KNN VÀ VÍ DỤ ĐƠN GIẢN TRONG NGÀNH NGÂN HÀNG
Tầm quan trọng của Big Data (Dữ liệu lớn) và sự nhận thức về giá trị của nó giảm dần, nhiều công ty đầu tư vào lĩnh vực này nhưng không đem lại kỳ vọng, và kết quả tốt lợi. Nguyên nhân do nhu cầu và tính chất phức tạp của hệ thống công nghệ kỹ thuật phải xây dựng, bảo trì, chi phí lại cao, thiếu nguồn nhân lực có chuyên môn sâu, và kỹ năng về lĩnh vực Data Science hay Data Analytics,…

Xem thêm: TỔNG QUAN VỀ BIG DATA TRÊN TOÀN CẦU
Dữ liệu khách hàng hay Customer data được coi là tài sản, nguồn thông tin vô giá đối với mọi công ty thuộc nhiều lĩnh vực kinh doanh khác nhau. Việc triển khai các quy trình khai thác, dự án nghiên cứu, phân tích Customer data với mục đích tìm hiểu, nắm bắt mong muốn, nhu cầu thầm kín của khách hàng, và chuyển nó thành những giá trị cụ thể thông qua từng chiến lược, kế hoạch hoạt động chính là chìa khóa cạnh tranh của mỗi tổ chức ngày nay.

Xem thêm: TỔNG QUAN VỀ CUSTOMER DATA (P.1) – DỮ LIỆU KHÁCH HÀNG LÀ GÌ?
Các công ty truyền thông và người hoạt động trong lĩnh vực giải trí cần thúc đẩy chuyển đổi kỹ thuật số để phân phối sản phẩm và nội dung của họ nhanh nhất có thể tại thị trường hiện tại.

Xem thêm: Giải pháp Big data cho lĩnh vực Truyền Thông và Giải Trí
Big data trong ngành du lịch đang bùng nổ trong những năm gần đây. Nhiều người cho rằng Big Data sẽ lấy đi sự cá nhân hóa của các doanh nghiệp du lịch, nhưng điều này không hề đúng bởi công nghệ du lịch đã phát triển và Big Data đang được sử dụng để đưa thêm nhiều sự liên hệ cá nhân vào trải nghiệm khách hàng. Vậy Big Data là gì và nó được sử dụng như thế nào trong ngành du lịch? Hãy cùng tìm hiểu trong bài viết dưới đây.

Xem thêm: Từ BIG DATA đến cá nhân hóa trong lĩnh vực du lịch
Nguồn tài nguyên giá trị nhất của thế giới hiện nay không còn là dầu mỏ, mà là kho dữ liệu số đang tăng lên với cấp độ lũy thừa mỗi ngày. Trong cuộc cách mạng công nghiệp 4.0, Big Data là một yếu tố đóng vai trò then chốt. Vậy Big Data thực chất là gì, và nó đang được ứng dụng như thế nào? Đối với nhiều người, đó là một thuật ngữ mơ hồ về hình ảnh của những hệ thống máy chủ khổng lồ, hoặc sẽ liên hệ đến việc nhận được các loại quảng cáo từ một nhà bán lẻ.

Xem thêm: Công nghệ Big Data và xu hướng ứng dụng
Bối cảnh, nguyên nhân tại sao các công ty ngày nay cần định hướng dữ liệu (Data – driven)
Nếu các bạn có theo dõi những các bài viết trước đây của thì chúng tôi đã đề cập nhiều về tầm quan trọng của dữ liệu – được coi là nguồn sống của mọi tổ chức trong thời đại 4.0 – cũng như các xu hướng của Big Data, Data Analytics, và nhu cầu khai thác dữ liệu để đạt được giá trị, lợi ích trong kinh doanh ngày càng được quan tâm hơn.

Xem thêm: CÔNG TY ĐỊNH HƯỚNG DỮ LIỆU (DATA – DRIVEN ENTERPRISE) (PHẦN 1)
Từ khi có ứng dụng data science, ngành y tế và chăm sóc sức khỏe cũng có những bước nhảy vọt quan trọng. 5 nhóm lĩnh vực data science đã áp dụng thành công những ứng dụng của data science có thể kể đến như Phân tích hình ảnh y khoa, gien và bộ gien, Điều chế thuốc, phân tích và chẩn đoán, ứng dụng phần mềm sức khỏe hay trợ lý sức khỏe tâm lý.

Xem thêm: Ứng dụng Data Science vào lĩnh vực Y tế mang tính đột phá
Hàn Quốc tự hào là nước có ngân hàng dữ liệu quốc gia về sức khoẻ của toàn bộ người dân. Hiện nay, Hàn Quốc đã bắt đầu nghiên cứu ứng dụng “Y học chính xác” hay “Y học cá thể” từ kho dữ liệu lớn về sức khoẻ của quốc gia. Tại quốc gia này, dữ liệu sức khoẻ của người dân được chia làm 6 nhóm dữ liệu.

Dữ liệu gen và SDOH là đầu vào của tình trạng sức khỏe, dữ liệu lâm sàng và PGHD là đầu ra của tình trạng sức khỏe
Xem thêm: Tìm hiểu các loại dữ liệu sức khoẻ của “Big data” tại Hàn Quốc
Big data hay còn gọi là dữ liệu lớn, làm liên tưởng đến hình ảnh của hệ thống máy chủ khổng lồ. Nhưng Big data rộng và lớn hơn thế nhiều. Có 10 lĩnh vực chính trong đó dữ liệu hiện đang được sử dụng để tạo lợi thế tuyệt vời. Trong đó, dữ liệu có thể được đưa vào hầu hết mọi mục đích.

Xem thêm: Big Data và Ứng dụng công nghệ trong thực tiễn
Ở thời điểm nay, không phải tài sản vật chất, thiết bị máy móc hay cơ sở hạ tầng sản phẩm là tài sản lớn nhất của một doanh nghiệp, mà chính là khách hàng. Nếu bạn không thể làm hài lòng khách hàng và hiểu nhu cầu của họ, thì bạn sẽ không bao giờ trở thành chủ sở hữu của một doanh nghiệp thành công.

Xem thêm: Giải pháp Big data cho lĩnh vực Dịch Vụ Khách Hàng
Chắc bạn đã một lần từng nghe, hoặc biết đến Chatbot khi đã vô tình bắt gặp nó được thể hiện ở các trang mạng xã hội (social media platform) hay trên các ứng dụng mua sắm trực tuyến (online shopping application). Chatbot hiện đang là công cụ hỗ trợ đắc lực dành cho các công ty, tổ chức trong việc phát triển, duy trì và cải thiện mối quan hệ với khách hàng (customer relationship management).

Xem thêm: TỔNG QUAN VỀ CHATBOT (PHẦN 1) CHATBOT LÀ GÌ?
Bộ dữ liệu này sẽ có ích cho các bạn xây dựng app và website tra cứu bài hát karaoke, tra cứu tác giả, tra cứu theo đầu hoặc đĩa karaoke...
* Mã số Karaoke Việt Nam Arirang 5 số, California 6 số, MusicCore, Sơn Ca Media và Việt KTV bao gồm cả tiếng Việt và tiếng Anh.
* Đầu karaoke Arirang cập nhật đến vol 64 mới nhất.
* Đầu karaoke MusicCore cập nhật đến vol 93 mới nhất.
* Đầu karaoke Sơn Ca Media (ACNOS) cập nhật đến vol 58 mới nhất.
* Đầu karaoke Việt KTV cập nhật đến vol 95 mới nhất.
* Đầu karaoke California cập nhật đến vol 20 mới nhất.
* Tra cứu theo Album Volume...
* Đặc biệt hỗ trợ đầy đủ lời bài hát.

Xem thêm: Tặng dữ liệu karaoke
Bài chia sẻ của Ths.Bs Nguyễn Thành Danh (Danh Nguyen) - chuyên gia trong lĩnh vực quản lý y tế sau khi tham dự Hội thảo “Big Data trong cải tiến chất lượng y tế” được tổ chức tại Bệnh viện Việt Đức:

Xem thêm: Bùng nỗ digital healthcare, big data trong lĩnh vực y tế đang đến rất gần
Phân tích dữ liệu là một công việc rất quan trọng giúp chúng ta có thể lập báo cáo tốt hơn, tránh được những sai sót, đảm bảo được tính chính xác của báo cáo. Vậy phân tích dữ liệu là phải làm những công việc gì? Sau đây chúng ta sẽ tìm hiểu về kỹ năng phân tích dữ liệu trước khi lập báo cáo trên Excel thông qua 1 bài tập sau:
Giả sử rằng bạn làm ở vị trí trưởng bộ phận bán hàng. Cuối tháng bạn nhận được 1 bảng dữ liệu về bán hàng trong tháng của cửa hàng mình như sau:

KHI MỘT CHUYÊN GIA PHÂN TÍCH DỮ LIỆU NHẬN ĐƯỢC YÊU CẦU TỪ CÁC PHÒNG BAN, BỘ PHẬN HAY LÃNH ĐẠO CÔNG TY, CHUYÊN GIA ẤY CÓ THỂ NHẢY VÀO PHÂN TÍCH NGHIÊN CỨU NGAY VẤN ĐỀ. NGƯỜI LÀM PHÂN TÍCH DỮ LIỆU SẼ MONG MUỐN TỪ YÊU CẦU ĐƠN GIẢN BAN ĐẦU SẼ TÌM RA PHÁT HIỆN TUYỆT VỜI, ĐƯA RA ĐƯỢC CÁC ĐỀ XUẤT HAY NHẤT ĐỂ ÁP DỤNG CHO CÔNG TY. NHƯNG THỰC TẾ THƯỜNG KHÔNG THUẬN LỢI NHƯ VẬY.

Xem thêm: Các bước chuẩn bị cho một dự án phân tích dữ liệu thành công!
Trở lại với chủ đề bài viết về thuật toán cây quyết định, ở bài viết trước đã giới thiệu đến các bạn tổng quan thế nào là Decision Tree, các công thức quan trọng để xác định cách phân nhánh tối ưu hay nói cách khác là đem lại kết quả phân loại (classification) chính xác dựa trên các thuộc tính dữ liệu và đặc biệt là thuật toán CART (classification and regression tree) sử dụng công thức “Goodness of Split”.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.2): CART (GINI INDEX)