Khai thác dữ liệu

Khai thác dữ liệu là gì:

Khai thác dữ liệu là một thuật ngữ tiếng Anh liên kết với khoa học máy tính có bản dịch là khai thác dữ liệu . Nó bao gồm một chức năng tổng hợp và tổ chức dữ liệu, tìm thấy trong đó các mẫu, liên kết, thay đổidị thường có liên quan.

Thuật ngữ khai thác dữ liệu lần đầu tiên xuất hiện vào năm 1990 trong các cộng đồng cơ sở dữ liệu. Khai thác dữ liệu là bước phân tích quá trình được gọi là KDD ( Khám phá tri thức trong cơ sở dữ liệu ), bản dịch theo nghĩa đen của nó là "Khám phá tri thức trong cơ sở dữ liệu".

Khai thác dữ liệu có thể được chia thành một vài bước cơ bản: thăm dò, xây dựng mô hình, định nghĩa mẫu và xác nhận và xác minh.

Khai thác dữ liệu là một phương thức tương đối gần đây trong thế giới điện toán và nó sử dụng truy xuất thông tin, trí tuệ nhân tạo, nhận dạng mẫu và kỹ thuật thống kê để tìm kiếm mối tương quan giữa các dữ liệu khác nhau cho phép bạn có được kiến ​​thức có lợi cho công ty hoặc cá nhân. Đối với một công ty, khai thác dữ liệu có thể là một công cụ quan trọng giúp tăng cường sự đổi mới và lợi nhuận.

Việc sử dụng khai thác dữ liệu khá phổ biến trong các cơ sở dữ liệu lớn và kết quả cuối cùng của việc sử dụng chúng có thể được hiển thị thông qua các quy tắc, giả thuyết, cây quyết định, dendrograms, v.v.

Khai thác dữ liệu được thực hiện tốt phải hoàn thành các nhiệm vụ như: phát hiện bất thường, học quy tắc kết hợp (mô hình phụ thuộc), phân cụm, phân loại, hồi quy và tóm tắt. Quá trình khai thác dữ liệu thường xảy ra bằng cách sử dụng dữ liệu chứa trong kho dữ liệu .

Có một số công ty và phần mềm được dành riêng cho khai thác dữ liệu, vì việc xác định các mẫu trong cơ sở dữ liệu ngày càng quan trọng. Tuy nhiên, việc xác định các tiêu chuẩn có liên quan không phải là duy nhất đối với thế giới máy tính. Bộ não con người sử dụng một quá trình tương tự để xác định các mẫu và thu nhận kiến ​​thức.

Trong những năm gần đây, khai thác dữ liệu đã được sử dụng rộng rãi trong các lĩnh vực khoa học và kỹ thuật như tin sinh học, di truyền, y học, giáo dục và kỹ thuật điện.

Khái niệm khai thác dữ liệu thường liên quan đến việc trích xuất thông tin về hành vi của mọi người. Vì lý do này, trong một số tình huống, khai thác dữ liệu đặt ra các vấn đề pháp lý và các vấn đề liên quan đến quyền riêng tư và đạo đức. Mặc dù vậy, nhiều người cho rằng khai thác dữ liệu là trung lập về mặt đạo đức vì nó không có ý nghĩa đạo đức.

Ví dụ khai thác dữ liệu thực

Khai thác dữ liệu thường được sử dụng bởi các công ty và tổ chức để có được kiến ​​thức về người dùng / nhân viên / khách hàng. Ví dụ, trong khu vực công có thể kiểm tra chéo giữa tình trạng hôn nhân của nhân viên và mức lương anh ta kiếm được để xem điều này có ảnh hưởng đến cuộc sống hôn nhân của anh ta không.

Các công ty như chuỗi siêu thị có thể sử dụng dữ liệu chéo này để xác định các sản phẩm được mua cùng nhau. Nếu một khách hàng mua sản phẩm X cũng mua sản phẩm Y, có thể nên định vị hai sản phẩm gần đó để giúp khách hàng dễ mua hơn.