Dữ liệu bán cấu trúc (Semi-Structured Data) là gì?

Share:
 Dữ liệu bán cấu trúc
Dữ liệu bán cấu trúc
Để xem xét về câu hỏi dữ liệu bán cấu trúc là gì, hãy bắt đầu với một phỏng vấn mô tả
Giả sử bạn đang thực hiện một cuộc phỏng vấn bán cấu trúc. Việc này, như tên của nó, nằm ở đâu đó giữa một cuộc phỏng vấn có cấu trúc và không có cấu trúc.
Theo ngữ cảnh, một cuộc phỏng vấn có cấu trúc là một dạng phỏng vấn mà trong đó, các câu hỏi được hỏi, cũng như thứ tự mà chúng được hỏi, được xác định trước bởi HR team và phù hợp với từng đáp viên. Mặt khác, một cuộc phỏng vấn không có cấu trúc là một câu hỏi trong đó các câu hỏi và thứ tự mà chúng được hỏi, tùy theo ý của người phỏng vấn - và có thể hoàn toàn khác nhau đối với mỗi người trả lời.
Khi bạn phân vân giữa hai dạng thức này, thì bạn có thể bắt đầu xem xét đến những lợi ích của các cuộc phỏng vấn bán cấu trúc, khá nhất quán và định lượng (như một cuộc phỏng vấn có cấu trúc), nhưng vẫn cung cấp cho người phỏng vấn một “cửa sổ” để xây dựng mối quan hệ và đặt câu hỏi theo sát được toàn bộ cuộc trò chuyện với đáp viên.
Dữ liệu bán cấu trúc có bản chất tương tự như một cuộc phỏng vấn bán cấu trúc - nó không lộn xộn và không được kiểm soát như dữ liệu phi cấu trúc, nhưng không cứng nhắc và dễ định lượng như dữ liệu có cấu trúc.
Dữ liệu bán cấu trúc là gì?
Dữ liệu bán cấu trúc là thông tin không nằm trong cơ sở dữ liệu quan hệ hoặc bất kỳ bảng dữ liệu nào khác, nhưng dù sao cũng có một số thuộc tính tổ chức để giúp phân tích dễ dàng hơn, chẳng hạn như thẻ ngữ nghĩa.
Một ví dụ điển hình về dữ liệu bán cấu trúc là mã HTML, không hạn chế lượng thông tin bạn muốn thu thập trong tài liệu, nhưng vẫn thực thi phân cấp thông qua các yếu tố ngữ nghĩa.
Ở đây, chúng ta sẽ khám phá sự khác biệt giữa dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc để đảm bảo bạn hiểu rõ về từng dạng dữ liệu.

Dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc

Dữ liệu có cấu trúc (Structured Data) còn được gọi là dữ liệu định lượng. Là dữ liệu với số liệu khách quan mà phần mềm phân tích có thể thu thập - loại dữ liệu này dễ dàng xuất, lưu trữ và sắp xếp trong cơ sở dữ liệu như Excel hoặc SQL. Dữ liệu có cấu trúc rất có giá trị vì bạn có thể hiểu rõ hơn về xu hướng bao trùm bằng cách chạy dữ liệu thông qua các phương pháp phân tích dữ liệu, chẳng hạn như phân tích hồi quy và bảng xoay vòng.
Đây là một ví dụ về dữ liệu có cấu trúc trong một bảng excel:
Dữ liệu có cấu trúc trong Excel
Dữ liệu có cấu trúc trong Excel
Bên cạnh đó, dữ liệu bán cấu trúc (Semi-Structured Data) không phù hợp với cơ sở dữ liệu định lượng như Excel hoặc SQL, nhưng dù sao cũng chứa một số cấp độ tổ chức thông qua các yếu tố ngữ nghĩa như thẻ.
Chẳng hạn, hãy xem xét HTML, không hạn chế lượng thông tin bạn có thể thu thập trong tài liệu, nhưng thực thi một hệ thống phân cấp nhất định:
  Dữ liệu HTML
Dữ liệu HTML
Đây là một ví dụ rõ ràng về dữ liệu bán cấu trúc. Như bạn có thể thấy, HTML được tổ chức thông qua các đoạn mã, và nó không dễ trích xuất vào cơ sở dữ liệu cũng như bạn không thể sử dụng các phương pháp phân tích dữ liệu định lượng truyền thống để hiểu rõ hơn.
Cuối cùng, dữ liệu phi cấu trúc (Unstructured Data) - còn được gọi là dữ liệu định tính. Khi nói đến marketing, dữ liệu phi cấu trúc là bất kỳ một ý kiến ​​hay nhận xét nào bạn có thể thu thập được về thương hiệu, sản phẩm, dịch vụ của mình. Mặc dù tất cả những gì người tiêu dùng của bạn đang nói là vô cùng quan trọng và không thể phủ nhận, song bạn không thể dễ dàng trích xuất được nguồn dữ liệu phân tích có ý nghĩa từ những thông điệp đó.
Một ví dụ về dữ liệu phi cấu trúc bao gồm các phản hồi email:
Dữ liệu phi cấu trúc emaill
Dữ liệu phi cấu trúc email
Bạn có thể tìm hiểu thêm thông tin về dữ liệu có cấu trúc và phi cấu trúc trong bài viết: Unstructured Data vs Structured Data: 3 phút đánh giá
Ví dụ các dạng dữ liệu bán cấu trúc:
  1. Email
  2. Tài liệu CSV, XML và JSON
  3. Cơ sở dữ liệu NoQuery
  4. HTML
  5. Trao đổi dữ liệu điện tử (EDI)
  6. RDF
Nguồn: HubSpot - Caroline Forsey