GIẢI PHÁP CHỐNG THẤT THOÁT DỮ LIỆU FORCEPOINT DLP

1.Các nguy cơ rò rỉ dữ liệu/thông tin nhạy cảm

Trong nhiều doanh nghiệp/tổ chức, dữ liệu nhạy cảm có thể được lưu trữ và nằm rải rác ở nhiều bộ phận, và nhiều cán bộ, nhân viên có thể tiếp cận các dữ liệu nhạy cảm, từ đó do vô tình (do sai sót, chưa nắm được quy trình bảo mật hoặc không biết đó là dữ liệu mật) hay cố ý mà thông tin có thể bị rò rỉ, phát tán qua nhiều con đường như:

  • Nhân viên gửi nội dung hoặc tải tài liệu chứa dữ liệu nhạy cảm ra ngoài qua truy cập Web, trên các trang như trang web cá nhân, trang xã hội, blog, lưu trữ trực tuyến.
  • Nhân viên gửi nội dung chứa dữ liệu nhạy cảm ra ngoài qua các hộp thư cá nhân như Yahoo, Gmail…
  • Sử dụng các ứng dụng lưu trữ để đồng bộ dữ liệu lên cloud như: Google Drive, Dropbox, One Drive…
  • Nhân viên sử dụng mail tổ chức gửi dữ liệu nhạy cảm ra ngoài.
  • Nhân viên sử dụng mail tổ chức, hay gửi qua mạng nội bộ để gửi các dữ liệu nhạy cảm trái phép cho nhau giữa các phòng ban.
  • Nhân viên sử dụng dữ liệu nhạy cảm từ máy tính của mình như copy ra usb, ghi CD, in ấn, chụp màn hình…
  • Các phần mềm gián điệp lây nhiễm qua Web, Mail vào máy tính người dùng có thể tự động đánh cắp dữ liệu và gửi ra ngoài mà người dùng không hay biết.

Các giải pháp an ninh truyền thống như Firewall, IPS, Anti-virus… chỉ có thể nhận diện các nội dung tấn công mà không hiểu được nội dung dữ liệu nào là nhạy cảm, cần bảo vệ đối với từng tổ chức/công ty. Do vậy giải pháp DLP là cần thiết, DLP không chỉ là giải pháp bảo mật thông thường mà nó còn là giải pháp quản lý rủi ro thông tin.

2.Giải pháp phòng chống thất thoát dữ liệu nhạy cảm Forcepoint DLP

2.1.Kiến trúc, các thành phần giải pháp DLP bao gồm như sau

  • Người quản trị, người tham gia hệ thống: Định nghĩa, xác định vai trò những người dùng tham gia hệ thống DLP như người quản lý rủi ro (Risk Management), quản lý bảo mật (Security Officer), người quản lý dữ liệu (Content Owner), cấp lãnh đạo liên quan…
  • Data learning: Tự động lấy mẫu, học dữ liệu nhạy cảm trên file server, shared point, Database nơi chứa tập trung những tài liệu được phân loại nhạy cảm. Giải pháp cũng có khả năng học dữ liệu nhạy cảm trên các máy trạm, nơi các tài liệu trong quá trình được sản xuất bởi người dùng.
  • Data in Motion/Network DLP: Kiểm soát dữ liệu đang lưu chuyển trên mạng (data in motion) như dữ liệu được upload trên Web, gửi qua Email (SMTP), truyền file (FTP), qua ứng dụng chat (IM, Yahoo, MSN) …
  • Data in Use/Endpoint DLP: Kiểm soát dữ liệu đang sử dụng trên máy trạm như copy ra USB, in ấn, thất thoát qua kênh ứng dụng…
  • Data at Rest (Discovery): quét tìm các dữ liệu đang nằm lưu trữ ở đâu trên mạng như trên máy trạm, máy chủ, CSDL.

Các phương thức nhận diện dữ liệu nhạy cảm:

Tùy vào loại dữ liệu nhạy cảm và ngữ cảnh sử dụng dữ liệu, và các phương thức nhận diện dữ liệu được áp dụng. Một số phương thức nhận diện dữ liệu nhạy cảm như sau có thể áp dụng:

  • Keyword/từ điển: Nhận diện theo từ khóa, từ điển hoặc một đoạn văn bản. Cách thức này đơn giản và cho kết quả thiếu chính xác nhất. Thường áp dụng để nhận diện tài liệu nhạy cảm theo ký mã hiệu, số ID, hoặc số văn bản của tài liệu.
  • Biểu thức Regular Expression: là một tập hợp quy tắc để nhận diện dữ liệu theo format chuẩn chung nào đó, ví dụ địa chỉ email, số thẻ tín dụng…
  • Machine learning/Analytics: Học, phân tích các tài liệu có nội dung tương tự. Một tài liệu đã phân loại nhạy cảm, thì các tài liệu khác có tính chất tương tự có thể được nhận diện.
  • Fingerprints: Fingerprint được tạo ra từ dữ liệu cụ thể của mỗi tổ chức và nó là đại diện duy nhất của dữ liệu đó. Fingerprints là biễu diễn toán học (hàm băm), là chuỗi số đại diện duy nhất cho một nội dung trong tài liệu. Nó cho phép nhận diện dữ liệu nhạy cảm chính xác theo nội dung của chúng, dù nội dung đó được lưu ở các định dạng khác nhau (word, pdf…), được nhúng hay copy/paste trong tài liệu khác. Fingerprints thường được áp dụng để nhận diện các dữ liệu đặc thù riêng với mỗi tổ chức như hợp đồng, báo cáo tài chính, chiến lược kinh doanh, dữ liệu khách hàng…

Nguồn dữ liệu để tạo Fingerprint có thể là từ CSDL như CSDL khách hàng, hoặc từ thư mục chứa các file tài liệu đã phân loại nhạy cảm như file hợp đồng, chiến lược kinh doanh… Sau khi kết nối các nguồn dữ liệu này và lấy Fingerprint mẫu, mỗi khi dữ liệu gửi ra, giải pháp lấy Fingerprint của dữ liệu gửi ra và so sánh với Fingerprint mẫu đã lấy trước đó và nếu trùng khớp thì kết luận đó là dữ liệu nhạy cảm.

Phân loại dữ liệu bằng thẻ/gán nhãn (tagging)

Đối với các tài liệu trong quá trình sản xuất, người dùng khi tạo tài liệu họ sẽ tự gán thẻ phân loại vào tài liệu đó. Thẻ là loại dữ liệu meta-data (thuộc tính dữ liệu), hoặc format, chuỗi ký tự biểu thị tài liệu nhạy cảm, ví dụ header/footer có nội dung “Tài liệu nội bộ / tài liệu mật”. Thẻ gán nhãn có thể được coi như phân loại sơ khởi ban đầu. Các bước tiếp theo cần chuyển những dữ liệu đã phân loại bằng thẻ sang các thư mục lưu trữ tập trung để lấy mẫu Fingerprint. Bước này có thể thực hiện tự động bằng công cụ quét (Discovery) tài liệu đã gán thẻ, và thực hiện copy/move tài liệu sang thư mục lưu trữ tập trung hoặc đánh lại nhãn tài liệu theo đúng quy định.

2.2.Các lợi thế, điểm mạnh của giải pháp Forcepoint DLP

2.2.1.Thư viện chính sách nhận dữ liệu dữ liệu theo mẫu (Pattern)

Forcepoint cung cấp hơn 1700 mẫu/quy tắc được định nghĩa sẵn để nhận diện dữ liệu theo định dạng chuẩn nào đó, ví dụ ví dụ như số thẻ tín dụng, số ID/CCCD của cá nhân, mã nguồn (source code) … Khách hàng có thể sử dụng mẫu có sẵn trong thư viện hoặc tùy biến thêm để nhận diện dữ liệu phù hợp trong tổ chức của mình mà không phải định nghĩa từ đầu. Phương pháp định nghĩa mẫu nhận diện có thể sử dụng Regular Expression, Keyword…

Các định nghĩa nhận diện dữ liệu có thể dễ dàng tìm theo tiêu chuẩn, theo lĩnh vực, ví dụ lĩnh vực viễn thông, công nghệ thông tin, dữ liệu cá nhân PII, dữ liệu thẻ tín dụng (PCI)… Các giải pháp DLP của các hãng khác (như Symantec, McAfee) cung cấp rất ít mẫu dữ liệu. Khách hàng phải tự định nghĩa từ đầu và phụ thuộc nhiều vào phương pháp gán nhãn (tagging) dữ liệu.

2.2.2.Phân loại, nhận diện dữ liệu theo nội dung

Forcepoint phân loại và nhận diện dữ liệu chủ yếu theo nội dung/thông tin của dữ liệu, sử dụng Pattern (thư viện mẫu dữ liệu) hoặc Fingerprints của dữ liệu. Đặc biệt Fingerprints cho phép lấy từ các nguồn dữ liệu khác nhau như dữ liệu phi cấu trúc (file tài liệu), dữ liệu có cấu trúc như CSDL (ví dụ CSDL chứa thông tin khách hàng). Việc nhận diện theo nội dung cho phép phát hiện dữ liệu nhạy cảm dù dữ liệu được lưu trữ, chuyển đổi ở các định dạng khác nhau, hay dữ liệu được copy/paste một đoạn ngắn (ví dụ, copy một đoạn nhỏ trong một file tài liệu mật rồi paste vào email gửi đi). Bên cạnh đó Forcepoint cung cấp tính năng tự học (Machine Learning), giải pháp học từ những dữ liệu đã phân loại nhạy cảm, để phát hiện các dữ liệu nhạy cảm mới tương tự.

Các giải pháp DLP của hãng khác chủ yếu phân loại, nhận diện dữ liệu nhạy cảm theo cách gán nhãn (tagging). Gán nhãn dữ liệu là hình thức thay đổi thuộc tính file, phụ thuộc vào định dạng file. Nhãn dữ liệu có thể bị sửa đổi bởi người dùng, hoặc người dùng gán nhãn không phù hợp. Gán nhãn dữ liệu chỉ phù hợp với việc phân loại sơ bộ ban đầu trong quá trình sản xuất dữ liệu. Các giải pháp hãng khác cũng hỗ trợ nhận diện dữ liệu nhạy cảm theo Pattern và Fingerprints tuy nhiên mẫu (Pattern) bị hạn chế, Fingerprints không hỗ trợ CSDL. Các giải pháp khác hỗ trợ hạn chế tính năng tự học.

2.2.3.Phân tích theo ngữ cảnh, hành vi

Giải pháp áp dụng chính sách DLP không chỉ theo nội dung mà còn theo ngữ cảnh (context) cho phép phát hiện vi phạm rò rỉ dữ liệu chính xác.
Chính sách được áp dụng theo các yếu tố chính sau:

  • Who – Ai: ai, thuộc phòng ban nào sử dụng/gửi dữ liệu.
  • What – Dữ liệu gì: loại dữ liệu gì được sử dụng và gửi đi.
  • Where – gửi tới đâu: Gửi tới đâu như site lưu trữ cá nhân (ví dụ dropbox), đối tác, gửi ra USB… Khi tích hợp với module Web security, giải pháp có thể phân loại địa chỉ đích độc hại thông thường được các malware sử dụng để tải dữ liệu lên.
  • How – bằng phương tiện gì: gửi dữ liệu qua phương tiện gì như Web, Email, ứng dụng chat, copy ra ổ lưu trữ…
  • Action – hành động bảo vệ: Dựa theo luồng dữ liệu gửi như trên mà hành động tương ứng được áp dụng như ngăn chặn, mã hóa (copy ra usb) hay cảnh báo, gửi email nhắc nhở…

Đặc biệt, giải pháp còn phân tích theo hành vi người dùng mà có dấu hiệu là những hành vi đánh cắp dữ liệu như gửi dữ liệu mã hóa hoặc dữ liệu định dạng lạ, gửi dữ liệu ngoài giờ làm
việc, chia nhỏ dữ liệu và gửi từ từ nhiều lần (Drip DLP),..

Các giải pháp của hãng khác (Symantec, McAfee) chủ yếu nhận diện theo file dữ liệu
phân loại nhạy cảm, thiếu sự phân tích theo ngữ cảnh và không phân tích theo hành vi dấu hiệu
đánh cắp dữ liệu.

2.2.4.Phân tích rủi ro theo nhóm sự kiện

Các vi phạm chính sách có thể tạo ra nhiều log/sự kiện khác nhau, mỗi ngày hệ thống sinh ra rất log/cảnh báo nhưng thực tế chỉ có một số ít sự kiện rò ri dữ liệu nghiêm trọng thực sự. Việc phát hiện, phản ứng nhanh sự kiện mất mát dữ liệu sẽ là thách thức với đội ngũ bảo mật khi hàng ngày họ nhận rất nhiều cảnh báo và tốn nhiều thời gian phân tích.

Giải pháp Forcepoint phân tích log, nhóm các sự kiện liên quan nhau và đưa ra báo cáo
rủi ro thực sự cần giải quyết. Thay vì người làm bảo mật phải phân tích toàn bộ log sự kiện, báo
cáo liệt kê các rủi ro thực sự theo mức độ nghiêm trọng từ cao đến thấp và diễn giải rủi ro mà
người quản lý có thể đọc và dễ hiểu.

Các giải pháp của hãng khác (Symantec, McAfee) không có tính năng tương đương.

2.2.5.Kiến trúc triển khai, và quản trị đơn giản

Quản trị tập trung chính sách cho các thành phần Network, Endpoint với cùng chính sách thống nhất. Người quản trị không cần tạo các chính sách cho Network và Endpoint riêng rẽ. Giải pháp hỗ trợ mở rộng tính năng Web gateway security cho phép tích hợp Web DLP và Web security trên cùng một thiết bị, cho phép mở rộng Email Security và Email DLP trên cùng thiết bị, giúp triển khai và quản trị dễ dàng.

Các giải pháp của hãng khác (Symantec, McAfee) có kiến trúc triển khai phức tạp, chính sách Network và Endpoint quản lý riêng rẽ. McAfee không lưu trữ Fingerprints trên endpoint, do vậy chính sách theo Fingerprints không hoạt động nếu endpoint ngắt kết nối mạng.

3.Mô hình triển khai DLP đề xuất

3.1.Mô tả kiến trúc, luồng dữ liệu

Các thành phần giải pháp:

Máy chủ Quản trị FP FSM: Quản trị chính sách DLP, log và báo cáo tập trung.

Máy chủ FP Risk Ranking (tùy chọn): Phân tích log/sự kiện, báo cáo nhanh các rủi ro từ log được phân tích, giúp người quản trị đỡ việc phải phân tích bằng tay từ rất nhiều log sự kiện.

Máy chủ Bold James (tùy chọn): Quản lý nhãn (tagging), cho phép phân loại, gán nhãn tự động dữ liệu hoặc người dùng gán nhãn phân loại dữ liệu bằng tay.

Network DLP –Web DLP gateway (tùy chọn): Lọc nội dung truy cập Web, chống thất thoát dữ liệu nhạy cảm qua luồng HTTP/S (như upload dữ liệu qua các web site chia sẻ, web mail…)

Endpoint DLP: Kiểm soát dữ liệu đang được sử dụng, được copy ra USB, in ấn, được gửi ra ngoài Internet (email, web) thông qua các ứng dụng như trình duyệt, email client (Outlook, Thunderbird…)

Endpoint – gán nhãn phân loại dữ liệu (tùy chọn): Người dùng sử dụng công cụ này để gán nhãn phân loại dữ liệu trong quá trình tạo lập tài liệu

Mô hình hoạt động giải pháp:

Chính sách DLP trước hết định nghĩa theo mẫu (Pattern). Chính sách theo mẫu để nhận diện dữ liệu tổng quát theo một format chuẩn nào đó, ví dụ số CMTND/CCCD, số thẻ tín dụng, địa chỉ email, mã nguồn Khách hàng có thể tận dụng các thư viện có sẵn do Forcepoint cung cấp để tùy biến, tạo các chính sách theo mẫu.

Chính sách định nghĩa theo Fingerprint để nhận diện dữ liệu đặc thù riêng của tổ chức. Máy chủ FSM kết nối tới CSDL đã chứa những dữ liệu nhạy cảm như CSDL khách hàng để lấy Fingerprint dữ liệu khách hàng, và kết nối tới thư mục/file server chứa những file dữ liệu nhạy cảm đã được xác định để lấy Fingerprint của những file này.

Người dùng trong quá trình sản xuất tài liệu có thể tự phân loại dữ liệu sơ bộ theo cách đặt tên, format, hoặc có thể sử dụng công cụ gán nhãn tài liệu của giải pháp. Tài liệu sau khi được phân loại sơ bộ sẽ được người dùng (theo quy định) hoặc người quản trị sử dụng công cụ Discovery của giải pháp copy/move về thư mục/file server phân loại tập trung dữ liệu, để từ đó giải pháp có thể lấy Fingerprint của những tài liệu này.

3.2.Network DLP – Web DLP

Phương án 1:

Triển khai Forcepoint DLP Gateway (Protector) tích hợp với 3rd Proxy qua giao thức ICAP. 3rd Proxy gửi dữ liệu qua truy cập Web cho Forcepoint DLP Gateway để kiểm tra và chặn nếu có vi phạm chính sách bảo vệ dữ liệu.

Phương án 2:

Sử dụng Forcepoint Web Security Gateway là giải pháp lọc web chuyên dụng và kết hợp Web DLP trên cùng một thiết bị.

Phương án này cung cấp các chức năng Web Security, Proxy/Caching, Web DLP, thực hiện lọc dữ liệu và nội dung nhanh hơn do không phải sử dụng giao thức ICAP (như phương án 1 – tạo ra nhiều độ trễ hơn).

3.3.Network DLP – Email DLP

Có thể triển khai với mô hình Email Security Gateway lọc Spam/ Content Filtering và kết hợp Email DLP nếu khách hàng không có giải pháp lọc Spam. Hoặc sử dụng Email DLP Gateway với mô hình MTA tích hợp với hệ thống Email Gateway sẵn có để giám sát dữ liệu qua luồng Email.

3.4.Endpoint DLP

Phần mềm Forcepoint Endpoint DLP agent được cài đặt trên các máy trạm, thực hiện các chức năng kiểm soát dữ liệu trên ứng dụng như Web Browser, email, chat… chặn hoặc mã hóa dữ liệu copy ra các thiết bị nhớ di động, kiểm soát dữ liệu khi in ấn. Endpoint DLP cũng thực hiện chức năng dò quét tìm kiếm dữ liệu nhạy cảm trên máy trạm, đánh dấu/gán nhãn dữ liệu tự động. Endpoint DLP có thể kiểm soát dữ liệu trên luồng truy cập Web trên endpoint, do vậy Network DLP – Web DLP có thể được triển khai mở rộng sau này. Tuy nhiên hạn chế của Endpoint DLP là máy tính nào chưa được cài đặt endpoint agent sẽ không được bảo vệ, và Endpoint DLP phụ thuộc vào ứng dụng và phiên bản được hỗ trợ. Danh sách ứng dụng được hỗ trợ tham khảo link:

https://support.forcepoint.com/customerhub/s/article/Endpoint-Solutions-Certified-Product-Matrix

3.5.End Point Data Classification (tùy chọn)

Gán nhán, phân loại dữ liệu. Công cụ Boldon James triển khai trên máy trạm, tích hợp với Microsoft Office, Windows Explorer để thực hiện cho gán nhán và phân loại dữ liệu file tài liệu, email… cung cấp cho người dùng công cụ để gán nhãn phân loại dữ liệu sơ bộ.