Bứt phá tiềm năng doanh nghiệp với Hồ Dữ Liệu cùng giải pháp của DELL EMC

Dữ liệu phi cấu trúc đã và đang tăng trưởng với một tốc độ chóng mặt và góp phần quan trọng trong việc phát triển các doanh nghiệp. Các doanh nghiệp thì đang đứng trước những cơ hội và thử thách lớn chưa từng có trong việc tận dụng tiềm năng của chính mình và bứt phá trên thị trường thông qua việc khai thác dữ liệu sẵn có.

Bài toán đặt ra cho các doanh nghiệp hiện tại là làm sao để tận dụng nguồn dữ liệu khổng lồ chưa được khai thác của mình để tìm ra những sự thật ngầm hiểu bên trong, qua đó đem lại những quyết định thông minh hơn, sáng tạo và mới mẻ hơn trong việc phát triển sản phẩm dịch vụ cho khách hàng cũng như tối ưu hóa quá trình hoạt động nội bộ, qua đó đem lại sự hiệu quả và đột phá trong thị trường của mình. Một trong những câu trả lời cho bài toán này chính là việc ứng dụng những công nghệ phân tích dữ liệu lớn (big data analytics) và hồ dữ liệu (data lake).

Mỗi doanh nghiệp đều có rất nhiều loại dữ liệu khác nhau, từ những cơ sở dữ liệu có cấu trúc, những dữ liệu về thông tin và hành vi khách hàng, những dữ liệu video được ghi lại từ hệ thống camera cho đến những dữ liệu thô như log file sinh ra từ những thiết bị trong hạ tầng CNTT và truyền dẫn. Tất cả những dữ liệu này đều có thể đem đến những thông tin mới mẻ cho doanh nghiệp khi kết hợp chúng lại với nhau. Tuy nhiên những dữ liệu này thường nằm rải rác ở nhiều nơi trên nhiều hệ thống khác nhau, dẫn đến việc doanh nghiệp khó kết hợp và tìm ra được những thông tin mới từ các hệ thống rời rạc này. Không chỉ như vậy, những dữ liệu này thường được sinh ra với tốc độ cao trong khi năng lực của từng hệ thống đơn lẻ lại có giới hạn, dẫn đến doanh nghiệp phải bỏ đi rất nhiều dữ liệu mà chưa kịp khai thác.

Data lake sẽ là lời giải cho vấn đề trên của doanh nghiệp. Data lake là một nơi tập trung lưu trữ tất cả các loại dữ liệu của doanh nghiệp ở định dạng gốc, qua đó các giải pháp và kỹ thuật phân tích sẽ có thể truy cập tất cả những dữ liệu này mà không cần truy cập rải rác các hệ thống khác nhau. Data lake có khả năng mở rộng với dung lượng lớn và nhanh, qua đó doanh nghiệp sẽ không lãng phí những dữ liệu chưa kịp khai thác và việc lưu trữ được dữ liệu với định dạng gốc sẽ giúp bỏ lỡ những thông tin ẩn giấu bên trong những dữ liệu đó.

Trên thị trường hiện tại, các giải pháp phân tích dữ liệu và data lake trên thế giới và Việt Nam thường được triển khai trên nền tảng dữ liệu phân tán Hadoop. Trước đây, với mô hình triển khai truyền thống của Hadoop đó là sử dụng hạ tầng máy chủ cho tất cả các tác vụ của hệ thống bao gồm tính toán (compute) và lưu trữ (storage), hệ thống này thường gặp một số bất cập như:

- Hadoop cluster chỉ có thể giao tiếp qua giao thức HDFS, dẫn đến việc phải có thêm một hệ thống trung gian tiếp nhận dữ liệu nguồn từ các giao thức khác nhau trước khi lưu vào HDFS data lake.

- Do sử dụng cả 2 khối chức năng tính toán và lưu trữ trên cùng một thiết bị máy chủ nên hệ thống thường không tối ưu được tài nguyên, khi muốn mở rộng dung lượng lưu trữ thì bắt buộc cũng phải mở rộng năng lực tính toán (mặc dù hệ thống không có nhu cầu) thông qua việc bổ sung cả một thiết bị máy chủ.

- Tỷ lệ lưu trữ dữ liệu khả dụng thấp, chỉ khoảng 30% so với dung lượng thô (raw).

Kiến trúc hệ thống Hadoop truyền thống

Để giải quyết những vấn đề bất cập trên, Dell EMC cung cấp đến các doanh nghiệp giải pháp lưu trữ PowerScale – Scale-Out NAS. PowerScale giải quyết các vấn đề của kiến trúc Hadoop truyền thống nhờ những khả năng:

- Tích hợp sẵn tính năng HDFS, giúp giảm tải phần storage hoàn toàn lên PowerScale, Hadoop cluster chỉ còn đóng vai trò compute. Hai thành phần compute và storage có thể mở rộng độc lập và không gây tình trạng lãng phí như trước.

- Hỗ trợ đa giao thức, một dữ liệu có thể được truy cập đồng thời qua các giao thức NAS và cả HDFS, không cần phải có hệ thống trung gian như kiến trúc truyền thống.

- PowerScale cung cấp cùng một mức độ bảo vệ dữ liệu, thậm chí cao hơn mức bảo vệ truyền thống với một tỷ lệ dữ liệu khả dụng cao hơn nhiều, lên đến 85% dữ liệu thô.

- Khả năng mở rộng dung lượng rất lớn và thao tác mở rộng dễ dàng.

- Tương thích với hầu hết các phiên bản Hadoop và đặc biệt được chứng nhận tương thích với giải pháp Cloudera CDP.

Kiến trúc hệ thống Hadoop và Dell EMC PowerScale

Thông qua việc kết hợp Hadoop với Dell EMC PowerScale, các doanh nghiệp không cần lo lắng về việc lưu trữ dữ liệu trong data lake của mình mà chỉ cần tập trung vào việc phát triển ứng dụng phân tích dữ liệu, tạo ra những giá trị mới từ chính những dữ liệu của mình. NT&T Solution, là nhà phân phối và đối tác dịch vụ ủy quyền bởi Dell Technologies trong hơn 16 năm qua, với đội ngũ nhân sự chuyên nghiệp, nhiều kinh nghiệm và đạt chứng nhận quốc tế của Dell Technologies với giải pháp PowerScale, sẽ đem lại những dịch vụ với chất lượng tốt nhất cho các doanh nghiệp tại Việt Nam (https://nttsolution.com).

GenK

Blog IT

Bứt phá tiềm năng doanh nghiệp với Hồ Dữ Liệu cùng giải pháp của DELL EMC

Bài viết nổi bật

Công việc liên quan