Tôi đang giám sát máy chủ như thế nào?

Tôi đang giám sát máy chủ như thế nào?

Tin ngắn hàng ngày dành cho bạn
  • Mấy hôm trước OpenAI giới thiệu Deep Research - một công cụ duyệt web để nghiên cứu và cho ra một bản tổng hợp chỉ trong vài chục phút - so với nhiều giờ làm việc đối với con người, theo như họ công bố.

    Tính năng này hiện chỉ có sẵn cho người dùng Pro. Mặc dù chưa được dùng thử, nhưng qua nhiều bài viết đều nhấn mạnh vào sự ấn tượng trước khả năng của công cụ mới này. Nếu vẫn chưa biết Deep Research làm được gì thì bạn cứ hình dung như thế này: Nói với nó "Tôi cần thông tin nghiên cứu về lượng tiêu thụ cà phê của thế giới trong năm ngoái". Thế thôi! Ngồi chờ một lúc để nó tìm kiếm và tổng hợp lại kết quả và gửi lại cho bạn một bài báo cáo chi tiết. Chà, ghê thật chứ!

    Ngay lập tức huggingface đã lên một bài viết cố gắng tái tạo lại công cụ này theo cách của họ. Chi tiết tại Open-source DeepResearch – Freeing our search agents. Và không có gì ngạc nhiên khi cả 2 đều mang hơi hướng của AI Agents.

    » Xem thêm
  • Sống đủ lâu trong thế giới Internet, bạn có thể thấy rằng mọi người ở đây khá háo hức chạy theo xu hướng và chúng lan truyền với tốc độ chóng mặt.

    Chỉ vài tháng trước, chúng ta vẫn còn kinh ngạc về trí thông minh của các mô hình ngôn ngữ lớn (LLM) có thể trả lời giống như con người, và ngay sau đó, chúng đã được cập nhật với khả năng suy nghĩ và lý luận đáng kinh ngạc. Chúng được ứng dụng rộng rãi không chỉ trong lĩnh vực lập trình. Gần đây, thuật ngữ AI Agents đã tạo nên một sự khuấy động.

    Vậy, AI Agents là gì? Trong bài viết ngắn này, tất nhiên là không thể đưa ra một định nghĩa ngắn gọn nhưng toàn diện. Bạn đọc có thể tham khảo bài viết rất chi tiết này tại đây Agents | Chip Huyền. Để dễ hình dung hơn, AI Agents có thể được coi là một người hoặc một thực thể nào đó. Bản thân các Agents được trang bị tất cả các công cụ cần thiết. Từ đó, các Agents có thể kết hợp chúng để hoàn thành một nhiệm vụ mà chúng ta giao.

    Vẫn còn hơi mơ hồ phải không? Một ví dụ thực tế là khi bạn ra lệnh cho các Agents truy cập Facebook vào lúc 8 giờ tối mỗi ngày, kiểm tra bất kỳ tin tức nổi bật nào từ bạn bè, sau đó gửi tóm tắt đến Telegram. Vậy là xong!

    » Xem thêm
  • Hôm qua đến nay, lượt truy cập tới từ Facebook tăng đột biến. Thường như thế là do ai đó chia sẻ bài viết của blog vào một nhóm nào đó.

    Cơ mà lần này là liên kết trực tiếp đến trang chủ luôn. Tò mò ghê, không biết ai chia sẻ, chia sẻ ở đâu nữa. Muốn biết để tìm hiểu "insight" ghê 🥹

    » Xem thêm

Vấn đề

Sở hữu một trang web đồng nghĩa với việc bạn cần phải quản lý nó. Một trong những kỹ năng quản lý chính là nắm bắt được liệu trang web có đang truy cập được nữa hay không. Điều này là đặc biệt quan trọng vì không ai muốn sử dụng một trang web hoạt động chập chờn. Hơn nữa, trang web có độ ổn định cao tạo nên niềm tin và thiện cảm cho người sử dụng.

Quản trị máy chủ đôi khi là một công việc không dễ dàng, hoặc là chúng ta có ít thời gian để làm. Thông thường, quản trị viên không phải lúc nào cũng phải kè kè bên máy chủ, thay vào đó họ cần biết cách phát hiện ra sự cố sắp hoặc đang xảy ra. Từ đó đưa ra phương án để khắc phục.

Thực tế, yếu tố cấu thành nên một trang web không đơn thuần chỉ là một service. Kiến trúc micro cho phép chúng ta phân tách tính năng lớn hơn thành những service hoạt động hoàn toàn độc lập với nhau. Vô hình chung gây ra một sự khó khăn trong quản lý, vì chúng quá nhiều và rời rạc lại còn có thể "ngỏm" bất kì lúc nào. Giám sát lúc này là một giải pháp tất yếu để nắm bắt thông tin từ chúng.

Tôi không phải là một người quản trị máy chủ chuyên nghiệp, nhưng có một ít kinh nghiệm trong việc duy trì một số máy chủ nên hy vọng qua bài viết này có cơ hội chia sẻ đến mọi người. Đồng thời mong muốn nhận thêm được nhiều kinh nghiệm hơn nữa!

Giám sát để làm gì?

Giám sát để đảm bảo hệ thống của bạn được ổn định. Một ứng dụng phần mềm càng ổn định bao nhiêu càng giữ chân được người dùng bấy nhiêu. Không ai muốn sử dụng một hệ thống chập chờn sống nay chết mai. Vì thế bạn luôn phải nắm bắt được hệ thống của mình có đang hoạt động đúng với mong muốn hay không. Nếu không thì phải nắm bắt được để khắc phục kịp thời.

Giám sát để nắm bắt được lỗi trong quá trình chạy và lỗi tiềm ẩn trong tương lai. Thông qua việc logging và phân tích, chúng ta có thể phát hiện ra được những dấu hiệu bất thường của hệ thống như CPU luôn hoạt động ở công suất cao, bộ nhớ luôn đầy... mà trước đây chưa từng xảy ra.

Giám sát để rèn luyện khả năng ứng phó với tình huống khẩn cấp. Đó là những tình huống dịch vụ hay máy chủ của bạn không thể truy cập. Nếu một hệ thống hoạt động quá ổn định cũng gây ra một mối lo, đó là nỗi lo hệ thống cảnh báo bị trục trặc. Thi thoảng sẽ có một buổi diễn tập khi hệ thống "sập" để kiểm tra các công cụ giám sát có hoạt động đúng như mong đợi hay không.

Bối cảnh

Nếu như trước đây hình ảnh của những người làm công việc quản trị máy chủ gắn liền với lượng máy chủ đồ sộ, chi chít dây mạng thì giờ đây với sự phát triển của ảo hóa và cloud mọi thứ đều có thể đưa lên "đám mây", dĩ nhiên máy chủ cũng không phải là một ngoại lệ. Cách đây chục năm, việc thuê một máy chủ mà muốn giám sát được nó buộc chúng ta phải cài thêm phần mềm theo dõi hệ thống, thì bây giờ các nhà cung cấp đã tích cực thêm nhiều công cụ theo dõi, cảnh báo hệ thống. Thông qua trang quản trị, bạn được cung cấp thông tin về máy chủ bạn thuê một cách trực quan như số liệu hoặc các biểu đồ...

Đôi khi sử dụng tính năng theo dõi tích hợp của nhà cung cấp là chưa đủ đáp ứng nhu cầu. Bạn vẫn có thể cài thêm nhiều công cụ phần mềm giám sát hệ thống khác, điều đó phụ thuộc vào nhu cầu của mỗi người, mỗi hệ thống.

Tóm lại, với sự trợ giúp của công nghệ đám mây và ảo hóa phần nào đơn giản hóa việc theo dõi hệ thống. Nhưng tùy nhu cầu theo dõi đến đâu, theo dõi như thế nào mà chúng ta có cách tiếp cận khác nhau. Đối với tôi chỉ đơn giản là đảm bảo hệ thống uptime 99.99%, để làm được điều này tôi đã và đang áp dụng các cách như dưới đây.

Các phương pháp giám sát máy chủ

Lựa chọn nhà cung cấp uy tín với độ tin cậy cao

Đầu tiên điều bạn nên quan tâm chính là lựa chọn cho mình một nhà cung cấp dịch vụ uy tín. Muốn hệ thống của mình ổn định trước hết nền móng phải vững, mà nền móng ở đây chính là nhà cung cấp dịch vụ. Lựa chọn nhà cung cấp có kinh nghiệm vận hành hệ thống trong thời gian đủ dài hoặc được cộng đồng đánh giá cao. Những cái tên như Google Cloud hay AWS... đã quá nổi tiếng nhưng giá thành tương đối cao, đổi lại là độ tin cậy cùng sự ổn định và khả năng chăm sóc tuyệt vời. Bạn có thể lựa chọn sang các nhà cung cấp nhỏ hơn như Vultr, DigitalOcean, Linode, Bizfly... Mình đã dùng thử qua hết và thấy chúng hoạt động rất ổn định.

Sử dụng chức năng theo dõi tài nguyên sử dụng của Cloud.

theo dõi tài nguyên

Hàng này dành một ít thời gian "ngó" xem hệ thống đang sử dụng mức tài nguyên như thế nào? Có gì bất thường không để kịp thời hành động. Tính năng theo dõi tài nguyên hệ thống này có thể tìm được trong phần quản lý máy chủ. Dữ liệu thể hiện dưới dạng timeline, được cập nhật theo thời gian thực giúp chúng ta theo dõi được những điều bất thường một cách nhanh chóng.

Sử dụng chức năng Alert của Cloud

Tính năng alert của cloud

Nhiều nhà cung cấp dịch vụ cung cấp tính năng gửi cảnh báo về hệ thống qua Email hoặc cách kênh tin nhắn. Mục đích là giúp cho người quản trị nhanh chóng nhận được thông báo về hệ thống. Những điều đó có thể kể đến như là CPU hoạt động quá công suất, Bộ nhớ bị đầy... Thiết lập này rất hữu ích cho những ai quan tâm đến mức tài nguyên được tiêu thụ.

Sử dụng phần mềm giám sát hệ thống

Đây là những phần mềm giám sát hệ thống mà tôi đã nêu ra ở trên. Tuy chưa có nhiều cơ hội sử dụng nhưng chung quy nhiệm vụ của chúng là theo dõi tài nguyên hệ thống, tạo ra các cảnh báo như trên. Ngoài ra chúng còn cung cấp rất nhiều chức năng phức tạp khác mà đòi hỏi người sử dụng phải có kinh nghiệm vận hành.

Sử dụng các công cụ giám sát dịch vụ

Trên đây đều tập trung vào tài nguyên hệ thống, ở cấp độ chi tiết hơn như quản lý các dịch vụ bên trong thì sao?

Blog của tôi được cấu thành từ nhiều dịch vụ nhỏ (micro), nhiệm vụ của tôi là cần biết được cái nào chạy, cái nào lỗi, cái nào cần phải xử lý ngay lập tức. Thực ra có rất nhiều công cụ theo dõi được vấn đề này, được gọi chung là các công cụ Monitor hay APM. Chỉ cần tích hợp vào từng dịch vụ ngay lập tức ta có thể theo dõi thông qua các bản ghi log mà công cụ thu thập được. Ngoài ra, chúng có tính năng cảnh báo theo thời gian thực nữa.

uptimerobot.com là một công cụ hữu ích đối với tôi, nó theo dõi thời gian uptime của trang web và kịp thời gửi thông báo về khi trang web không thể truy cập được. Nguyên tắc hoạt động cũng đơn giản, mỗi 5 phút nó thử truy cập trang web, nếu không truy cập được nó sẽ nhanh chóng cảnh báo qua email. Một vài lần, trang web của tôi bị lỗi 500, nhờ có nó mà tôi mới biết và khắc phục ngay sau đó.

uptimerobot

Ngoài ra còn có nhiều tips và tricks khác. Ví dụ như tôi trong bài viết Telegram và kênh gửi/nhận thông báo tức thì có nói về cách tận dụng ứng dụng nhắn tin Telegram để làm kênh thông báo cho nhiều người cùng biết.

Tổng kết

Giám sát máy chủ để duy trì tính ổn định cho hệ thống của bạn. Ngày nay với sự trợ giúp của công nghệ ảo hóa và cloud, được vận hành bởi những đội ngũ chuyên nghiệp góp phần làm cho việc giám sát máy chủ trở nên nhẹ nhàng hơn. Tuy nhiên chúng ta cần phải vận dụng các phương pháp giám sát sao cho hiệu quả. Hy vọng qua bài viết này giúp cho bạn đọc hình dung ra được một phần trong công việc giám sát máy chủ cũng như mong muốn nhận được thêm nhiều kinh nghiệm từ các bạn.

Cao cấp
Hello

5 bài học sâu sắc

Mỗi sản phẩm đi kèm với những câu chuyện. Thành công của người khác là nguồn cảm hứng cho nhiều người theo sau. 5 bài học rút ra được đã thay đổi con người tôi mãi mãi. Còn bạn? Hãy bấm vào ngay!

Mỗi sản phẩm đi kèm với những câu chuyện. Thành công của người khác là nguồn cảm hứng cho nhiều người theo sau. 5 bài học rút ra được đã thay đổi con người tôi mãi mãi. Còn bạn? Hãy bấm vào ngay!

Xem tất cả

Đăng ký nhận thông báo bài viết mới

hoặc
* Bản tin tổng hợp được gửi mỗi 1-2 tuần, huỷ bất cứ lúc nào.

Bình luận (0)

Nội dung bình luận...
Bấm hoặc cuộn mạnh để sang bài mới