Child process trong Node.js là gì? - Khi nào cần sử dụng fork và spawn?

Child process trong Node.js là gì? - Khi nào cần sử dụng fork và spawn?

Tin ngắn hàng ngày dành cho bạn
  • Void - cái tên mình đã nhắc đến từ cách đây khá lâu. Từ đợt mà continue.dev mới nổi lên á. Nó tương tự như Cursor và Windsurf, mới hôm nay họ đã phát hành phiên bản Beta và cho phép mọi người tải xuống.

    Điểm mạnh thì đây là nguồn mở, miễn phí, dùng các mô hình miễn phí cục bộ trên máy qua Ollama hoặc LM Studio... Không thích thì cắm API của bên khác vào cũng được. Mình vừa dùng thử thì thấy khả năng gợi ý và khung chat khá tương đồng với Cursor, có cả tính năng Agent luôn nhé 👏. Hoạt động ổn định hơn continue.dev (lần cuối dùng), việc còn lại là chọn mô hình xịn xịn tí 🤤

    » Xem thêm
  • Zed mới đây đã giới thiệu thêm tính năng Agent - tương tự như Agent trong Cursor hay Write trong Windsurf và họ gọi nó là The Fastest AI Code Editor.

    Cũng nhanh thật đấy vì Zed viết bằng Rust. Cơ mà chiến lược của họ có vẻ thay đổi, tập trung vào AI thay vì phát triển kho tiện ích mở rộng vốn đang có rất ít, không thể cạnh tranh được với VSCode 🥶

    Zed: The Fastest AI Code Editor

    » Xem thêm
  • Ngay sau thông tin OpenAI đạt được thoả thuận mua lại Windsurf với giá 3 tỉ đô thì ngày hôm nay Cursor đã miễn phí 1 năm dùng bản Pro cho sinh viên. Chaaaaà 🤔

    OpenAI Reaches Agreement to Buy Startup Windsurf for $3 Billion

    Cursor for Students | Cursor - The AI Code Editor

    » Xem thêm

Vấn đề

Có một lời khuyên dành cho bất kỳ ai làm việc với Node.js là "đừng bao giờ chặn vòng lặp sự kiện". Chặn ở đây có nghĩa là khiến Event Loop không thể luân chuyển nhiệm vụ cần giải quyết. Node.js chỉ có một luồng để xử lý mã JavaScript, nếu một công việc chiếm nhiều thời gian xử lý thì nó sẽ gây ra một cuộc tắc nghẽn nghiêm trọng trong luồng chính. Hãy hình dung nơi tất cả yêu cầu đến sau phải đợi yêu cầu trước hoàn thành thì mới bắt đầu xử lý. Quả là khủng khiếp.

Biết điều đó, tất nhiên Node.js phải cung cấp một số cách giải quyết. Thay vì gọi những hàm đồng bộ thì hãy chuyển sang gọi hàm bất đồng bộ, ví dụ như cùng là đọc một tệp tin nhưng readFile được khuyên dùng hơn readFileSync bởi vì readFile là hàm bất đồng bộ, xử lý trong luồng chính. Ngược lại readFileSync là bất đồng bộ và được thực hiện bên ngoài luồng chính. Ngoài ra, nếu công việc đòi hỏi khả năng tính toán của CPU thì đây là lúc cần biết đến module child_process được tích hợp sẵn trong Node.

child_process là module xuất hiện trong Node.js từ những phiên bản đầu tiên. Sau đó, Node.js bổ sung thêm các module worker_threads có chức năng tương tự như child_process mà API dễ sử dụng hơn. Tôi đã có một bài về Worker threads là gì? Bạn đã biết khi nào thì sử dụng Worker threads trong node.js chưa? bạn đọc có thể tham khảo. Nhưng trong phạm vi bài viết này, hãy tạm quên đi worker_threads và tập trung vào xem child_process là gì và nó được sử dụng như thế nào nhé.

Child process là gì?

Child process là một module của Node.js cho phép tạo ra các tiến trình con (process) độc lập để thực hiện các tác vụ cụ thể. Nó cho phép Node.js chạy nhiều tác vụ đồng thời và tận dụng tối đa sức mạnh của máy chủ. Khi tạo ra một child process, nó sẽ chạy độc lập với parent process (tiến trình cha) và có thể giao tiếp với cha qua luồng (stream), các sự kiện (event)... Các child process được tạo ra có tài nguyên độc lập, giúp giảm thiểu tác động đến các tiến trình khác khi xử lý tác vụ nặng hoặc chẳng may bị lỗi.

Cho dễ hình dung, một ứng dụng Node.js khi khởi động thì nó là một process với một bộ V8 Engine được tạo ra. Để ngăn vòng lặp sự kiện bị chặn, cách tốt nhất là tạo ra một tiến trình khác để xử lý. Khi đó, nó có thể chạy độc lập với tiến trình cha, xử lý rồi trả lại kết quả cho tiến trình cha thông qua một kênh giao tiếp như đã kể đến ở bên trên.

Tùy thuộc vào cách child process được tạo ra mà nó có cách thực hiện nhiệm vụ khác nhau. Có hai cách phổ biến để tạo ra child process là spawnfork. Trong khi fork cố gắng tạo ra một "bản sao" của process cha, có nghĩa là "clone" ra một V8 Engine để xử lý tác vụ thì spawn lại chỉ đơn giản là tạo ra một process thực hiện câu lệnh nào đó. Chi tiết hơn, hãy đi qua từng phương thức xem chúng thực chất là như thế nào.

spawn

spawn là một phương thức để tạo ra một child process mới. Khi sử dụng spawn, ta có thể truyền cho child process các tham số, tùy chọn và đối số cần thiết để thực thi lệnh hoặc file thực thi.

child_process.spawn(command[, args][, options])

Khi child process được tạo ra bằng spawn, nó có thể hoạt động độc lập với process cha, và có thể trao đổi dữ liệu với process cha thông qua pipe hoặc stream. Ta cũng có thể quản lý child process bằng cách theo dõi các sự kiện để biết khi nó hoàn thành hoặc gặp lỗi.

Ví dụ về cách sử dụng spawn:

const { spawn } = require('child_process');
const ls = spawn('ls', ['-lh', '/usr']);

ls.stdout.on('data', (data) => {
  console.log(`stdout: ${data}`);
});

ls.stderr.on('data', (data) => {
  console.error(`stderr: ${data}`);
});

ls.on('close', (code) => {
  console.log(`child process exited with code ${code}`);
});

Ở dòng số 2 chúng ta đang tạo ra một child process và nó thực hiện câu lệnh ls với các tùy chọn '-lh' và '/usr'. Hay nói cách khác, đó là một lệnh:

$ ls -lh /usr

Sau đó, sử dụng on để lắng nghe sự kiện từ child pocess để nhận dữ liệu ở process cha. Trong ví dụ trên, on đang "lắng nghe" trên 3 sự kiện của child process là thành công, thất bại và đóng tiến trình con.

Nếu để ý, có thể thấy trong spawn có thể chạy một lệnh node:

spawn('node', ['index.js']);

Bạn có thể chạy một file .js bằng cách trên trong tiến trình mới, hoặc nhanh hơn là sử dụng fork để đơn giản hóa khả năng sử dụng như trong phần dưới đây.

fork

fork cũng là một phương thức để tạo ra một child process mới, nó là một trường hợp đặc biệt của spawn, hay nói cách khác fork chỉ là một hàm dựa trên spawn. Tiến trình con này chạy một phiên bản độc lập của mã JavaScript được chỉ định. Mã này có thể được đặt trong một tệp hoặc một hàm được truyền dưới dạng tham số cho fork.

child_process.fork(modulePath[, args][, options])

Hàm fork sẽ tạo ra một child process mới, được "sao chép" từ cha (bao gồm những thứ như tạo ra hẳn một bộ V8 engine mới - điều này làm cho fork trở nên tốn kém về mặt tài nguyên), nhưng với một môi trường độc lập và một ID process khác biệt. Tiến trình con này có thể thực hiện các nhiệm vụ độc lập với tiến trình cha, có thể giao tiếp với cha thông qua một kênh IPC (Inter-Process Communication) được cung cấp bởi Node.js.

fork là giải pháp hoàn hảo để chia sẻ tải công việc, xử lý các tác vụ nặng, chạy các đoạn mã không đồng bộ mà không ảnh hưởng đến hiệu suất của cha.

Ví dụ, bạn có một tệp fibonacci.js dùng để tính toán dãy số Fibonacci:

function fibonacci(n) {
  if (n < 2) {
    return n;
  } else {
    return fibonacci(n - 1) + fibonacci(n - 2);
  }
}

process.on('message', (msg) => {
  const result = fibonacci(msg);
  process.send(result);
});

Sau đó, tạo ra một child_process để xử lý việc gọi hàm fibonacci() trong một tiến trình riêng biệt.

const { fork } = require('child_process');

const child = fork('fibonacci.js');

child.on('message', (result) => {
  console.log(`Fibonacci: ${result}`);
});

child.send(10);
});

Khi nào nên sử dụng child_process cũng như fork hoặc spawn?

Trước tiên, phải nói rằng lựa chọn sử dụng child_process còn phụ thuộc vào bài toán đang cần giải quyết. Vì chi phí để tạo ra một tiến trình con là khá tốn kém cho nên không phải cứ tạo ra càng nhiều thì ứng dụng của bạn sẽ xử lý càng nhanh. Ngược lại, nó có thể nhanh chóng làm cạn kiệt tài nguyên máy chủ cũng như chi phí liên lạc giữa các tiến trình với nhau.

Node.js xử lý I/O không đồng bộ rất tốt, nếu ứng dụng thiên về I/O có thể cần phải quan tâm đến cấu hình sao cho Worker Pools trong libuv được tối ưu nhất chứ không phải là tạo ra nhiều child_process để xử lý I/O không đồng bộ. Bạn đọc có thể tham khảo thêm bài viết Phân biệt tác vụ I/O và tác vụ chuyên sâu CPU để biết cách phân biệt tác vụ I/O với Tác vụ chuyên sâu CPU.

Trong trường hợp ứng dụng cần sự tính toán của CPU nhiều hơn thì child_process lại phù hợp. Lúc này cần phải vận dụng kinh nghiệm sử dụng hai cách tạo ra tiến trình con đã nêu ra ở trên để tối ưu chi phí tài nguyên.

Ví dụ máy chủ cài sẵn phần mềm, lệnh, bash script... và muốn gọi chúng từ Node.js thì hãy sử dụng spawn. Nó chỉ đơn giản tạo ra một tiến trình để thực hiện câu lệnh trong spawn rồi trả về kết quả, vừa nhanh vừa tiết kiệm.

fork thì lại phù hợp khi công việc nằm trong một tệp hoặc một hàm JavaScript. fork tạo ra một bản sao V8 Engine và có toàn quyền truy cập vào những module (node_modules) có trong ứng dụng của bạn. Hơn nữa, vì là tiến trình độc lập nên chẳng may tiến trình bị lỗi thì không gây ảnh hưởng đến luồng chính.

Tổng kết

child_process là một module trong Node.js cho phép tạo ra các quy trình con độc lập để thực hiện các tác vụ cụ thể, nhằm ngăn việc chặn vòng lặp sự kiện. Có nhiều cách để tạo ra một child process thông qua module child_process, trong số đó là hai phương thức spawnfork. spawn thì được dùng để chạy một lệnh cụ thể trong khi fork tạo ra một bản sao của V8 Engine để chạy một đoạn mã JavaScript. Tùy vào bài toán mà việc lựa chọn sử dụng child process sao cho hợp lý, tránh lãng phí tài nguyên cũng như tăng hiệu suất cho ứng dụng.

Tài liệu tham khảo:

Cao cấp
Hello

Tôi & khao khát "chơi chữ"

Bạn đã thử viết? Và rồi thất bại hoặc chưa ưng ý? Tại 2coffee.dev chúng tôi đã có quãng thời gian chật vật với công việc viết. Đừng nản chí, vì giờ đây chúng tôi đã có cách giúp bạn. Hãy bấm vào để trở thành hội viên ngay!

Bạn đã thử viết? Và rồi thất bại hoặc chưa ưng ý? Tại 2coffee.dev chúng tôi đã có quãng thời gian chật vật với công việc viết. Đừng nản chí, vì giờ đây chúng tôi đã có cách giúp bạn. Hãy bấm vào để trở thành hội viên ngay!

Xem tất cả

Đăng ký nhận thông báo bài viết mới

hoặc
* Bản tin tổng hợp được gửi mỗi 1-2 tuần, huỷ bất cứ lúc nào.

Bình luận (1)

Nội dung bình luận...
Avatar
Jess Vanes1 năm trước
quưkdnqmxncks skdnc akaofmxnak
Trả lời