Child process trong Node.js là gì? - Khi nào cần sử dụng fork và spawn?

Tin ngắn hàng ngày dành cho bạn

Hôm qua mới nhắc đến MinIO thì hôm nay đã thấy RustFS cũng làm được tương tự, nhưng viết bằng... Rust 😆

À RustFS vẫn đang trong giai đoạn hoàn thiện gấp rút nên vài nữa thôi chắc sẽ có nhiều người so sánh hiệu năng của 2 thằng này đây 🤓

» Xem thêm
minio/minio là một dự án mã nguồn mở cung cấp giải pháp lưu trữ đối tượng (object storage) tương thích với giao thức của Amazon S3.

Nếu không muốn sử dụng S3 hoặc lưu trữ tệp riêng tư thì bạn có thể thử cái này nha. Còn mình thì đang dùng R2 của Cloudflare 😅

» Xem thêm
.tgz chắc là dạng nén phổ biến mà mọi người hay dùng. Mình cũng thường nén các tệp dưới dạng tgz để dễ dàng di chuyển chúng đến khắp mọi nơi. Vừa nhanh, tiện lại tiết kiệm bộ nhớ.

Mới đây có một công cụ mới gọi là .ptar gọi là bản "nâng cấp" của tgz. Nếu tgz chọn nén tất cả tệp được chỉ định thì ptar lại chọn lọc, tức là nếu có 2 tệp giống hệt nhau thì ptar chỉ cần nén 1 tệp, từ đó giúp giảm thời gian và dung lượng xuống nhiều hơn nữa.

À đó là trong trường hợp có nhiều tệp giống nhau thôi nhé, còn khác nhau thì chưa chắc 😅

» Xem thêm

Vấn đề

Có một lời khuyên dành cho bất kỳ ai làm việc với Node.js là "đừng bao giờ chặn vòng lặp sự kiện". Chặn ở đây có nghĩa là khiến Event Loop không thể luân chuyển nhiệm vụ cần giải quyết. Node.js chỉ có một luồng để xử lý mã JavaScript, nếu một công việc chiếm nhiều thời gian xử lý thì nó sẽ gây ra một cuộc tắc nghẽn nghiêm trọng trong luồng chính. Hãy hình dung nơi tất cả yêu cầu đến sau phải đợi yêu cầu trước hoàn thành thì mới bắt đầu xử lý. Quả là khủng khiếp.

Biết điều đó, tất nhiên Node.js phải cung cấp một số cách giải quyết. Thay vì gọi những hàm đồng bộ thì hãy chuyển sang gọi hàm bất đồng bộ, ví dụ như cùng là đọc một tệp tin nhưng readFile được khuyên dùng hơn readFileSync bởi vì readFile là hàm bất đồng bộ, xử lý trong luồng chính. Ngược lại readFileSync là bất đồng bộ và được thực hiện bên ngoài luồng chính. Ngoài ra, nếu công việc đòi hỏi khả năng tính toán của CPU thì đây là lúc cần biết đến module child_process được tích hợp sẵn trong Node.

child_process là module xuất hiện trong Node.js từ những phiên bản đầu tiên. Sau đó, Node.js bổ sung thêm các module worker_threads có chức năng tương tự như child_process mà API dễ sử dụng hơn. Tôi đã có một bài về Worker threads là gì? Bạn đã biết khi nào thì sử dụng Worker threads trong node.js chưa? bạn đọc có thể tham khảo. Nhưng trong phạm vi bài viết này, hãy tạm quên đi worker_threads và tập trung vào xem child_process là gì và nó được sử dụng như thế nào nhé.

Child process là gì?

Child process là một module của Node.js cho phép tạo ra các tiến trình con (process) độc lập để thực hiện các tác vụ cụ thể. Nó cho phép Node.js chạy nhiều tác vụ đồng thời và tận dụng tối đa sức mạnh của máy chủ. Khi tạo ra một child process, nó sẽ chạy độc lập với parent process (tiến trình cha) và có thể giao tiếp với cha qua luồng (stream), các sự kiện (event)... Các child process được tạo ra có tài nguyên độc lập, giúp giảm thiểu tác động đến các tiến trình khác khi xử lý tác vụ nặng hoặc chẳng may bị lỗi.

Cho dễ hình dung, một ứng dụng Node.js khi khởi động thì nó là một process với một bộ V8 Engine được tạo ra. Để ngăn vòng lặp sự kiện bị chặn, cách tốt nhất là tạo ra một tiến trình khác để xử lý. Khi đó, nó có thể chạy độc lập với tiến trình cha, xử lý rồi trả lại kết quả cho tiến trình cha thông qua một kênh giao tiếp như đã kể đến ở bên trên.

Tùy thuộc vào cách child process được tạo ra mà nó có cách thực hiện nhiệm vụ khác nhau. Có hai cách phổ biến để tạo ra child process là spawn và fork. Trong khi fork cố gắng tạo ra một "bản sao" của process cha, có nghĩa là "clone" ra một V8 Engine để xử lý tác vụ thì spawn lại chỉ đơn giản là tạo ra một process thực hiện câu lệnh nào đó. Chi tiết hơn, hãy đi qua từng phương thức xem chúng thực chất là như thế nào.

spawn

spawn là một phương thức để tạo ra một child process mới. Khi sử dụng spawn, ta có thể truyền cho child process các tham số, tùy chọn và đối số cần thiết để thực thi lệnh hoặc file thực thi.

child_process.spawn(command[, args][, options])

Khi child process được tạo ra bằng spawn, nó có thể hoạt động độc lập với process cha, và có thể trao đổi dữ liệu với process cha thông qua pipe hoặc stream. Ta cũng có thể quản lý child process bằng cách theo dõi các sự kiện để biết khi nó hoàn thành hoặc gặp lỗi.

Ví dụ về cách sử dụng spawn:

const { spawn } = require('child_process');
const ls = spawn('ls', ['-lh', '/usr']);

ls.stdout.on('data', (data) => {
  console.log(`stdout: ${data}`);
});

ls.stderr.on('data', (data) => {
  console.error(`stderr: ${data}`);
});

ls.on('close', (code) => {
  console.log(`child process exited with code ${code}`);
});

Ở dòng số 2 chúng ta đang tạo ra một child process và nó thực hiện câu lệnh ls với các tùy chọn '-lh' và '/usr'. Hay nói cách khác, đó là một lệnh:

$ ls -lh /usr

Sau đó, sử dụng on để lắng nghe sự kiện từ child pocess để nhận dữ liệu ở process cha. Trong ví dụ trên, on đang "lắng nghe" trên 3 sự kiện của child process là thành công, thất bại và đóng tiến trình con.

Nếu để ý, có thể thấy trong spawn có thể chạy một lệnh node:

spawn('node', ['index.js']);

Bạn có thể chạy một file .js bằng cách trên trong tiến trình mới, hoặc nhanh hơn là sử dụng fork để đơn giản hóa khả năng sử dụng như trong phần dưới đây.

fork

fork cũng là một phương thức để tạo ra một child process mới, nó là một trường hợp đặc biệt của spawn, hay nói cách khác fork chỉ là một hàm dựa trên spawn. Tiến trình con này chạy một phiên bản độc lập của mã JavaScript được chỉ định. Mã này có thể được đặt trong một tệp hoặc một hàm được truyền dưới dạng tham số cho fork.

child_process.fork(modulePath[, args][, options])

Hàm fork sẽ tạo ra một child process mới, được "sao chép" từ cha (bao gồm những thứ như tạo ra hẳn một bộ V8 engine mới - điều này làm cho fork trở nên tốn kém về mặt tài nguyên), nhưng với một môi trường độc lập và một ID process khác biệt. Tiến trình con này có thể thực hiện các nhiệm vụ độc lập với tiến trình cha, có thể giao tiếp với cha thông qua một kênh IPC (Inter-Process Communication) được cung cấp bởi Node.js.

fork là giải pháp hoàn hảo để chia sẻ tải công việc, xử lý các tác vụ nặng, chạy các đoạn mã không đồng bộ mà không ảnh hưởng đến hiệu suất của cha.

Ví dụ, bạn có một tệp fibonacci.js dùng để tính toán dãy số Fibonacci:

function fibonacci(n) {
  if (n < 2) {
    return n;
  } else {
    return fibonacci(n - 1) + fibonacci(n - 2);
  }
}

process.on('message', (msg) => {
  const result = fibonacci(msg);
  process.send(result);
});

Sau đó, tạo ra một child_process để xử lý việc gọi hàm fibonacci() trong một tiến trình riêng biệt.

const { fork } = require('child_process');

const child = fork('fibonacci.js');

child.on('message', (result) => {
  console.log(`Fibonacci: ${result}`);
});

child.send(10);
});

Khi nào nên sử dụng child_process cũng như fork hoặc spawn?

Trước tiên, phải nói rằng lựa chọn sử dụng child_process còn phụ thuộc vào bài toán đang cần giải quyết. Vì chi phí để tạo ra một tiến trình con là khá tốn kém cho nên không phải cứ tạo ra càng nhiều thì ứng dụng của bạn sẽ xử lý càng nhanh. Ngược lại, nó có thể nhanh chóng làm cạn kiệt tài nguyên máy chủ cũng như chi phí liên lạc giữa các tiến trình với nhau.

Node.js xử lý I/O không đồng bộ rất tốt, nếu ứng dụng thiên về I/O có thể cần phải quan tâm đến cấu hình sao cho Worker Pools trong libuv được tối ưu nhất chứ không phải là tạo ra nhiều child_process để xử lý I/O không đồng bộ. Bạn đọc có thể tham khảo thêm bài viết Phân biệt tác vụ I/O và tác vụ chuyên sâu CPU để biết cách phân biệt tác vụ I/O với Tác vụ chuyên sâu CPU.

Trong trường hợp ứng dụng cần sự tính toán của CPU nhiều hơn thì child_process lại phù hợp. Lúc này cần phải vận dụng kinh nghiệm sử dụng hai cách tạo ra tiến trình con đã nêu ra ở trên để tối ưu chi phí tài nguyên.

Ví dụ máy chủ cài sẵn phần mềm, lệnh, bash script... và muốn gọi chúng từ Node.js thì hãy sử dụng spawn. Nó chỉ đơn giản tạo ra một tiến trình để thực hiện câu lệnh trong spawn rồi trả về kết quả, vừa nhanh vừa tiết kiệm.

fork thì lại phù hợp khi công việc nằm trong một tệp hoặc một hàm JavaScript. fork tạo ra một bản sao V8 Engine và có toàn quyền truy cập vào những module (node_modules) có trong ứng dụng của bạn. Hơn nữa, vì là tiến trình độc lập nên chẳng may tiến trình bị lỗi thì không gây ảnh hưởng đến luồng chính.

Tổng kết

child_process là một module trong Node.js cho phép tạo ra các quy trình con độc lập để thực hiện các tác vụ cụ thể, nhằm ngăn việc chặn vòng lặp sự kiện. Có nhiều cách để tạo ra một child process thông qua module child_process, trong số đó là hai phương thức spawn và fork. spawn thì được dùng để chạy một lệnh cụ thể trong khi fork tạo ra một bản sao của V8 Engine để chạy một đoạn mã JavaScript. Tùy vào bài toán mà việc lựa chọn sử dụng child process sao cho hợp lý, tránh lãng phí tài nguyên cũng như tăng hiệu suất cho ứng dụng.

Tài liệu tham khảo:

Child process | Node.js v18.20.8 Documentation

Cao cấp

Bí mật ngăn xếp của Blog

Là một lập trình viên, bạn có tò mò về bí mật công nghệ hay những khoản nợ kỹ thuật về trang blog này? Tất cả bí mật sẽ được bật mí ngay bài viết dưới đây. Còn chờ đợi gì nữa, hãy bấm vào ngay!

Xem tất cả svg

Đăng ký nhận thông báo bài viết mới

hoặc

* Bản tin tổng hợp được gửi mỗi 1-2 tuần, huỷ bất cứ lúc nào.

Bình luận (1)

Nội dung bình luận...

Jess Vanes2 năm trước

quưkdnqmxncks skdnc akaofmxnak

Trả lời

Child process trong Node.js là gì? - Khi nào cần sử dụng fork và spawn?

Vấn đề

Child process là gì?

spawn

fork

Khi nào nên sử dụng child_process cũng như fork hoặc spawn?

Tổng kết

Premium

Premium Plus

Child process trong Node.js là gì? - Khi nào cần sử dụng fork và spawn?

Vấn đề

Child process là gì?

spawn

fork

Khi nào nên sử dụng child_process cũng như fork hoặc spawn?

Tổng kết

Nâng cấp tài khoản

Premium

Premium Plus

Premium