Mình mới tìm thấy một công cụ trích xuất nội dung từ image, pdf, docx, xlsx, pptx... sang dạng text, markdown, hay là json... Nói chung là nó hỗ trợ kha khá đầu vào và đầu ra. Lấy được nội dung ra rồi thì muốn làm gì thì làm, đặc biệt là bỏ vào trong các mô hình ngôn ngữ lớn để làm nguồn dữ liệu gì còn gì bằng 😁
Công cụ tên là Docling, viết bằng python. Có thể nhúng vào trong mã hoặc dùng CLI đều được. Mình đã thử với dạng ảnh và pdf. Nhìn chung thì pdf vẫn cho kết quả tốt hơn. Ảnh thì hên xui 😅. Nó còn cho lựa chọn cả thư viện OCR á. Cái nào phù hợp hơn thì chọn.
Quá trình cài thì phát sinh mấy lỗi. Mọi người nhớ dùng python 3.9 -> 3.12. Nếu bị lỗi ModuleNotFoundError: No module named '_lzma'
thì thử làm theo hướng dẫn này xem giải quyết được không nhé ModuleNotFoundError: No module named '_lzma'
Giá như mình biết đến kho lưu trữ này sớm hơn. github/opensource.guide là nơi hướng dẫn mọi người tất tần tật về Open Source. Từ làm thế nào để đóng góp mã, làm thế nào để bắt đầu một dự án mã nguồn mở của riêng, cho đến những kiến thức mà bất kỳ ai cũng nên biết khi mới bước chân vào 🤓
Đặc biệt hàng này chính chủ từ Github luôn á.
Hôm trước mới nhắc đến dokploy.com thì hôm nay lại có tiếp coolify.io - cũng là một dự án mã nguồn mở có khả năng thay thế Heroku/Netlify/Vercel. Theo như mình đọc thì Coolify hoạt động dựa trên triển khai Docker, nhờ đó mà nó có thể chạy được hầu hết các ứng dụng. Coolify cung cấp giao diện và tính năng để việc triển khai ứng dụng trở nên đơn giản và dễ dàng hơn.
Có khi nào đây sẽ là xu hướng triển khai ứng dụng trong tương lai không? 🤔
Một trong những điều mình rất thích đối với những dòng lệnh là tính "đường ống nước" (pipe) của nó. Bạn có thể hình dung mỗi lệnh như là một ống nước, khi ráp chúng lại với nhau thì sẽ tạo ra một dòng chảy dữ liệu. Đầu ra của ống này trở thành đầu vào của ống kia... cứ như thế.
Về tính ứng dụng thì nhiều lắm, bạn đọc có thể tham khảo bài viết Thực hành xử lý dữ liệu bằng cách sử dụng lệnh trên tệp sao kê MTTQVN này. Kết hợp các lệnh lại với nhau, biến chúng thành công cụ phân tích dữ liệu mạnh mẽ.
Hoặc mới đây nhất là kết hợp lệnh wrangler
cùng với jq
để xem logs từ worker dễ hơn. wrangler
là giao diện dòng lệnh (CLI) của Cloudflare tích hợp nhiều tính năng. Một trong số đó là giúp chúng ta xem logs từ Worker bằng lệnh:
$ wrangler tail --config /path/to/wrangler.toml --format json
Nhưng logs từ câu lệnh trên chứa rất nhiều thông tin ngoài lề, tràn hết cả ra màn hình, trong khi chỉ mong muốn nhìn một số trường thông tin quan trọng thì phải làm thế nào?
Hãy kết hợp nó với jq
. jq là một lệnh xử lý JSON rất mạnh mẽ. Nó giúp chúng ta làm việc dễ hơn với dữ liệu dạng JSON trong terminal. Thế nên để chắt lọc thông tin từ logs, hết sức đơn giản:
$ wrangler tail --config /path/to/wrangler.toml --format json | jq '{method: .event.request.method, url: .event.request.url, logs }'
Lệnh trên trả về các dòng logs có cấu trúc JSON chỉ gồm 3 trường method, url và logs 🔥
Những câu chuyện "kinh dị" được lan truyền trong giới những người sử dụng serverless: serverlesshorrors.com 🥶
Như bạn biết đấy! Serverless có cách tính tiền rất khác so với máy chủ truyền thống. Thường thì nó tính dựa trên tiêu chí dùng bao nhiêu trả bấy nhiêu. Tức là dùng càng nhiều thì phí càng nhiều.
Thế nên là cẩn thận, một ngày đẹp trời, lượng truy cập bỗng nhiên vống lên thì tiền trong ví của bạn có thể bị bay sạch đấy!
Đợt trước mình có chia sẻ mấy kho Github tổng hợp lại các câu promts được "leak" ra từ các con BOT trong GPT Stores, giờ đây đã có hẳn một trang chính thống tổng hợp lại hết các câu prompt chất lượng của người dùng chia sẻ. Đặc biệt là có thêm sự tài trợ từ HuggingChat bao uy tín. Em nó ở đây prompts.chat 🥳
Tin tức sáng sớm, mọi người còn nhớ vụ kiện của Ryan Dahl - hay nói đúng hơn là của nhóm Deno với Oracle về cái tên JavaScript không?
Oracle đã phản hồi rằng họ không từ bỏ cái tên JavaScript đâu 🫣
Mọi người nghỉ tết sớm rồi hay sao á? Nhiên cái nguyên tuần nay traffic giảm hẳn luôn 😳. Một mình tuôi nói kể cũng buồn, ai đi ngang qua đọc được thì thả một "còm men" cho vui cửa vui nhà nha. Nói gì cũng được vì ẩn danh cả mà 😇🔥
Ah, hay bị ăn gậy của Google nhỉ? 🫣
Anh vẫn đều đặn vào đọc bài của em nhé :v
Hic, cảm ơn az ẩn danh đã lên tiếng, cảm động quá 🥹. Cơ mà nhờ a còm men mà phát hiện ra cái bug, a gửi tận hơn chục cái comment lận 😂
E vẫn đọc nha, a cứ viết đi ạ :D
Oh, cảm ơn e nhé, nhiều người vẫn quan tâm đến Threads đấy chứ 🤣
Ơ mà nhiều bình luận thì mới thấy khó xem thật đấy 😳
Ah, vụ gửi nhiều comment đó không biết có phải do anh comment trên điện thoại không. Bấm gửi xong chả thấy nó đóng popup hay có thông báo gì cả, trạng thái nút gửi cũng thế, nên anh cứ bấm bấm mấy phát xem sao =))
Chắc e quên chưa chặn khi đã bấm Gửi 🥶
Có người hỏi mình là cập nhật tin tức ở đâu mà nhanh thế, hay là kiếm ra được mấy cái tools, mấy cái projects... ở đâu mà nhiều thế? Thì có một nguồn xa tận chân trời mà gần ngay trước mắt đó chính là trang Github Trending này đây.
Trang này thống kê lại các kho lưu trữ đang có lượt "star" nhiều nhất theo ngày/tuần/tháng. Nó còn xem theo được ngôn ngữ cơ, mà mỗi ngôn ngữ lại kiểu như một chủ đề á. Ví dụ Python thì hót rần rần về AI, LLMs..., Rust thì bao tools siêu mạnh, còn Go thì... đồ chơi liên tục 😁. Trong khi JavaScript 🫣😑
bolt.new 8 lạng thì v0.dev phải nửa cân. Trong Threads mình có nhắc nhiều đến bolt và sự bá đạo của nó rồi, thật sơ suất nếu như không nói đến v0 của nhà Vercel. Sau khi so sánh cùng một nhiệm vụ với cả 2 nền tảng này thì lấy bolt nhỉnh hơn một chút vì cảm giác nó hiểu nhiệm vụ hơn á, hoặc cũng có thể mình đang ra lệnh bằng tiếng Việt nên bolt nó hiểu hơn v0, trong khi v0 luôn phải hồi bằng tiếng Anh.
Một cái nữa là bolt tính lượng dùng miễn phí bằng tokens, thì v0 dựa trên số lượng tin nhắn. Tài liệu không nói rõ số lượng nhưng theo mình thử thì được 10 tin nhắn mỗi ngày.