Khám Phá Bí Mật Đằng Sau Mô Hình DeepSeek R1 Giá Rẻ (Giải Thích Dễ Hiểu)

Khám Phá Bí Mật Đằng Sau Mô Hình DeepSeek R1 Giá Rẻ (Giải Thích Dễ Hiểu)

Meta dự kiến chi 65 tỷ USD cho các dự án liên quan đến AI trong năm 2025. Tương tự, số tiền mà Amazon và Microsoft sẽ chi cho trung tâm dữ liệu AI trong năm nay lần lượt là 75 tỷ và 80 tỷ USD. Mỹ cũng vừa công bố siêu dự án hạ tầng AI lớn nhất lịch sử Stargate có tổng trị giá lên tới 500 tỷ USD.

Có thể nói, AI từng là cuộc chơi của những doanh nghiệp công nghệ hàng đầu, với số tiền đầu tư lên đến hàng trăm tỷ USD. Tuy nhiên, sự ra đời của DeepSeek R1 đang thay đổi ngành công nghiệp AI, khi mà DeepSeek được ước tính chỉ tiêu tốn khoảng 1,6 tỷ USD để phát triển các mô hình AI của mình.

Dave Plummer, một kỹ sư phần mềm đã nghỉ hưu tại Microsoft ví sự kiện này như những ngày đầu của máy tính cá nhân (PC). Trước đây, thế giới máy tính bị thống trị bởi những cỗ máy khổng lồ, đắt đỏ, chỉ có chính phủ hoặc các tập đoàn lớn mới có khả năng sở hữu. Sau đó, PC xuất hiện. Nó không mạnh bằng những hệ thống máy tính lớn, nhưng lại đủ tốt, rẻ, và dễ tiếp cận. Nhờ đó mà ngày nay, mỗi cá nhân đều có thể dễ dàng sở hữu một chiếc máy tính cho riêng mình.

Cả bạn và Linh đều chưa biết DeepSeek R1 sẽ thay đổi thế giới như thế nào, nhưng ít nhất trước sự cạnh tranh mới này, OpenAI đã phản hồi bằng cách phát hành o3-mini miễn phí. Và với tư cách là người dùng, chúng ta đang được sử dụng một sản phẩm ChatGPT tốt hơn mà không cần trả phí.

Vậy DeepSeek R1 thực sự là gì? Nó hoạt động như thế nào? Tại sao nó có thể mạnh mẽ mà vẫn rẻ hơn các mô hình khác?

Linh đã rất tò mò và dành nhiều thời gian để đọc và xem các video từ các chuyên gia trên thế giới. Trong bài viết hôm nay, Linh sẽ chia sẻ với bạn tất cả những gì mình vừa học được, theo một cách dễ hiểu nhất.

1. DeepSeek R1 Là Gì?

DeepSeek-R1 là một mô hình AI được phát triển bởi DeepSeek, một công ty AI của Trung Quốc. Mô hình này khá giống với OpenAI o1, nhưng điểm khác biệt quan trọng là nó hoàn toàn mở, nghĩa là bất kỳ ai cũng có thể tải xuống và chạy trên phần cứng của mình.
Theo chuyên gia về AI Morgan Brown, nếu như mô hình ngôn ngữ lớn như ChatGPT có đến 1,8 nghìn tỷ tham số hoạt động liên tục cho mỗi truy vấn, thì DeepSeek có 671 tỷ tham số nhưng chỉ huy động 37 tỷ hoạt động cùng lúc. Đó là nhờ việc sử dụng kiến trúc Mixture-of-Experts (MoE), giúp tối ưu hóa tính toán bằng cách chỉ kích hoạt các phần có liên quan nhất của mô hình trong mỗi tương tác. Điều này giống như bạn có một đội ngũ lớn với nhiều vai trò khác nhau, nhưng chỉ gọi những chuyên gia mà bạn thực sự cần cho từng nhiệm vụ cụ thể.
Dù quy mô huấn luyện không lớn bằng ChatGPT hay Gemini, DeepSeek R1 vẫn có thể thực hiện hầu hết các tác vụ AI phổ biến như: (1) Trả lời câu hỏi một cách logic, có ngữ cảnh; (2) Tạo các loại nội dung như blog, làm thơ, viết code hay email; (3) Và DeepSeek R1 cũng có khả năng phân tích ngữ cảnh và tạo ra câu trả lời có ý nghĩa logic, thay vì chỉ dựa vào xác suất thống kê để ghép từ lại với nhau một cách máy móc.

2. Hạn Chế Và Lưu Ý

Linh và nhóm của mình đã thử sử dụng DeepSeek R1, và thấy cơ bản là ứng dụng này có thể đưa ra phản hồi logic cho nhiều dạng yêu cầu. Tuy nhiên nhìn chung thì phản hồi từ DeepSeek đang ở mức cơ bản và chưa được cấu trúc chi tiết như ChatGPT.

Một hạn chế là thời gian đưa ra phản hồi của ứng dụng này đang chậm hơn ChatGPT khá nhiều. Ngoài ra, khi Linh đặt liên tục hơn 3 câu lệnh thì ứng dụng sẽ báo lỗi “The server is busy. Please try again later.” Bạn cần đợi khoảng 3 phút mới có thể tiếp tục sử dụng. Hơi bất tiện so với các cuộc trò chuyện mượt mà với ChatGPT như hiện nay. Nhưng hãy nghĩ về những phiên bản đầu tiên khi ChatGPT mới ra mắt, trải nghiệm cũng không quá tốt như bây giờ. Có lẽ DeepSeek vẫn cần thêm một chút thời gian để cải thiện.

Trên Youtube cũng có nhiều bạn đã thử so sánh câu trả lời của DeepSeek R1 và ChatGPT o1. Linh thấy khá thú vị. Các bạn có thể tìm kiếm để xem thêm nhé.

Hạn chế thứ hai cực kỳ quan trọng là khả năng bảo mật thông tin người dùng. Andrew Hoog, nhà đồng sáng lập công ty bảo mật NowSecure của Mỹ, cảnh báo DeepSeek thu thập nhiều dữ liệu người dùng không mã hóa và gửi tới các máy chủ thuộc sở hữu của Trung Quốc. Tuần trước, công ty an ninh mạng Wiz của Mỹ cũng cho biết DeepSeek đã để hơn một triệu dòng dữ liệu không có biện pháp bảo mật, bao gồm các khóa phần mềm kỹ thuật số và nhật ký trò chuyện ghi lại các yêu cầu được gửi từ người dùng đến trợ lý AI miễn phí của công ty. Vì vậy, bạn có thể đăng ký dùng thử, nhưng đừng đưa thông tin cá nhân và dữ liệu bảo mật của công ty vào cuộc trò chuyện với DeepSeek. Ít nhất là cho tới lúc này.

3. Hướng Dẫn Đăng Ký Tài Khoản DeepSeek

Để bắt đầu sử dụng DeepSeek R1, bạn cần truy cập vào trang web deepseek.com. Ở giao diện trang chủ, bạn chọn "Start Now" để bắt đầu. Tại trang đăng nhập, chọn “Sign Up”, sau đó điền thông tin cần thiết như địa chỉ email và mật khẩu để tạo tài khoản mới. Sau khi điền xong thông tin, bạn chọn “Send Code” để nhận mã đăng nhập qua email. Tiếp theo hãy kiểm tra hộp thư đến của bạn để sao chép mã từ DeepSeek và dán vào ô trong trang đăng nhập. Cuối cùng, nhấp chọn vào ô đồng ý với chính sách của DeepSeek và bấm “Sign Up” để hoàn tất. Lúc này bạn có thể bắt đầu trải nghiệm các tính năng của DeepSeek R1.

Có một cách nhanh hơn là bạn cũng có thể chọn đăng nhập với tài khoản Google. Nếu bạn chọn cách này, hãy sử dụng với một tài khoản email phụ, không chứa các thông tin cá nhân để đảm bảo an toàn bảo mật.

Nếu bạn quan tâm đến kỹ năng tự động phân tích dữ liệu và báo cáo với AI, phát hiện sớm cơ hội, rủi ro, cũng như đưa ra các quyết định chiến lược hiệu quả, nhằm tăng hiệu suất công việc, tiết kiệm thời gian làm việc. Hãy tham khảo ngay khóa học AI for Decision TẠI ĐÂY.

4. DeepSeek R1 Hoạt Động Như Thế Nào?

Dù hạn chế về bảo mật, nhưng DeepSeek vẫn có những ưu điểm riêng. Hãy cùng tìm hiểu về cách mà DeepSeek R1 có thể đạt được hiệu suất tương đối tốt mà không cần tốn hàng chục tỷ USD như OpenAI hay Google.

Nếu nghe hiểu tiếng Anh tốt, bạn có thể xem thêm hai video DeepSeek R1 Explained to your grandmaDeepseek R1 Explained by a Retired Microsoft Engineer giải thích khá chi tiết về điều này.

Trong phần này, Linh sẽ tổng hợp thông tin một cách dễ hiểu nhất để chia sẻ với các bạn. Mục tiêu là ngay cả những bạn chưa biết nhiều về AI cũng có thể nắm được các thông tin chính.

Theo đó, 3 yếu tố cốt lõi giúp mô hình này trở nên mạnh mẽ mà vẫn nhỏ gọn là: Một, Chuỗi tư duy (Chain of Thought), giúp mô hình tự đánh giá và sửa lỗi. Hai, Học tăng cường (Reinforcement Learning), giúp mô hình tối ưu hành vi dựa trên phản hồi từ môi trường để trở nên thông minh hơn. Và Ba là Mô hình chưng cất (Model Distillation), giúp giảm kích thước mô hình mà vẫn duy trì hiệu suất cao. Chúng ta sẽ đi chi tiết vào từng yếu tố ngay bên dưới.

4.1. Chuỗi Tư Duy (Chain of Thought)

Đầu tiên là Chuỗi Tư Duy (Chain of Thought), yếu tố giúp AI suy nghĩ có tổ chức. Vậy chuỗi tư duy là gì?

Thông thường, khi bạn đặt câu hỏi cho AI, nó có thể đưa ra câu trả lời gần như ngay lập tức. Nhưng vấn đề là AI không luôn luôn đúng, và đôi khi nó mắc lỗi rất thuyết phục 😄 Hiện tượng này gọi là ảo giác AI (hay AI Hallucinations) mà chúng ta đã tìm hiểu trong bài viết Nghiên Cứu Dữ Liệu: Chọn NotebookLM Hay ChatGPT?

DeepSeek R1 đã khắc phục điều này bằng cách suy nghĩ từng bước, giống như một con người. Ứng dụng này không chỉ trả lời, mà còn giải thích quá trình suy luận của mình.

Ví dụ, nếu yêu cầu DeepSeek R1 giải một bài toán, nó sẽ trình bày từng bước giải thích thay vì chỉ đưa ra kết quả. Điều này sẽ giúp bạn kiểm tra từng bước và phát hiện lỗi sai dễ dàng. Và quan trọng hơn, AI cũng có thể tự nhận ra lỗi của mình và sửa lại câu trả lời.

Bạn có thể bật tính năng này bằng cách nhấn vào nút DeepThink R1 ở bên dưới khung chat như hình bên dưới.

 Nút DeepThink R1 ở bên dưới khung chat

Tuy nhiên, việc bạn nhìn thấy Chuỗi tư duy của Deep Seek R1 chỉ là quyết định về UI (giao diện người dùng), không phải là một đột phá về mặt công nghệ. Bởi vì ChatGPT cũng hoạt động theo cách này. Khác biệt ở đây là DeepSeek sẽ hiển thị chi tiết “dòng suy nghĩ" như một con người ngay trên khung chat, trong khi ChatGPT thì xử lý ngầm ở phía sau. Với các mô hình tập trung vào suy luận nâng cao như o1, o3-mini hay o3-mini-high của ChatGPT, bạn cũng có thể thấy từng bước suy luận trước khi câu trả lời xuất hiện.

Ở cả hai mô hình, bạn có thể lựa chọn thu gọn phần giải thích bằng cách nhấp vào mũi tên ở góc.

4.2. Học Tăng Cường (Reinforcement Learning)

Yếu tố thứ 2 là khả năng Học tăng cường (hay Reinforcement Learning). Đây là cách DeepSeek R1 học từ phản hồi của môi trường để điều chỉnh hành vi, tối ưu hóa phần thưởng và trở nên thông minh hơn theo thời gian.

Để dễ hiểu, hãy tưởng tượng một em bé học đi: Lần đầu tiên, bé loạng choạng, té ngã. Lần thứ hai, bé rút kinh nghiệm, tìm cách bám vào đồ vật xung quanh để giữ thăng bằng và tự điều chỉnh cách bước đi. Lần thứ ba, bé bước được vài bước. Dần dần, bé sẽ tự điều chỉnh và học cách bước đi mà không cần ai hướng dẫn.

DeepSeek R1 cũng vậy. Thay vì chỉ học thuộc đáp án đúng, nó liên tục thử nghiệm và tối ưu hóa cách trả lời để đạt kết quả tốt hơn. Ví dụ, với 1 bài toán có nhiều cách giải khác nhau, nếu AI đưa ra cách giải đúng, nó sẽ nhận điểm trung bình. Nếu lời giải ngắn gọn và hiệu quả hơn, mô hình sẽ nhận điểm cao hơn. Còn nếu câu trả lời sai hoặc thiếu logic, nó sẽ bị phạt điểm thấp. AI sẽ học từ những sai lầm đó và cải thiện dần theo thời gian. Khi DeepSeek R1 càng được huấn luyện bằng học tăng cường thì khả năng trả lời chính xác sẽ ngày càng cao.

4.3. Mô Hình Chưng Cất (Model Distillation)

Yếu tố thứ ba là Mô hình chưng cất (Model Distillation). Mặc dù DeepSeek chưa chính thức xác nhận, nhưng đây được cho là một trong những yếu tố quan trọng giúp DeepSeek R1 duy trì hiệu suất cao mà không cần phần cứng khủng.

Vấn đề của các mô hình AI lớn là chúng có hàng trăm tỷ tham số, yêu cầu hàng nghìn GPU và một hệ thống máy tính cực kỳ mạnh mẽ để vận hành. Nhưng nếu hầu hết các nhiệm vụ không đòi hỏi sức mạnh lớn như vậy thì sao? Đó chính là lúc ý tưởng “tinh giản” phát huy tác dụng.

Hãy tưởng tượng bạn có một giáo sư cực kỳ uyên bác về nhiều lĩnh vực như vật lý, văn học và lập trình. Nếu bạn muốn truyền những đạt kiến thức này cho một học sinh, bạn không cần dạy hết mọi thứ, mà chỉ cần chọn lọc những phần quan trọng để học sinh có thể làm tốt công việc của mình. Mô hình chưng cất cũng hoạt động theo cách tương tự.

Thông thường, khi đào tạo một mô hình AI, chúng ta cung cấp cho nó một lượng dữ liệu khổng lồ để nó tự học hỏi. Nhưng với mô hình chưng cất, thay vì để mô hình nhỏ tự học từ dữ liệu thô, chúng ta cho nó học từ đầu ra của mô hình lớn. Quá trình này diễn ra như sau:

Đầu tiên, mô hình lớn xử lý dữ liệu và tạo ra câu trả lời. Ví dụ: GPT-4 có thể được yêu cầu trả lời hàng loạt câu hỏi.

Sau đó, mô hình nhỏ sẽ học cách bắt chước mô hình lớn. Nghĩa là thay vì tự tìm hiểu từ dữ liệu ban đầu, nó học theo cách mà mô hình lớn đã trả lời.

Như vậy, sau nhiều lần lặp lại, mô hình nhỏ sẽ đạt được độ chính xác cao nhất có thể mà không cần kích thước khổng lồ như mô hình lớn.

Bằng cách chọn lọc các ví dụ một cách thông minh và tinh chỉnh qua nhiều lần huấn luyện, DeepSeek R1 có thể tái tạo cách các mô hình lớn đưa ra phản hồi mà không cần lưu trữ toàn bộ kiến thức như chúng. Điều đặc biệt là DeepSeek R1 không chỉ học từ một mô hình AI lớn, mà từ nhiều mô hình khác nhau, bao gồm các mô hình mã nguồn mở như Llama của Meta. Điều này giúp nó có cái nhìn đa chiều hơn, tương tự như một hội đồng chuyên gia đào tạo một học sinh giỏi.

Nhờ phương pháp này, dù có ít tham số hơn GPT-4, DeepSeek R1 vẫn đạt hiệu suất gần như tương đương trong nhiều bài kiểm tra. Thậm chí, một số phiên bản tinh gọn của DeepSeek R1 được cho là đã vượt qua GPT-4o và Claude 3.5 trong các bài kiểm tra toán học, lập trình và suy luận khoa học.

So sánh DeepSeek-R1 và các mô hình AI phổ biến trong các bài kiểm tra khác nhau

Tuy nhiên, mô hình chưng cất cũng có những mặt hạn chế. Vì mô hình nhỏ phụ thuộc vào chất lượng của mô hình lớn trong quá trình huấn luyện, nên nếu mô hình gốc có sai sót hoặc định kiến, các lỗi này có thể lan truyền xuống phiên bản tinh gọn. Ngoài ra, các mô hình chưng cất thường có kiến thức ít rộng hơn và dễ mắc lỗi trong các câu hỏi phức tạp hoặc yêu cầu kiến thức chuyên sâu.

Dù vậy, việc DeepSeek R1 có thể chạy trên phần cứng bình dân, bao gồm máy tính cá nhân và thậm chí laptop, là một dấu hiệu cho thấy sự thay đổi lớn trong cuộc đua AI. Với những cải tiến tiếp theo, rất có thể các mô hình AI tinh gọn như DeepSeek R1 sẽ trở thành xu hướng chủ đạo trong tương lai.

5. Có Nên Hủy Gói ChatGPT Để Chuyển Sang DeepSeek R1 Không?

Khi đọc đến đây, chắc nhiều bạn, và ngay cả Linh, cũng sẽ tự hỏi: Liệu có nên hủy gói ChatGPT 20 USD để chuyển sang DeepSeek R1 không? Câu trả lời là tùy vào nhu cầu của bạn.

Như Linh đã nói ở trên, nếu bạn chỉ sử dụng AI để trò chuyện thông thường, đặt câu hỏi, viết nội dung đơn giản, và không có nhiều dữ liệu cần bảo mật, thì DeepSeek R1 là một lựa chọn đáng thử, nhất là khi nó miễn phí và tiếp tục được cải thiện. Nhưng nếu bạn sử dụng AI cho công việc hàng ngày của mình, như lập trình, phân tích dữ liệu, viết báo cáo chuyên sâu hoặc tạo nội dung đòi hỏi độ chính xác cao, thì GPT-4o hay Gemini vẫn là lựa chọn tốt hơn.

Dù vậy, Linh vẫn khuyên bạn nên đăng ký tài khoản và thử nghiệm DeepSeek R1 ngay bây giờ, vì đây là một trong những mô hình AI có tiềm năng khá lớn, nếu việc bảo mật dữ liệu người dùng được đảm bảo. Học AI sớm chính là đầu tư vào tương lai, và DeepSeek R1 có thể là một phần quan trọng trong bức tranh AI trên toàn cầu sắp tới.

Lời Kết

Sự xuất hiện của DeepSeek R1 khiến Linh nhớ đến câu nói của Andrew Ng, một trong những nhà tiên phong trong lĩnh vực AI, đó là: “AI is the New Electricity.” Tạm dịch là: Trí tuệ nhân tạo là nguồn năng lượng mới của thời đại. Điều đó có nghĩa là AI sẽ không còn là công nghệ xa vời chỉ dành cho các tập đoàn lớn, mà sẽ trở thành một phần không thể thiếu trong công việc và cuộc sống của mỗi chúng ta - giống như cách điện đã thay đổi thế giới.
Và điều quan trọng nhất là AI đang phát triển với tốc độ chóng mặt. Những gì hôm nay còn là mới mẻ, có thể chỉ trong vài tháng tới sẽ trở thành điều hiển nhiên. Nếu bạn hay doanh nghiệp của bạn không bắt đầu tìm hiểu AI ngay từ bây giờ, rất có thể bạn sẽ bị bỏ lại phía sau.
Linh nghĩ điều bạn cần quan tâm lúc này không phải là câu chuyện về việc DeepSeek R1 cạnh tranh như thế nào với ChatGPT, mà là việc bạn sẽ tận dụng AI như thế nào để tạo ra lợi thế cho mình.
Skills Bridge là công ty đào tạo cung cấp các chương trình phát triển kỹ năng cho các bạn trẻ, doanh nghiệp vừa và nhỏ cùng các công ty đa quốc gia. Linh thành lập công ty với mục tiêu sử dụng 25 năm kinh nghiệm của mình cùng các chuyên gia khác trong nhiều lĩnh vực để hỗ trợ các bạn trẻ thành công trong sự nghiệp.
Để biết thêm chi tiết về các chương trình đào tạo và phát triển đa dạng hiện có của Skills Bridge, hãy truy cập link này.

Viết bởi

Có hơn 24 năm kinh nghiệm trong lĩnh vực tài chính, tiếp thị và vận hành. Những nội dung của Thái Vân Linh cung cấp các công cụ và cảm hứng nhằm giúp các bạn trẻ Việt Nam thăng tiến trong công việc và khám phá trọn vẹn tiềm năng của mình.

Skills Bridge là công ty đào tạo cung cấp các chương trình phát triển kỹ năng cho các bạn trẻ, doanh nghiệp vừa và nhỏ cùng các công ty đa quốc gia. Linh thành lập công ty với mục tiêu sử dụng 25 năm kinh nghiệm của mình cùng các chuyên gia khác trong nhiều lĩnh vực để hỗ trợ các bạn trẻ thành công trong sự nghiệp.
Để biết thêm chi tiết về các chương trình đào tạo và phát triển đa dạng hiện có của Skills Bridge, hãy truy cập link này.

Viết bởi

Có hơn 24 năm kinh nghiệm trong lĩnh vực tài chính, tiếp thị và vận hành. Những nội dung của Thái Vân Linh cung cấp các công cụ và cảm hứng nhằm giúp các bạn trẻ Việt Nam thăng tiến trong công việc và khám phá trọn vẹn tiềm năng của mình.