Tự Động Hóa Việc Làm Sạch Dữ Liệu Với AI

Tự Động Hóa Việc Làm Sạch Dữ Liệu Với AI

Bên dưới đây là một bảng số liệu có ít nhất 3 điểm cần chỉnh sửa. Đầu tiên là thông tin bị trùng lặp. Tiếp theo, định dạng tên và số điện thoại chưa đồng nhất. Thứ ba, một vài ô còn thiếu thông tin. Linh có một quy trình để rút gọn hàng giờ làm sạch dữ liệu một cách thủ công xuống còn chỉ 10 phút làm việc với AI. Nhờ đó, bạn sẽ có thêm thời gian để phân tích dữ liệu và ra quyết định hành động. Linh tin đây là một kỹ năng then chốt mà bất cứ ai muốn thăng tiến và thành công trong sự nghiệp đều không thể bỏ qua.

Bảng dữ liệu mẫu

1. Quy Trình Làm Việc Với Bảng Dữ Liệu

Trước khi làm sạch dữ liệu, chúng ta hãy nói một chút về quy trình làm việc với bảng dữ liệu để bạn có cái nhìn tổng quan. Thông thường, quy trình này có 5 bước chính: (1) Khám phá và Làm sạch dữ liệu, (2) Phân tích dữ liệu, (3) Trực quan hoá dữ liệu, (4) Ra quyết định dựa trên dữ liệu, và cuối cùng là (5) Triển khai và theo dõi.

2. Quy Tắc 1x10x100 Trong Xử Lý Sự Cố Dữ Liệu

Quy trình này cho thấy điều gì? Nếu bắt đầu với một bảng dữ liệu “không sạch”, bạn đang “mắc kẹt” ngay từ bước đầu tiên. Và điều quan trọng là, nỗ lực để xử lý sai sót ở bước cuối cùng, sẽ lớn hơn nhiều so với nỗ lực xử lý sai sót ngay từ bước một.

Khi làm việc với dữ liệu sai, bạn không chỉ cần trả giá bằng nỗ lực, mà còn bằng chi phí thực tế. Có một quy tắc được công nhận rộng rãi trong quản lý sự cố là 1x10x100. Quy tắc này nhấn mạnh vào chi phí khắc phục chất lượng dữ liệu kém sẽ tăng theo cấp số nhân nếu vấn đề không được xử lý kịp thời.

Hãy nghĩ về điều này giống như việc xây dựng một tòa nhà. Nếu có sai sót trong các số đo ở giai đoạn thiết kế, kiến trúc sư sẽ mất vài giờ để vẽ lại bản thiết kế. Nhưng nếu bạn đã xây dựng xong tòa nhà rồi và sau đó bạn phát hiện ra rằng kích thước của tất cả các cửa sổ hoặc cầu thang đều sai - lúc này chi phí để sửa chữa mọi thứ sẽ cao hơn rất nhiều.

Tương tự như vậy, khi nói đến dữ liệu. Nếu sai sót được phát hiện ngay từ lúc nhập dữ liệu, chi phí giải quyết chỉ tương đương 1 lần chi phí ban đầu. Nếu vấn đề lan rộng trong hệ thống, chi phí này sẽ tăng lên 10 lần vì cần thêm công sức để sửa chữa và khắc phục. Tuy nhiên, nếu để dữ liệu kém ảnh hưởng đến người dùng cuối hoặc các quyết định kinh doanh, chi phí khắc phục sự cố có thể tăng vọt tới 100 lần so với ban đầu. Vì vậy, hãy đảm bảo là bạn làm sạch dữ liệu đúng chuẩn ngay từ đầu!

3. Khám Phá Và Làm Sạch Dữ Liệu

Trong bài viết này, chúng ta sẽ nói về bước đầu tiên: Khám phá và Làm sạch dữ liệu.

3.1. Khám Phá Dữ Liệu

Khi bắt đầu làm việc với một bảng dữ liệu, bước đầu tiên là khám phá dữ liệu để hiểu rõ nội dung và cấu trúc của nó.
Đầu tiên, bạn cần biết bảng dữ liệu chứa bao nhiêu dòng, bao nhiêu cột và từng cột mang ý nghĩa gì. Hãy quan sát qua một vài dòng đầu tiên để hình dung dữ liệu đang lưu trữ điều gì, chẳng hạn như thông tin về khách hàng, sản phẩm, hay kết quả khảo sát.
Tiếp theo, bạn nên xem xét các loại dữ liệu: có phải số, chuỗi ký tự, ngày tháng, hay dạng khác.
Một số hàm thống kê đơn giản như tính trung bình, giá trị nhỏ nhất, lớn nhất, hoặc đếm số lượng giá trị trong từng cột có thể giúp bạn hiểu cách dữ liệu được phân bố.
Trong quá trình này, bạn cần lưu ý những điểm bất thường như ô bị bỏ trống, giá trị kỳ lạ hoặc dữ liệu bị lặp lại. Mục tiêu là nắm rõ những vấn đề và cơ hội mà dữ liệu cung cấp để chuẩn bị xử lý hiệu quả hơn ở bước tiếp theo.

3.2. Làm Sạch Dữ Liệu

Sau khi hiểu rõ về dữ liệu, bước tiếp theo là làm sạch và chuẩn bị dữ liệu để có thể sử dụng hiệu quả.
Nếu dữ liệu bị thiếu ở một số ô, bạn cần quyết định cách xử lý: có thể điền giá trị thay thế, xóa hàng hoặc cột đó, hoặc dùng thuật toán để dự đoán giá trị thiếu (Công thức Thu - chi = lợi nhuận)
Đối với các giá trị bất thường (ví dụ: doanh thu hàng triệu nhưng một dòng lại ghi "0"), bạn cần kiểm tra và chỉnh sửa
Nếu dữ liệu có cột nào không đúng định dạng (ví dụ: số điện thoại không đồng nhất định dạng), hãy chuyển đổi chúng sang dạng phù hợp.
Đôi khi, bạn cũng có thể tạo thêm các cột mới để làm rõ hơn các thông tin, chẳng hạn như tính độ tuổi từ ngày sinh.
Cuối cùng, nếu dữ liệu được sử dụng cho mô hình hoặc phân tích nâng cao, bạn cần chuẩn hóa các giá trị để đảm bảo chúng có cùng đơn vị (VND, USD) hoặc phạm vi.
Mục tiêu của bước này là làm cho dữ liệu sạch, rõ ràng và sẵn sàng cho các bước xử lý tiếp theo.
Nói tóm lại, bước số 1 này sẽ gồm 3 thao tác chính mà chúng ta có thể tự động hóa nhanh chóng với Google Apps Script. Bởi vì đây đây là các thao tác thường lặp đi lặp lại trong quá trình làm sạch dữ liệu. Đó là (1) Xóa bỏ thông tin trùng lặp, (2) Điền thông tin còn thiếu vào các trường dữ liệu trống và (3) Điều chỉnh định dạng file dữ liệu.
Chỉ với một vài thao tác tự động hóa, bạn đã tiết kiệm được hàng giờ làm sạch dữ liệu. Nhưng đây mới chỉ là điểm khởi đầu trong quy trình làm việc với dữ liệu.
Sau khi làm sạch, bạn cần làm thêm 4 bước quan trọng nữa đó là: Phân tích, Trực quan hoá, Ra quyết định chiến lược, và Triển khai thực tiễn.

Nội dung này được tài trợ bởi Skills Bridge

Trên đây cũng là 4 bước được chia sẻ trong Khóa học AI for Decision Making - Khóa học hướng dẫn cách ứng dụng AI vào việc đọc hiểu dữ liệuchuyển đổi chúng thành những quyết định chiến lược.

Sau khóa học, bạn sẽ biết cách:

1. Hệ thống hóa và kết nối mọi số liệu thành bức tranh toàn cảnh, dễ hiểu và có ý nghĩa hơn.

2. Ứng dụng AI để nhận diện sớm những tín hiệu cảnh báo, cơ hội ẩn sâu mà không thể dễ dàng nhận thấy bằng mắt thường.

3. Đào sâu vào dữ liệu, không chỉ nhìn vào các con số trên bề mặt, mà còn khám phá được các xu hướng ngầm, đưa ra quyết định thông minh, chính xác hơn.

4. Tự Động Hóa Việc Làm Sạch Dữ Liệu Với Apps Script

Để thực hiện quá trình tự động hoá này, Linh sẽ tiến hành thao tác với tính năng Apps Script trong Google Sheet, và viết mã với sự hỗ trợ của ChatGPT.
Cho bạn nào chưa biết thì Apps Script là một ngôn ngữ lập trình đơn giản được Google phát triển để người dùng có thể tạo ra các ứng dụng và kịch bản tùy chỉnh cho các sản phẩm và dịch vụ của Google. Nó có khả năng tự động hoá các tác vụ thông qua một đoạn mã tạo sẵn và được cài đặt vào. Linh đã có các bài viết chia sẻ về việc sử dụng Apps Script để tự động hoá tạo mới slide thuyết trình trong Google Slides, hay tự động đổi màu số trong Google Sheets. Bạn hãy đọc thêm các bài đó trên website Thái Vân Linh để học cách tự động hoá công việc của mình với AI nhé.

4.1. Loại Bỏ Các Giá Trị Trùng Lặp

Ở đây Linh có một bảng dữ liệu mẫu về Thông tin khách hàng. Bảng dữ liệu này Linh nhờ ChatGPT làm giúp 🙂 Các bạn hãy tạo bản sao FILE NÀY và thực hành cùng với Linh.
Như các bạn đang thấy, đây là một bảng dữ liệu đầy lỗi. Đầu tiên, bạn cần loại bỏ các dữ liệu trùng. Về lý thuyết, có nhiều cách để bạn lọc dữ liệu trùng lặp trực tiếp trên Google Sheets. Linh muốn cách làm nhanh hơn cách truyền thống, chỉ cần bấm một nút đơn giản thôi. Đó là lý do Linh làm việc với App Scripts cho nhiệm vụ này.

Bảng dữ liệu chứa nhiều lỗi

Bây giờ, Linh sẽ viết prompt yêu cầu ChatGPT viết mã Apps Script thực hiện hai yêu cầu là (1) xác định các hàng dữ liệu trùng và tô màu các hàng dữ liệu đó, và (2) xoá bỏ các hàng dữ liệu trùng vừa tìm được. Trên thực tế, bạn có thể yêu cầu ChatGPT viết một đoạn mã thực hiện cả hai bước trên. Tuy nhiên, Linh muốn biết là AI có xác định đúng các dòng các dữ liệu bị trùng không. Vì vậy, Linh sẽ yêu cầu ChatGPT thực hiện 2 bước riêng lẻ.

Nhấp vào xem Prompt mẫu

Hãy viết một Google Apps Script cho phép tôi nhấp vào nút menu tùy chỉnh từ bên trong trang tính Google Sheet để:

(1) Xác định các hàng có chứa giá trị trùng lặp tất cả các trường thông tin trong bảng và highlight bằng mã màu #fff2cc

(2) Xoá bỏ các hàng có chứa giá trị trùng lặp tất cả các trường thông tin trong bảng vừa tìm được

Sau khi chạy mã Apps Script này, trên thanh công cụ ở bảng tính sẽ xuất hiện nút tùy chỉnh cho phép bạn thực hiện 2 yêu cầu của mình. 

Nút tùy chỉnh

Linh sẽ thử nhấn vào lệnh Highlight hàng trùng lặp. Có 3 hàng đã được tô màu. Tiếp theo, Linh quay lại thanh công cụ, nhấn vào tuỳ chỉnh và chọn lệnh thứ 2 là Xóa hàng trùng lặp. Vậy là 3 hàng dữ liệu trùng vừa nãy đã bị xoá rồi. Thật sự rất nhanh.
Có một câu thần chú mà khi làm việc với các công cụ AI mà các bạn luôn phải nhớ đó là: “AI có thể mắc lỗi. Hãy kiểm tra các thông tin quan trọng.”

4.2. Điền Các Dữ Liệu Trống

Tiếp theo, Linh sẽ tiến hành điền dữ liệu vào ô trống trong bảng, cụ thể là dữ liệu cho ô “hạng thẻ”.
Như Linh đã chia sẻ ở trên, nếu dữ liệu bị thiếu ở một số ô, bạn có 3 lựa chọn. (1) điền giá trị thay thế, (2) xóa hàng hoặc cột đó, hoặc (3) dùng thuật toán để dự đoán giá trị thiếu.
Trong ví dụ này, Linh chọn cách số 3, vì chúng ta có thể điền thông tin về “hạng thẻ” dựa trên thông tin về “nhóm khách hàng” ở cột bên cạnh. Quy tắc là: (1) Nhóm khách hàng “Mới” có hạng "Silver". (2) Nhóm khách hàng “Thông thường” có hạng "Gold", và (3) Nhóm khách hàng “Thân thiết” sẽ có hạng "VIP".

Nhấp vào xem Prompt mẫu

Hãy viết một Google Apps Script cho phép tôi nhấp vào nút menu tùy chỉnh từ bên trong trang tính Google Sheet để điền các ô "Hạng thẻ" dựa trên "Nhóm khách hàng" theo quy tắc sau:

(1) Nhóm khách hàng Mới, hạng "Sliver"

(2) Nhóm khách hàng Thông thường, hạng "Gold"

(3) Nhóm khách hàng Thân thiết, hạng "VIP"

Sau khi đã sao chép đoạn mã do ChatGPT vừa tạo, hãy trở lại với giao diện Apps Script của file Google Sheets. Các bạn lưu ý là chúng ta KHÔNG THAY THẾ đoạn mã đang có bằng đoạn mã mới. Bởi vì nó sẽ làm mất đoạn script của nhiệm vụ “Loại bỏ các giá trị trùng lặp”. Thay vào đó, hãy tạo một script mới hoàn toàn.
Cách làm là nhấn vào dấu 3 chấm tại tên file của đoạn mã trước, chọn “Rename” để đặt lại tên. Linh sẽ lưu là “Tìm và xóa”. Sau đó bạn có thể mở một Apps Script khác bằng cách nhấn vào dấu + ở ngay bên trên, chọn Script. Khi một trang Script mới xuất hiện, bạn sẽ đặt tên là “Điền dữ liệu”. Sau đó, dán đoạn mã vừa sao chép từ ChatGPT vào khung Script này.
Ở giao diện bảng tính, hãy ghi nhớ các ô đang trống để tiện cho việc kiểm tra lại. Sau đó, nhấn nút “Tuỳ chỉnh”, chọn lệnh “Điền hạng thẻ dựa trên nhóm khách hàng”. Kết quả là thông tin hạng thẻ đã được điền đầy đủ.

4.3. Chuẩn Hóa Định Dạng Dữ Liệu

Vậy là chúng ta đã xong bước loại bỏ giá trị trùng lặp và điền dữ liệu vào các ô trống. Bây giờ, chúng ta sẽ đến bước cuối cùng là chuẩn hoá các định dạng dữ liệu.
Thế nào là một bảng dữ liệu được định dạng chuẩn? Điều này sẽ phụ thuộc vào tính chất thông tin hoặc yêu cầu của phòng ban, doanh nghiệp của bạn.
Về cơ bản, có 3 yếu tố để đánh giá điều này là:
(1) Căn lề đồng nhất trong mỗi cột. Nghĩa là không có hàng thì căn bên trái, hàng thì căn bên phải. Trong đó, dữ liệu dạng số (như số lượng, số tiền) nên căn lề phải, còn dữ liệu văn bản nên căn lề trái để dễ theo dõi.
Yếu tố thứ (2) là Viết đúng chính tả, đặc biệt là với các ô chứa văn bản như tên sản phẩm, địa chỉ, mô tả sản phẩm.
Và cuối cùng là (3) Không chứa các ký tự đặc biệt ngoài định dạng. Ví dụ như không nên có dấu chấm (.) trong số điện thoại, không thêm dấu gạch ngang không cần thiết trong tên khách hàng.
Những yếu tố này không chỉ giúp bạn đọc bảng dữ liệu dễ dàng hơn, mà còn đảm bảo việc áp dụng các hàm, công thức nâng cao được nhanh chóng và hạn chế lỗi.
Bạn có thể dễ dàng phát hiện các lỗi về định dạng bằng cách tự quan sát nếu phạm vi dữ liệu nhỏ như trong ví dụ của Linh. Tuy nhiên, với bảng dữ liệu có nhiều trường thông tin hơn hoặc bạn muốn kiểm tra thông tin kỹ càng hơn, bạn có thể chụp màn hình hoặc đính kèm file dữ liệu vào ChatGPT và yêu cầu kiểm tra như hình bên dưới. ChatGPT liệt kê khá chi tiết và đầy đủ.

Yêu cầu ChatGPT kiểm tra

Với bảng dữ liệu trong ví dụ, một số ô văn bản đang căn lề một cách ngẫu nhiên trái phải, định dạng của các số điện thoại không đồng nhất, còn có chứa dấu chấm, rồi viết sai tên riêng ở cột Tên khách hàng và địa chỉ. Đây là những lỗi bạn chỉ cần nhìn vào là thấy. Linh sẽ viết prompt yêu cầu ChatGPT tạo đoạn mã để chuẩn hóa những lỗi định dạng vừa kể.

Nhấp vào xem Prompt mẫu

Hãy viết một Google Apps Script cho phép tôi nhấp vào nút menu tùy chỉnh từ bên trong trang tính Google Sheet để tìm và điều chỉnh các ý sau:

1. Căn lề trái cho tất cả các ô chứa text,

2. Viết hoa ký tự đầu tiên của mỗi từ trong cột "Tên khách hàng" và "Địa chỉ"

3. Thêm số 0 vào trước các số điện thoại và loại bỏ các dấu chấm trong số điện thoại

4. Chú ý đọc kỹ, thực hiện đúng và đủ 3 yêu cầu trên

Tiếp theo, hãy tạo một file Script mới, đặt tên là “Định dạng” rồi khởi chạy đoạn mã. Bên dưới là thông báo Linh nhận được. Các cột bắt buộc đã không được tìm thấy. Các bạn đừng lo lắng. Khi gặp lỗi với Apps Script, chúng ta chỉ cần chụp màn hình lỗi này và yêu cầu ChatGPT điều chỉnh.

Yêu cầu ChatGPT điều chỉnh

Khi có đoạn mã mới được ChatGPT viết lại, bạn chỉ việc thay vào đoạn mã cũ và khởi chạy lại.
Hãy kiểm tra kết quả. Bảng dữ liệu đã trở nên ngăn nắp hơn. Các ô văn bản đã được căn đúng lề trái, số điện thoại đã được định dạng đúng yêu cầu. Tuy nhiên thì cột “Tên khách hàng” và “Địa chỉ” vẫn chưa được viết hoa đúng.

Cột "Tên khách hàng" và "Địa chỉ" vẫn chưa được viết hoa đúng

Linh sẽ chụp màn hình hai cột này và tiếp tục yêu cầu ChatGPT điều chỉnh.
Yêu cầu ChatGPT điều chỉnh
Lần này sau khi khởi chạy đoạn mã thì Linh đã có bảng dữ liệu đúng như yêu cầu. Các ô chứa tên riêng đã được viết hoa đúng.

5. Lưu Lại Và Sử Dụng

Như vậy khi hoàn tất 3 bước điều chỉnh trên, bạn sẽ có một thư viện Apps Script gồm 3 mục như bên dưới.

Thư viện Apps Script gồm 3 mục đã tạo

Cho lần tới khi bảng dữ liệu được bổ sung, bạn chỉ cần chọn tác vụ muốn thực hiện, nhấn vào onOpen, nhấn vào lệnh cần chạy. Như vậy là bảng dữ liệu của bạn sẽ tự động được cập nhật các yêu cầu này mà bạn không cần phải viết prompt tạo lại đoạn mã.

Tuỳ thuộc vào các yêu cầu khác nhau tại vị trí công việc đang đảm nhiệm, bạn có thể linh hoạt thay đổi các câu lệnh prompt của mình để tạo được danh sách tác vụ tự động riêng cho mình.

Bạn chỉ cần nhớ 2 điều là (1) mô tả rõ yêu cầu cần Apps Script thực hiện, và (2) nếu xuất hiện lỗi, hãy chụp màn hình và yêu cầu ChatGPT điều chỉnh đến khi hoàn thiện.

Lời Kết

Tin tốt là AI có thể giúp chúng ta làm sạch dữ liệu nhanh chóng. Nhưng nó cũng cần thêm chút thời gian và công sức. Để rút ngắn bước này, có 1 cách tốt hơn nữa, đó là hãy chuẩn hóa nguồn dữ liệu đầu vào ngay từ đầu. Trở lại với ví dụ chúng ta vừa thực hiện, nếu các thông tin như số điện thoại, địa chỉ đã được nhập đúng, bạn không cần mất thời gian để điều chỉnh nữa, đúng không?
Nếu bạn sử dụng các công cụ trực tuyến để thu thập dữ liệu, hãy chuẩn hóa định dạng từ lúc tạo biểu mẫu. Ví dụ là bạn có thể cho mọi người chọn địa chỉ là tỉnh thành được cài đặt sẵn. Nếu dữ liệu đầu vào của bạn được nhập bởi con người, hãy phổ biến cho người làm nhiệm vụ đó những tiêu chuẩn bạn mong muốn cho bảng dữ liệu của mình. Nói chung là tất cả những gì bạn có thể đảm bảo dữ liệu đầu vào là chính xác!
Bạn có nhớ quy tắc 1x10x100 mà Linh nói đến ở đầu bài viết không? Bạn sẽ tốn gấp nhiều lần nỗ lực để điều chỉnh những sai sót khi càng đi đến các bước sau cùng. Do đó, trong xử lý dữ liệu hay bất kỳ công việc nào khác, hãy đảm bảo bạn có những tiêu chuẩn để làm đúng ngay từ bước đầu tiên.

Skills Bridge là công ty đào tạo cung cấp các chương trình phát triển kỹ năng cho các bạn trẻ, doanh nghiệp vừa và nhỏ cùng các công ty đa quốc gia. Linh thành lập công ty với mục tiêu sử dụng 25 năm kinh nghiệm của mình cùng các chuyên gia khác trong nhiều lĩnh vực để hỗ trợ các bạn trẻ thành công trong sự nghiệp.
Để biết thêm chi tiết về các chương trình đào tạo và phát triển đa dạng hiện có của Skills Bridge, hãy truy cập link này.

Viết bởi

Có hơn 24 năm kinh nghiệm trong lĩnh vực tài chính, tiếp thị và vận hành. Những nội dung của Thái Vân Linh cung cấp các công cụ và cảm hứng nhằm giúp các bạn trẻ Việt Nam thăng tiến trong công việc và khám phá trọn vẹn tiềm năng của mình.

Skills Bridge là công ty đào tạo cung cấp các chương trình phát triển kỹ năng cho các bạn trẻ, doanh nghiệp vừa và nhỏ cùng các công ty đa quốc gia. Linh thành lập công ty với mục tiêu sử dụng 25 năm kinh nghiệm của mình cùng các chuyên gia khác trong nhiều lĩnh vực để hỗ trợ các bạn trẻ thành công trong sự nghiệp.
Để biết thêm chi tiết về các chương trình đào tạo và phát triển đa dạng hiện có của Skills Bridge, hãy truy cập link này.

Viết bởi

Có hơn 24 năm kinh nghiệm trong lĩnh vực tài chính, tiếp thị và vận hành. Những nội dung của Thái Vân Linh cung cấp các công cụ và cảm hứng nhằm giúp các bạn trẻ Việt Nam thăng tiến trong công việc và khám phá trọn vẹn tiềm năng của mình.