Cách làm sạch dữ liệu trong Excel: Hướng dẫn cho người mới bắt đầu
✏️

Cách làm sạch dữ liệu trong Excel: Hướng dẫn cho người mới bắt đầu

Tìm hiểu các kỹ thuật làm sạch dữ liệu cần thiết trong Excel, bao gồm xóa dữ liệu trùng lặp, xử lý các giá trị bị thiếu và duy trì định dạng nhất quán.
Trong bài hướng dẫn này, bạn sẽ học cách làm sạch dữ liệu trong Excel và chuẩn bị cho việc phân tích. Chúng ta sẽ tìm hiểu các kỹ thuật cần thiết như xóa dữ liệu trùng lặp, xử lý các giá trị bị thiếu và chuẩn hóa định dạng. Khi hoàn thành, bạn sẽ được trang bị những kỹ năng thực tế để đảm bảo bộ dữ liệu của mình chính xác và sẵn sàng cho việc phân tích sâu hơn.

Các thành phần của dữ liệu sạch là gì?

Để đảm bảo chất lượng dữ liệu cao cần có một số thành phần chính, bao gồm tính chính xác, tính đầy đủ, tính nhất quán, tính đồng nhất và tính hợp lệ. Những thành phần này rất cần thiết cho việc phân tích và ra quyết định đáng tin cậy. Hãy cùng xem xét từng thành phần.
  • Tính chính xác (Accuracy): Dữ liệu của bạn hiển thị chính xác các giá trị trong thế giới thực mà nó đại diện. Nó đảm bảo rằng thông tin được hiển thị là chính xác và không có lỗi, phản ánh đúng tình trạng thực của dữ liệu. Ví dụ, dữ liệu chính xác sẽ có: Thông tin chính xác và không lỗi, giá trị số học đúng, dữ liệu văn bản không lỗi chính tả và ngày tháng chính xác.
  • Tính đầy đủ (Completeness): Dữ liệu đầy đủ chứa tất cả thông tin cần thiết cho việc phân tích. Nếu dữ liệu của bạn không đầy đủ và thiếu các chi tiết quan trọng, điều này có thể làm sai lệch kết quả. Hãy đảm bảo điền vào các khoảng trống hoặc tính đến các giá trị bị thiếu trong phân tích của bạn. Để giải quyết vấn đề dữ liệu bị thiếu, hãy đảm bảo: Nhập giá trị dựa trên các quan sát khác, thay thế các giá trị bị thiếu bằng các giá trị giữ chỗ và loại bỏ các bản ghi không đầy đủ.
  • Tính nhất quán (Consistency): Dữ liệu duy trì sự đồng đều qua các bộ dữ liệu và khoảng thời gian khác nhau. Dữ liệu sạch sẽ chứa các định dạng và đơn vị đo lường giống nhau xuyên suốt.
  • Tính đồng nhất (Uniformity): Tính đồng nhất hay tiêu chuẩn hóa có nghĩa là tất cả dữ liệu sẽ thể hiện một định dạng và cấu trúc mạch lạc — nó phải thuộc cùng một kiểu dữ liệu hoặc một danh mục. Điều này sẽ bao gồm việc sử dụng cùng một đơn vị đo lường hoặc định dạng ngày tháng và gán nhãn chúng theo danh mục.
  • Tính hợp lệ (Validity): Các giá trị dữ liệu nằm trong phạm vi chấp nhận được đã xác định trước và tuân thủ các mẫu dự kiến. Ví dụ, nếu một mục nhập tuổi hợp lệ phải nằm trong khoảng từ 0 đến 120 tuổi, các quy tắc và kiểm tra xác thực sẽ được áp dụng để đảm bảo dữ liệu đáp ứng tiêu chí này. Điều này ngăn chặn các giá trị ngoại lệ và các mục nhập sai lệch làm sai lệch kết quả.

Cách làm sạch dữ liệu trong Excel

Làm sạch dữ liệu trong Excel có nghĩa là tinh chỉnh dữ liệu thô. Không giống như xác thực dữ liệu (data validation), là một tính năng cụ thể trong thanh công cụ của Excel, làm sạch dữ liệu là một thuật ngữ chung hơn bao gồm một loạt các công cụ và kỹ thuật rộng lớn hơn. Trong phần sau, chúng ta sẽ đề cập đến từng ý tưởng sau:
  • Làm sạch cơ bản: Giải quyết các vấn đề phổ biến như khoảng trắng thừa, ô trống và lỗi chính tả để đảm bảo một bộ dữ liệu sạch và nhất quán.
  • Xử lý lỗi và xác thực: Tập trung vào việc xác định và sửa lỗi, đồng thời đảm bảo dữ liệu duy trì tính toàn vẹn bằng cách loại bỏ các bản ghi trùng lặp.
  • Thao tác với văn bản: Thao tác và định dạng dữ liệu văn bản để đảm bảo nó đáp ứng yêu cầu của bạn, bao gồm việc nối chuỗi và thay đổi kiểu chữ.
  • Chuyển đổi dữ liệu: Sử dụng các kỹ thuật để sắp xếp lại và định hình lại dữ liệu của bạn để phân tích tốt hơn, bao gồm phân tách văn bản và sử dụng các công cụ như Flash Fill.
  • Sửa lỗi số và ngày tháng: Sửa và chuẩn hóa dữ liệu số và ngày tháng để đảm bảo chúng chính xác và được định dạng nhất quán.
  • Quản lý dữ liệu nâng cao: Bao gồm việc đối chiếu và kết hợp các bộ dữ liệu để tạo ra một bộ dữ liệu toàn diện và gắn kết cho việc phân tích.

Làm sạch dữ liệu cơ bản trong Excel

Hãy xem xét việc làm sạch cơ bản, bao gồm việc giải quyết các vấn đề phổ biến như loại bỏ khoảng trắng thừa.

Loại bỏ khoảng trắng thừa

Các khoảng trắng ở cuối có thể gây phiền nhiễu hoặc có vấn đề vì chúng có thể dẫn đến sự không nhất quán trong phân tích dữ liệu và các vấn đề về định dạng.
Có hai cách chính để loại bỏ khoảng trắng thừa trong Excel. Hãy xem xét cả hai.
1. Sử dụng tính năng Tìm và Thay thế (Find and Replace)
  1. Chọn phạm vi ô mà bạn muốn loại bỏ khoảng trắng thừa.
  1. Sử dụng phím tắt Ctrl + H để mở hộp thoại Tìm và Thay thế.
  1. Trong ô Find what, nhấn phím cách hai lần để nhập hai khoảng trắng.
  1. Trong ô Replace with, nhấn phím cách một lần để nhập một khoảng trắng.
  1. Nhấp vào Replace All.
  1. Lặp lại quy trình cho đến khi không còn tìm thấy khoảng trắng kép nào.
notion image
2. Sử dụng hàm TRIM
  1. Tạo một cột mới cho dữ liệu đã được làm sạch.
  1. Nhập công thức =TRIM(ô_có_khoảng_trắng_thừa) vào ô đầu tiên của cột mới.
  1. Nhấp đúp vào góc dưới bên phải của ô để áp dụng công thức cho các hàng còn lại.
  1. Sao chép dữ liệu đã làm sạch và dán dưới dạng giá trị (paste as values) để loại bỏ công thức.

Chọn và xử lý tất cả các ô trống

Các ô trống có thể gây ra sự cố bằng cách làm hỏng công thức, dẫn đến lỗi trong tính toán và tạo ra kết quả phân tích không chính xác. Dưới đây là cách xử lý vấn đề này.
  1. Bôi đen phạm vi ô mà bạn muốn tìm và xử lý các ô trống.
  1. Nhấn Ctrl + G để mở hộp thoại Go To.
  1. Nhấp vào nút “Special…”. Thao tác này sẽ mở hộp thoại Go To Special.
  1. Chọn tùy chọn Blanks và nhấp OK. Bây giờ, bạn sẽ thấy tất cả các ô trống trong phạm vi đã chọn được chọn.
  1. Bây giờ bạn có thể nhập một giá trị hoặc công thức. Nhấn Ctrl + Enter.
notion image

Kiểm tra chính tả (Spell checking)

Các từ bị viết sai chính tả có thể làm cho dữ liệu trông thiếu chuyên nghiệp và khó hiểu, vì vậy việc sửa chúng là rất quan trọng.
  1. Kiểm tra toàn bộ trang tính hoặc một phạm vi cụ thể.
  1. Chuyển đến tab Review trên thanh Ribbon.
  1. Nhấp vào nút Spelling trong nhóm Proofing.
  1. Hộp thoại Spelling sẽ mở ra, hiển thị từ sai chính tả đầu tiên được phát hiện và các đề xuất sửa lỗi.
  1. Xem xét và sửa các từ sai chính tả khi cần thiết.
notion image

Xử lý lỗi và xác thực trong Excel

Hãy xem xét việc xử lý lỗi, bao gồm việc giải quyết các vấn đề phổ biến như tô sáng các lỗi hoặc loại bỏ các bản ghi trùng lặp.

Tô sáng lỗi

Lỗi trong dữ liệu của bạn có thể dẫn đến kết quả không chính xác và quyết định kém, vì vậy việc xác định và giải quyết chúng là rất quan trọng.
  1. Chọn phạm vi ô bạn muốn kiểm tra lỗi.
  1. Chuyển đến tab Home trên thanh Ribbon.
  1. Trong nhóm Styles, nhấp vào Conditional Formatting.
  1. Chọn New Rule từ menu thả xuống.
  1. Chọn Use a formula to determine which cells to format.
  1. Nhập công thức =ISERROR(ô) vào trường Format values where this formula is true.
  1. Nhấp vào nút Format… để chọn các tùy chọn định dạng mong muốn của bạn.
  1. Nhấp OK sau khi chọn các tùy chọn định dạng của bạn.
  1. Nhấp OK một lần nữa trong hộp thoại New Formatting Rule để áp dụng quy tắc.
notion image

Xóa dữ liệu trùng lặp (Remove duplicates)

Các mục nhập trùng lặp có thể làm sai lệch phân tích và thông tin chi tiết, vì vậy việc loại bỏ chúng đảm bảo tính chính xác của dữ liệu.
  1. Chọn trang tính hoặc phạm vi ô mà bạn muốn xóa dữ liệu trùng lặp.
  1. Chuyển đến tab Data trên thanh Ribbon.
  1. Nhấp vào Remove Duplicates trong nhóm Data Tools.
  1. Trong hộp thoại Remove Duplicates, chỉ định cột nào cần kiểm tra dữ liệu trùng lặp.
  1. Nhấp OK. Excel sẽ hiển thị một thông báo cho biết số lượng giá trị trùng lặp đã được xóa.

Xóa các hàng trùng lặp

Các hàng trùng lặp có thể làm lộn xộn dữ liệu của bạn và ảnh hưởng đến độ tin cậy của phân tích. Dưới đây là cách quản lý điều này.
  1. Chọn phạm vi mà bạn muốn xóa các hàng trùng lặp.
  1. Chuyển đến tab Data trên thanh Ribbon và nhấp vào Advanced trong nhóm Sort & Filter.
  1. Trong hộp thoại Advanced Filter, chọn Copy to another location.
  1. Đặt List range thành phạm vi đã chọn của bạn.
  1. Đặt trường Copy to thành ô mà bạn muốn sao chép các hàng duy nhất đến.
  1. Đánh dấu vào ô Unique records only rồi nhấp OK.

Các thao tác với văn bản trong Excel

Hãy xem xét các thao tác với văn bản như nối chuỗi.

Nối chuỗi (Concatenate)

Kết hợp nhiều chuỗi văn bản vào một ô có thể giúp tạo ra dữ liệu có ý nghĩa và được tổ chức tốt hơn bằng cách hợp nhất thông tin từ các nguồn khác nhau thành một định dạng duy nhất, gắn kết.
  1. Chọn ô mà bạn muốn kết quả nối chuỗi xuất hiện.
  1. Nhập =CONCATENATE().
  1. Chọn các ô bạn muốn nối, được phân tách bằng dấu phẩy hoặc toán tử &.
  1. Nhấn Enter để xem kết quả.
notion image

Thay đổi kiểu chữ của văn bản

Việc thống nhất kiểu chữ của văn bản có thể cải thiện khả năng đọc và duy trì tính nhất quán trong dữ liệu của bạn.
  1. Tạo một cột mới cho văn bản đã được chuyển đổi.
  1. Nhập công thức vào một ô: =UPPER() (IN HOA), =LOWER() (in thường) hoặc =PROPER() (Viết Hoa Chữ Cái Đầu).
  1. Nhấn Enter để áp dụng công thức.
  1. Kéo tay cầm điền (fill handle) để áp dụng công thức cho các ô khác nếu cần.
notion image

Loại bỏ các ký tự không in được khỏi văn bản

Các ký tự không in được như tab, ngắt dòng và các ký tự đặc biệt có thể gây ra sự cố bằng cách làm gián đoạn quá trình xử lý dữ liệu, gây khó khăn cho việc phân tích hoặc trực quan hóa dữ liệu một cách chính xác.
  1. Xác định các ký tự không in được bạn cần loại bỏ.
  1. Chọn ô chứa văn bản có ký tự không in được.
  1. Trong một ô mới, sử dụng hàm sau: =CLEAN(văn_bản).
  1. Để loại bỏ khoảng trắng thừa và các ký tự không in được, hãy sử dụng: =TRIM(CLEAN(văn_bản)).
  1. Sao chép và dán văn bản đã làm sạch để thay thế bản gốc.
notion image

Chuyển đổi dữ liệu trong Excel

Các kỹ thuật chuyển đổi dữ liệu được sử dụng để sắp xếp lại và định hình lại dữ liệu của bạn để phân tích tốt hơn, bao gồm phân tách văn bản và sử dụng các công cụ như Flash Fill.

Phân tách dữ liệu từ văn bản sang cột (Text to Columns)

Tách dữ liệu văn bản thành các cột riêng lẻ giúp dễ dàng phân tích các thành phần cụ thể và đảm bảo rằng mỗi mẩu thông tin được phân loại riêng biệt. Đây là thao tác ngược lại với việc nối chuỗi và hữu ích để chia nhỏ dữ liệu phức tạp thành các phần có thể quản lý được.
  1. Chọn dữ liệu bạn muốn tách.
  1. Chuyển đến tab Data và nhấp vào Text to Columns.
  1. Chọn Delimited (phân tách bởi ký tự) hoặc Fixed width (chiều rộng cố định) và nhấp Next.
  1. Đối với Delimited, chọn các ký tự phân tách mà dữ liệu của bạn sử dụng và nhấp Next.
  1. Đối với Fixed width, đặt các điểm ngắt cột trong cửa sổ Data Preview và nhấp Next.
  1. Chọn định dạng dữ liệu cho mỗi cột.
  1. Nhấp Finish.
notion image

Flash Fill (Điền nhanh)

Flash Fill tự động điền các giá trị dựa trên các mẫu mà nó phát hiện trong dữ liệu của bạn.
  1. Nhập dữ liệu theo một mẫu vào một ô bên cạnh dữ liệu hiện có của bạn.
  1. Cung cấp một ví dụ khác trong ô tiếp theo để giúp Excel phát hiện mẫu.
  1. Chọn ô có ví dụ.
  1. Chuyển đến tab Data trên thanh Ribbon.
  1. Nhấp vào Flash Fill trong nhóm Data Tools.
  1. Excel sẽ tự động điền các ô còn lại dựa trên mẫu đã phát hiện.

Gộp và tách cột

Việc gộp và tách cột giúp tổ chức dữ liệu theo cách phù hợp nhất với nhu cầu phân tích của bạn.
Để gộp ô:
  1. Chuyển đến tab Home, và nhấp vào menu thả xuống Merge & Center trong nhóm Alignment.
  1. Chọn tùy chọn gộp ưa thích của bạn.
Để tách cột:
  1. Chuyển đến tab Data và nhấp vào Text to Columns trong nhóm Data Tools.
  1. Chọn delimited hoặc fixed width dựa trên nhu cầu dữ liệu của bạn.
  1. Chọn nơi đến cho dữ liệu đã tách và nhấp Finish.

Chuyển đổi và sắp xếp lại các cột và hàng (Transpose)

Sắp xếp lại dữ liệu có thể giúp trình bày nó ở định dạng logic và dễ tiếp cận hơn.
Để chuyển đổi hàng thành cột và ngược lại:
  1. Bôi đen dữ liệu bạn muốn chuyển đổi (bao gồm cả tiêu đề nếu cần).
  1. Nhấp chuột phải vào vùng chọn và chọn Copy hoặc nhấn Ctrl+C.
  1. Chọn ô mà dữ liệu đã chuyển đổi sẽ bắt đầu.
  1. Nhấp chuột phải vào ô đích, chọn Paste Special và sau đó chọn Transpose.
Để sắp xếp lại các cột/hàng:
  1. Nhấp vào tiêu đề cột để chọn toàn bộ cột bạn muốn di chuyển.
  1. Nhấp chuột phải và chọn Cut hoặc nhấn Ctrl+X.
  1. Chọn cột nơi bạn muốn di chuyển cột đã cắt đến, nhấp chuột phải vào tiêu đề cột và chọn Insert Cut Cells.
  1. Tương tự đối với hàng, chọn và cắt hàng bạn muốn chuyển đến một hàng khác và dán nó vào đó.

Sửa lỗi số và ngày tháng trong Excel

Việc này bao gồm việc sửa và chuẩn hóa dữ liệu số và ngày tháng để đảm bảo chúng chính xác và được định dạng nhất quán.

Sửa số và định dạng số

Các định dạng số không chính xác có thể gây ra sự cố bằng cách dẫn đến hiểu sai và lỗi tính toán, cũng như các vấn đề về sắp xếp và so sánh dữ liệu.
  1. Chọn các ô chứa các số bạn cần sửa.
  1. Chuyển đến tab Home, nhấp vào menu thả xuống Number trong nhóm Number và chọn định dạng số thích hợp (ví dụ: General, Number, Currency).

Sửa ngày tháng và thời gian

Ngày tháng được định dạng đúng là rất quan trọng cho việc phân tích và báo cáo dựa trên thời gian chính xác.
  1. Bôi đen các ô chứa ngày tháng.
  1. Chuyển đến tab Home.
  1. Nhấp vào menu thả xuống Number Format và chọn Short Date hoặc Long Date.

Quản lý dữ liệu nâng cao trong Excel

Quản lý dữ liệu nâng cao bao gồm việc đối chiếu và kết hợp các bộ dữ liệu để tạo ra một bộ dữ liệu toàn diện và gắn kết cho việc phân tích.

Đối chiếu dữ liệu bảng bằng cách nối hoặc khớp (Joining or Matching)

Việc nối hoặc khớp dữ liệu từ các bảng khác nhau đảm bảo phân tích toàn diện và gắn kết.
Sử dụng VLOOKUP để khớp dữ liệu:
  1. Đảm bảo cả hai bảng đều có thể truy cập trên cùng một trang tính.
  1. Chọn ô mà bạn muốn hiển thị dữ liệu đã khớp.
  1. Sử dụng hàm sau: =VLOOKUP(giá_trị_tìm_kiếm, vùng_bảng, số_thứ_tự_cột, FALSE)
  1. Kéo tay cầm điền để sao chép công thức cho các ô khác khi cần.
Sử dụng INDEX và MATCH để linh hoạt hơn:
  1. Chọn ô mà bạn muốn hiển thị dữ liệu đã khớp.
  1. Sử dụng sự kết hợp của các hàm này: =INDEX(vùng_kết_quả, MATCH(giá_trị_tìm_kiếm, vùng_tìm_kiếm, 0))
  1. Kéo tay cầm điền để sao chép công thức cho các ô khác khi cần.

Lời kết

Có nhiều chức năng làm sạch dữ liệu trong Excel cho phép bạn làm sạch và xác thực dữ liệu để đáp ứng các tiêu chuẩn đã đặt ra. Những chức năng này có thể giúp bạn giảm thiểu sai sót và cải thiện chất lượng của bộ dữ liệu.
Cho dù bạn đang sàng lọc dữ liệu để loại bỏ các trường trùng lặp hay chuẩn hóa định dạng của các mục nhập dữ liệu, Excel đều có tất cả các công cụ bạn cần để làm cho quá trình này dễ dàng hơn.