Website toàn cầu đột ngột tăng lưu lượng từ Trung Quốc - do đâu?
Từ tháng 9/2024, hàng nghìn chủ website trên toàn cầu phát hiện Google Analytics hiển thị lưu lượng truy cập từ Trung Quốc tăng vọt, nhiều trang ghi nhận từ 50.000 đến 75.000 lượt mỗi ngày. Chuyên gia xác định phần lớn là bot tự động từ thành phố Lan Châu và Singapore, gửi tín hiệu giả mạo đến hệ thống theo dõi mà không thực sự tải trang web.
Một chủ website nhỏ chuyên phục vụ thị trường Ấn Độ mở Google Analytics và thấy điều kỳ lạ. Trang web thường có khoảng 10-20 khách Ấn Độ trong 30 phút. Nhưng dữ liệu hiển thị 20 người dùng từ Trung Quốc chỉ trong 12 giờ, vượt xa lượng khách hàng mục tiêu. Người này lập tức kích hoạt tường lửa Cloudflare để chặn IP Trung Quốc. Thế nhưng con số trên Google Analytics vẫn tăng như thường, trong khi log server không ghi nhận dấu vết nào.
Đây không phải trường hợp riêng lẻ mà là một làn sóng đang diễn ra trên quy mô toàn cầu. Người dùng trên diễn đàn Reddit báo cáo trang web của họ nhận từ 50.000 đến 75.000 lượt truy cập mỗi ngày từ Trung Quốc, tất cả đều dùng Chrome phiên bản 139. Một trang khác ghi nhận 16.000 lượt mỗi ngày. Thậm chí có người nhận hơn 100.000 lượt mỗi tháng từ Trung Quốc, Singapore và nhiều quốc gia khác.
Con số ấn tượng đến mức nhiều chủ website nghĩ mình đã trở nên nổi tiếng ở Trung Quốc. Nhưng khi kiểm tra chuyển đổi, tất cả đều bằng không. Không có đơn hàng, không có form đăng ký, không có tương tác. Chỉ là những con số khô trên bảng thống kê.
![]() |
| Google Analytics ghi nhận 29 người dùng hoạt động trong 30 phút. Trong đó 19 người gắn nhãn địa lý Trung Quốc, chủ yếu từ thành phố Lan Châu. Phân tích kỹ hơn phơi bày hành vi bất thường. Tỷ lệ thoát sát 100%. Thời gian ở lại chỉ 0-2 giây. Tất cả đều truy cập homepage rồi biến mất ngay lập tức. Ảnh: chụp màn hình |
Dấu vết kỹ thuật phơi bày bot
Các chuyên gia bảo mật web từ công ty Blink Web khẳng định đây là đặc trưng của bot tự động. Khác với người dùng thật thường lướt nhiều trang, dừng lại đọc nội dung, bot chỉ gửi một request HTTP rồi ngắt kết nối ngay. Mục đích không phải đọc nội dung mà là thu thập cấu trúc trang hoặc đơn giản là làm nhiễu dữ liệu phân tích.
Phân tích header của các request này tiết lộ thêm chi tiết. Chuỗi mã "zh-CN,zh;q=0.9,en;q=0.8,*;q=0.1" xuất hiện đồng loạt trong trường accept-language. Đây là cách bot cấu hình sẵn để giả mạo người dùng Trung Quốc. Tra ngược địa chỉ IP cho thấy nhiều địa chỉ thuộc về Tencent, các đơn vị ASN của Huawei Cloud và một số nhà cung cấp dịch vụ tại Indonesia có chất lượng thấp.
Điều đáng chú ý là ngay cả khi chặn ở tầng mạng bằng Cloudflare, Google Analytics vẫn tiếp tục ghi nhận lưu lượng. Một người dùng chia sẻ họ thấy số liệu trên Cloudflare Analytics giảm rõ rệt sau khi chặn, nhưng Google Analytics không thay đổi. Điều này chứng tỏ bot đang sử dụng kỹ thuật gửi tín hiệu trực tiếp đến endpoint của GA4 mà bỏ qua hoàn toàn server website. Trong giới bảo mật, đây được gọi là "lưu lượng ma" - traffic tồn tại trên hệ thống theo dõi nhưng không có thực trên server.
Lan Châu - trung tâm bot của phương Bắc
Lưu lượng truy cập tăng đột biến từ Lan Châu xuất hiện thường xuyên không phải ngẫu nhiên. Thành phố này nằm ở phía Tây Bắc Trung Quốc, nơi tập trung nhiều trung tâm dữ liệu với chi phí băng thông thấp hơn các thành phố ven biển. Giá thuê máy chủ rẻ khiến đây trở thành địa điểm lý tưởng để vận hành botnet, crawler hay các hệ thống thu thập dữ liệu quy mô lớn.
Google Analytics xác định vị trí địa lý dựa trên cơ sở dữ liệu MaxMind, một hệ thống ánh xạ IP sang tọa độ địa lý. Khi nhiều IP từ các data center ở tỉnh Cam Túc truy cập website, hệ thống tự động gắn nhãn "Lanzhou" cho những traffic này. Điều này giải thích tại sao hàng nghìn website khắp nơi cùng lúc thấy Lan Châu xuất hiện trong top thành phố có lượng truy cập cao nhất, dù trước đó họ gần như không có khách từ Trung Quốc.
Singapore xuất hiện cùng Lan Châu vì lý do tương tự. Quốc đảo này là trung tâm dữ liệu lớn nhất Đông Nam Á, nơi hầu hết các công ty công nghệ quốc tế đặt server để phục vụ khu vực châu Á. Giới công nghệ cho rằng, một số hệ thống bot có thể sử dụng server Singapore làm node trung gian để phân tán nguồn traffic, tránh bị phát hiện khi tất cả đều đến từ một quốc gia. Cách làm này còn giúp vượt qua các biện pháp chặn cơ bản chỉ dựa vào quốc gia nguồn.
![]() |
| Người dùng nhận định lưu lượng tăng đột biến là lưu lượng truy cập ma. Ảnh: chụp màn hình |
Mục đích thực sự vẫn còn là ẩn số
Trong cộng đồng bảo mật, một giả thuyết được đặt ra là các bot này đang thu thập dữ liệu để huấn luyện mô hình ngôn ngữ lớn. Các hệ thống AI cần lượng văn bản khổng lồ từ internet. Thay vì chỉ crawl nội dung đơn thuần, một số bot còn cố gắng mô phỏng hành vi người dùng thật để vượt qua các biện pháp chống bot. Tuy nhiên, không có công ty công nghệ lớn nào xác nhận chính thức về giả thuyết này.
OpenAI, Google DeepMind, Anthropic đều công bố danh sách bot chính thức của họ và cung cấp cách chặn trong file robots.txt. Các bot trong vụ việc này không nằm trong danh sách đó. Điều này có thể do các công ty nhỏ hơn hoặc các tổ chức không công khai đang vận hành, hoặc đơn giản là các bot thương mại thu thập dữ liệu để bán.
Một khả năng khác là scraping thương mại. Nhiều doanh nghiệp chuyên thu thập dữ liệu giá cả, sản phẩm, nội dung rồi bán cho đối thủ cạnh tranh hoặc xây dựng cơ sở dữ liệu riêng. Bot gửi tín hiệu giả đến Google Analytics có thể là cách đánh lạc hướng, khiến chủ website tưởng chỉ là traffic bình thường trong khi bot thật đang hoạt động ngầm ở tầng khác.
Một người dùng chia sẻ website của họ dành hoàn toàn cho thị trường Việt Nam nhưng Trung Quốc đột nhiên đứng đầu bảng xếp hạng nguồn traffic. Khi kiểm tra conversion, không có một giao dịch nào. Khi xem chi tiết hành vi, tất cả đều vào homepage rồi thoát. Hành vi này phù hợp với bot test - loại bot dò quét website để tìm lỗ hổng bảo mật hoặc thu thập cấu trúc trang.
Theo Cục An toàn Thông tin (Bộ Thông tin và Truyền thông), trong số 9 lỗ hổng bảo mật ảnh hưởng mức độ cao và ... |
Google thừa nhận nhưng chưa có giải pháp triệt để
Gần đây Google chính thức thừa nhận vấn đề trong tài liệu hỗ trợ dành cho Google Analytics 4. Công ty xác nhận đã phát hiện bot traffic bất thường vượt qua các bộ lọc mặc định và đang thử nghiệm giải pháp ở phía nền tảng. Các chuyên gia từ công ty phân tích Definite SEO khẳng định vấn đề bắt đầu rõ rệt từ giữa tháng 9/2025, rồi lan rộng sang năm 2026
Việc sửa chữa không hề đơn giản. Google Analytics hoạt động bằng cách nhận tín hiệu từ đoạn mã JavaScript nhúng trong website. Về mặt kỹ thuật, bất kỳ ai cũng có thể gửi request HTTP đến endpoint của GA4 với dữ liệu giả mạo. Hệ thống khó phân biệt đâu là tín hiệu từ người dùng thật, đâu là tín hiệu từ bot nếu bot mô phỏng đủ tốt các tham số như user agent, màn hình, múi giờ.
Một trong người dùng thử nghiệm chặn bằng tường lửa trên nền tảng Netlify. Sau khi thiết lập chặn IP từ Trung Quốc và Singapore, họ thấy cải thiện trong dữ liệu Google Analytics. Tuy nhiên, sau hai tuần bot đổi chiến thuật, sử dụng IP từ các khu vực khác. Cuộc chạy đua vũ trang giữa bot và biện pháp phòng thủ tiếp diễn không ngừng.
Một vấn đề khác phát sinh khi người dùng cố gắng chặn. Nếu chặn hoàn toàn một quốc gia, có thể ảnh hưởng đến khách hàng thật đang du lịch hoặc sử dụng VPN. Một người dùng đặt câu hỏi tại sao lại phải chặn Singapore khi đó là trung tâm kinh tế của khu vực với nhiều khách hàng tiềm năng. Các chuyên gia gợi ý, giải pháp tối ưu không phải chặn theo quốc gia mà phải phân tích hành vi. Chặn các IP có tỷ lệ thoát 100%, thời gian phiên dưới 3 giây, không tương tác - đây mới là dấu hiệu của bot.
![]() |
| Người dùng Alert-Bandicoot4364 trên Reddit chia sẻ trang web của họ ghi nhận từ 50.000 đến 75.000 lượt truy cập mỗi ngày từ Trung Quốc. Ảnh: chụp màn hình |
Giải pháp đa tầng bảo vệ
Các chuyên gia bảo mật khuyến nghị chủ website không nên dựa hoàn toàn vào một nguồn dữ liệu duy nhất. Phương pháp hiệu quả nhất là đối chiếu chéo giữa Google Analytics, log server và conversion thực tế. Nếu traffic tăng nhưng doanh số không đổi, đó là tín hiệu cần kiểm tra.
Tạo segment riêng trong Google Analytics 4 để lọc traffic giả là bước đầu tiên. Có thể thiết lập bộ lọc loại bỏ các session có bounce rate trên 95%, thời gian dưới 3 giây, không có sự kiện tương tác. Điều này giúp làm sạch dữ liệu mà không cần chặn hoàn toàn một quốc gia.
Ở tầng mạng, Cloudflare cung cấp tính năng "Bot Fight Mode" miễn phí có thể phát hiện và chặn nhiều loại bot phổ biến. Gói trả phí có "Super Bot Fight Mode" với khả năng phân tích hành vi phức tạp hơn. Tuy nhiên cần lưu ý việc chặn có thể ảnh hưởng đến một số người dùng thật, nên cần điều chỉnh ngưỡng cẩn thận.
Thiết lập rate limiting cho các endpoint quan trọng cũng hiệu quả. Nếu một IP truy cập quá nhiều trang trong thời gian ngắn, tự động yêu cầu xác minh CAPTCHA hoặc chặn tạm thời. Phương pháp này cản trở crawler nhưng không ảnh hưởng nhiều đến người dùng bình thường.
Kiểm tra file robots.txt và khai báo rõ ràng phần nào được phép crawl. Mặc dù bot xấu thường bỏ qua robots.txt, việc khai báo giúp các bot hợp pháp biết ranh giới. Kết hợp với việc monitor log server thường xuyên để phát hiện pattern bất thường như cùng một user agent xuất hiện hàng nghìn lần trong một giờ.
Sự cố AWS ngày 20/10/2025 do lỗi cập nhật hệ thống giám sát Network Load Balancer, ảnh hưởng DNS và DynamoDB, gây gián đoạn 113 ... |
Bài học về tin cậy dữ liệu
Hiện tượng này đánh dấu một bước ngoặt trong cách nhìn nhận về dữ liệu web. Trong nhiều năm, các chủ website tin tưởng vào Google Analytics như một nguồn chân lý. Số liệu trên đó được dùng để đánh giá hiệu quả, quyết định ngân sách và định hướng phát triển. Giờ đây, sự tin tưởng đó bị lung lay.
Theo một nghiên cứu năm 2023, bot chiếm tới 47% lưu lượng trên web toàn cầu, trong đó bot xấu chiếm 30%. Thực tế, con số này có thể đã tăng trong năm 2024-2025 khi AI phát triển mạnh và nhu cầu thu thập dữ liệu để huấn luyện mô hình tăng cao. Các bot ngày càng tinh vi, mô phỏng hành vi người dùng tốt hơn, khiến việc phát hiện trở nên khó khăn.
Với chủ website nhỏ, việc đối phó đòi hỏi kiến thức kỹ thuật và thời gian mà họ không có. Đây là lúc các nền tảng lớn như Google cần có trách nhiệm hơn. Người dùng tin tưởng vào Google Analytics, và Google cần đảm bảo dữ liệu phản ánh đúng thực tế thay vì để chủ website tự mò mẫm tìm cách lọc bot.
Một người dùng đặt câu hỏi: "Trời má ơi, tao thực sự có lượt xem từ Trung Quốc, Hồng Kông, và Singapore. Tao thấy khá là ngầu khi có lượng truy cập nước ngoài nhưng tất cả là bot???? Làm sao tao có thể chặn chúng?" Câu hỏi này phản ánh tâm trạng chung của nhiều chủ website nhỏ - từ sự phấn khích ban đầu khi thấy traffic tăng, đến hoang mang khi phát hiện đó chỉ là ảo ảnh.
Thế giới web đang thay đổi. Ranh giới giữa người dùng thật và bot ngày càng mờ nhạt. Để tồn tại trong môi trường này, chủ website cần có tư duy phản biện với mọi con số, luôn đối chiếu nhiều nguồn dữ liệu và đầu tư vào kiến thức bảo mật. Con số cao chưa chắc là tin tốt. Đôi khi nó chỉ là dấu hiệu của một cuộc tấn công âm thầm đang diễn ra.
Phạm Anh


