Cách thu thập thông tin một trang web lớn và trích xuất dữ liệu bằng cách sử dụng con nhện SEO của Screaming Frog

Screaming Frog SEO Spider
Thời gian đọc: 3 phút

Chúng tôi hiện đang hỗ trợ một số khách hàng với Di chuyển thị trường. Khi các công ty lớn sử dụng các giải pháp doanh nghiệp như thế này, nó giống như một mạng nhện tự đan vào các quy trình và nền tảng trong nhiều năm ... cho đến mức các công ty thậm chí không nhận thức được mọi điểm tiếp xúc.

Với một nền tảng tự động hóa tiếp thị doanh nghiệp như Marketo, biểu mẫu là điểm nhập dữ liệu trên khắp các trang web và trang đích. Các công ty thường có hàng nghìn trang và hàng trăm biểu mẫu trên khắp các trang web của họ cần được xác định để cập nhật.

Một công cụ tuyệt vời cho việc này là Screaming Frog's SEO Spider… Có lẽ là nền tảng phổ biến nhất trên thị trường để thu thập thông tin, kiểm tra và trích xuất dữ liệu từ một trang web. Nền tảng này có nhiều tính năng và cung cấp hàng trăm tùy chọn cho hầu như mọi tác vụ bạn yêu cầu.

Screaming Frog SEO Spider: Thu thập thông tin và Trích xuất

Một tính năng chính của Screaming Frog SEO Spider là bạn có thể thực hiện các phép chiết xuất tùy chỉnh dựa trên Regex, XPath, hoặc là CSSPath chi tiết cụ thể. Điều này cực kỳ hữu ích khi chúng tôi muốn thu thập dữ liệu các trang web của khách hàng và kiểm tra và nắm bắt các giá trị MunchkinID và FormId từ các trang.

Với công cụ này, hãy mở Cấu hình> Tùy chỉnh> Trích xuất để xác định các phần tử bạn muốn trích xuất.

chiết xuất tùy chỉnh la hét

Màn hình trích xuất cho phép thu thập dữ liệu hầu như không giới hạn:

Quy tắc trích xuất Screaming Frog SEO Spider

Trích xuất Regex, XPath và CSSPath

Đối với MunchkinID, số nhận dạng nằm trong tập lệnh biểu mẫu bên trong trang:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

Sau đó, chúng tôi áp dụng một Quy tắc Regex để nắm bắt id từ trong thẻ script được chèn vào trang:

Regex: ["']id["']: *["'](.*?)["']

Đối với ID biểu mẫu, dữ liệu nằm trong thẻ đầu vào trong biểu mẫu Marketo:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

Chúng tôi áp dụng một Quy tắc XPath để nắm bắt id từ bên trong biểu mẫu được chèn vào trang. Truy vấn XPath tìm kiếm một biểu mẫu có đầu vào có tên là hình thức, sau đó trích xuất lưu giá trị:

XPath: //form/input[@name="formid"]/@value

Screaming Frog SEO Spider Hiển thị Javascript

Một tùy chọn tuyệt vời khác của Screaming Frog là bạn không bị giới hạn ở HTML trong trang, bạn có thể hiển thị bất kỳ JavaScript nào sẽ chèn các biểu mẫu trong trang web của bạn. Trong vòng Cấu hình> Spider, bạn có thể chuyển đến tab Kết xuất và bật tính năng này.

Screaming Frog SEO Spider Hiển thị Javascript

Tất nhiên, quá trình này sẽ mất nhiều thời gian hơn để thu thập dữ liệu trang web, nhưng bạn sẽ nhận được các biểu mẫu được hiển thị phía máy khách bằng JavaScript cũng như các biểu mẫu được chèn phía máy chủ.

Mặc dù đây là một ứng dụng rất cụ thể, nhưng nó là một ứng dụng cực kỳ hữu ích khi bạn đang làm việc với các trang web lớn. Bạn sẽ hoàn toàn muốn kiểm tra xem các biểu mẫu của mình được nhúng vào đâu trên toàn bộ trang web.

Tải xuống Screaming Frog SEO Spider

Bạn nghĩ gì?

Trang web này sử dụng Akismet để giảm spam. Tìm hiểu cách xử lý dữ liệu nhận xét của bạn.