راهنمای Semalt در مورد افزودنی Scraper برای Chrome

برای اینکه هر شغلی بتواند زنده بماند و در نهایت رشد کند ، لازم است تا از رقبای خود و خطرات مختلف بماند. تصمیم گیری بر اساس داده های تحلیلی روشی مطمئن برای فراموش کردن این مشکلات است. چنین داده هایی را می توان از طریق خراش داده ها بدست آورد. اینجاست که پسوند آسان scraper برای Chrome وارد می شود: این کار نه تنها فرآیند برداشت داده را تسهیل می کند بلکه باعث می شود بدون تنظیمات پیچیده ، حرکت را در ادامه انجام دهید.

نحوه استفاده از Scraper

    1. اولین کاری که باید انجام دهید نصب این افزونه است ، بنابراین به فروشگاه وب Chrome بروید ، "scraper" را جستجو کرده و روی افزودن به Chrome کلیک کنید.

    2. به وب سایتی بروید که قصد دارید داده ها را از بین ببرید ، با برجسته کردن آن ، ورودی مورد نظر خود را علامت گذاری کنید. بر روی آن راست کلیک کرده و "scrape similar" را در منوی ظاهر شده انتخاب کنید.

    3. با این کار یک پنجره کنسول scraper جداگانه راه اندازی می شود. در اینجا لیستی از داده های خراشیده شده را مشاهده خواهید کرد .

    4- برای ذخیره محتوا ، روی "ذخیره به Google Docs" کلیک کنید ، این کار به طور خودکار داده ها را به صفحه گسترده Google صادر می کند.

ضایعات تمدید شده

در صورتی که قصد دارید داده های بیشتری را ضبط کنید ، می توانید از رویکرد پیشرفته استفاده کنید. توجه داشته باشید ، اگر دانش کمی در مورد HTML داشته باشید ، کار با این ابزار بسیار ساده تر خواهد بود. فرض کنید می خواستید داده ها را از منبعی که دارای بایگانی است بر اساس داده های سری زمانی تهیه کنید. در چنین شرایطی ، اگر روشی را که در بالا توضیح داده شد ، امتحان کنید ، داده های زباله را بدست می آورید.

برای حل این مشکل ، می توانید از یک زبان جستجوی HTML و XML استفاده کنید که به XPath معروف است. چه کار میکند؟ XPath داده های مربوط به عناصر مختلف موجود در هر انتخاب را تشخیص می دهد. در زیر راهنمایی در مورد چگونگی انجام این کار آمده است:

1. به کنسول Scraper بروید ، در سمت چپ بالا شما باید یک دکمه "XPath" را متوجه شوید ، روی آن کلیک کنید و برای جمع آوری جدول اولیه اقدام کنید.

2. شما باید XPath را برای عنصر مناسب بنویسید. XPath فعلی که کل اطلاعات را شامل می شود ، با فرمی مانند "// div [3] / div [3] / div [2] / div" نمایش داده می شود. عناصر <div> توسط رایانه در سند HTML شناخته می شوند.

3. برای جدا کردن داده های شناخته شده ، باید از ستون های Scraper استفاده کنید. برای انجام این کار ، شما باید انواع مختلفی از اطلاعات موجود را جستجو کنید. بسته به اطلاعاتی که شما درحال ضبط کردن هستید ، ممکن است عناوین داشته باشید. این عناوین در کنار هر مجموعه داده وجود دارد. آنها با یک برچسب همراه هستند ، در این حالت ، یک برچسب <b>.

4. با استفاده از عنصر بازرسی ، برچسب <b> را به XPath خود بیابید و اضافه کنید. اکنون می توانید این ستون اول را با عنوان "ستون عنوان" عنوان کنید زیرا عناوین را در پایین لیست می کند. برای ساختن XPath های مختلف برای هر ستون مورد نیاز خود اقدام کنید.

5- بر روی ضایعات کلیک کنید و پسوند به طور خودکار داده ها را جمع می کند و آن را در ستون های مختلفی که تنظیم کرده اید سازماندهی می کند.