Semalt Expert သည် ၀ က်ဘ်အား Javascript ဖြင့်ဖျက်ရန်လမ်းညွှန်တစ်ခုပေးသည်

မည်သည့်စီးပွားရေးလုပ်ငန်းတွင်မဆိုဆုံးဖြတ်ချက်ချခြင်းလုပ်ငန်းတွင်အသုံးပြုသောဝက်ဘ်ဖျက်ခြင်းသည်အလွန်အရေးကြီးသောအချက်အလက်များ၏ရင်းမြစ်တစ်ခုဖြစ်နိုင်သည်။ ထို့ကြောင့်၎င်းသည်ယုံကြည်စိတ်ချရသောအချက်အလက်များကိုစုဆောင်းရန်သေချာသည့်နည်းတစ်နည်းဖြစ်သောကြောင့်၎င်းသည်အချက်အလက်ခွဲခြမ်းစိတ်ဖြာခြင်း၏အဓိကအချက်ဖြစ်သည်။ ဖျက်သိမ်းနိုင်သည့်အွန်လိုင်းပါ ၀ င်မှုပမာဏသည်အမြဲတမ်းမြင့်တက်နေသဖြင့်စာမျက်နှာတစ်ခုချင်းစီကိုဖျက်သိမ်းရန်မဖြစ်နိုင်တော့ပေ။ ဤသည်အလိုအလျောက်လိုအပ်သည်။

ကွဲပြားခြားနားသော automated ခြစ်စီမံကိန်းများအတွက်အံဝင်ခွင်ကျကျဖြစ်ကြောင်း tools တွေအများကြီးရှိပါတယ်ထွက်နေစဉ်, သူတို့ထဲကအများစုဟာပရီမီယံဖြစ်ကြပြီးသင်ကံကြမ္မာကိုကုန်ကျမည်။ Puppeteer + Chrome + Node.JS ၀ င်လာသည်။ ဤသင်ခန်းစာသည်ဝက်ဘ်ဆိုက်များကိုလွယ်ကူစွာအလွယ်တကူခြစ်နိုင်အောင်ပြုလုပ်ပေးသောသင်ခန်းစာဖြစ်သည်။

ဒီ setup ကဘယ်လိုအလုပ်လုပ်လဲ။

ဤစီမံကိန်းတွင် JavaScript နှင့် ပတ်သက်၍ ဗဟုသုတအနည်းငယ်ရှိခြင်းသည်အသုံးဝင်လိမ့်မည်ကိုသတိပြုပါ။ စတင်သူများအတွက်၊ အထက်ပါအစီအစဉ် ၃ ခုကိုသင်သီးခြားယူရမည်။ Puppeteer သည်ခေါင်းစဉ်မဲ့ Chrome ကိုထိန်းချုပ်ရန်အသုံးပြုနိုင်သည့် Node Library ဖြစ်သည်။ Headless Chrome ဆိုသည်မှာ chrome ကို GUI မပါဘဲ run နိုင်ခြင်းကိုဆိုလိုသည်။ Node 8+ ကို၎င်း၏တရားဝင်ဝက်ဘ်ဆိုက်မှထည့်သွင်းရန်လိုအပ်သည်။

ပရိုဂရမ်များကိုတပ်ဆင်ပြီးပါကကုဒ်ဒီဇိုင်းကိုစတင်နိုင်ရန်စီမံကိန်းအသစ်တစ်ခုဖန်တီးရန်အချိန်ရောက်လာပြီဖြစ်သည်။ အကောင်းဆုံးကတော့၊ JavaScript ကိုခြစ်ခြင်းကြောင့်သင်ခြစ်ခြင်းလုပ်ငန်းစဉ်ကိုအလိုအလျောက်လုပ်ရန် code ကိုအသုံးပြုလိမ့်မည်။ Puppeteer အကြောင်းပိုမိုသိရှိလိုပါက၎င်း၏စာရွက်စာတမ်းများကိုကြည့်ပါ၊ သင်နှင့်အတူကစားရန်ဥပမာရာပေါင်းများစွာရှိသည်။

JavaScript ကိုဖျက်ခြင်းကိုဘယ်လိုအလိုအလျောက်လုပ်မလဲ

စီမံကိန်းအသစ်တစ်ခုကိုဖန်တီးသည့်အခါဖိုင် (.js) ကိုဆက်လက်ဖန်တီးပါ။ ပထမလိုင်းတွင်သင်အစောပိုင်းကထည့်သွင်းခဲ့သော Puppeteer မှီခိုမှုကိုသင်ခေါ်ရပါလိမ့်မည်။ ထို့နောက်၎င်းအားအလိုအလျောက်ကုဒ်အားလုံးသိမ်းဆည်းမည့်“ getPic ()” အဓိကလုပ်ဆောင်သည်။ တတိယစာကြောင်းသည်၎င်းကို run ရန် "getPic ()" function ကိုအသုံးပြုလိမ့်မည်။ getPic () function သည် "async" function တစ်ခုဖြစ်သဖြင့်လာမည့်ကုဒ်နံပါတ်သို့မသွားမီဖြေရှင်းရန် "ကတိ" ကိုစောင့်ဆိုင်းနေစဉ် function ကိုခေတ္တရပ်တန့်သွားမည့် await expression ကိုသုံးနိုင်သည်။ ဤသည်ကိုအဓိကအလိုအလျောက် function ကိုအဖြစ်အလုပ်လုပ်ပါလိမ့်မယ်။

Headless Chrome ကိုဘယ်လိုခေါ်ရမလဲ

နောက်ကုဒ်နံပါတ်မှာ "const browser = puppeteer.Launch ();" puppeteer ကိုအလိုအလျှောက်ဖွင့်ပြီး ၄ င်းကိုကျွန်ုပ်တို့အသစ်ဖန်တီးလိုက်တဲ့ "browser" variable သို့ချိန်ညှိပါ။ သင်ဖျက်လိုသော URL သို့သွားရန်အသုံးပြုမည့်စာမျက်နှာတစ်ခုကိုဆက်လက်ဖန်တီးပါ။

ဒေတာကိုဖျက်သိမ်းနည်း

Puppeteer API သည်သင့်အား ၀ က်ဘ်ဆိုက်၏သွင်းအားစုများဖြစ်သောနာရီ၊ ပုံစံဖြည့်ခြင်းနှင့်ဖတ်ရှုခြင်းစသည်တို့ဖြင့်ကစားရန်ခွင့်ပြုသည်။ ထိုလုပ်ငန်းစဉ်များကိုသင်အလိုအလျောက်မည်သို့လုပ်ဆောင်နိုင်ကြောင်းအနီးကပ်ရှုမြင်ရန်သင်ယင်းကိုရည်ညွှန်းနိုင်သည်။ ကျွန်ုပ်တို့၏ scraping ကုဒ်ကိုထည့်သွင်းရန် "scrape ()" function ကိုအသုံးပြုလိမ့်မည်။ အဆိုပါခြစ်ခြင်းလုပ်ငန်းစဉ်ကိုစတင်ရန် node ကို scrape.js function ကို run ဖို့ဆက်လက်ဆောင်ရွက်။ ထို့နောက် setup တစ်ခုလုံးသည်လိုအပ်သော content များကိုအလိုအလျောက်စတင်ထုတ်ပေးသင့်သည်။ သင်၏ code ကိုဖြတ်သန်းပြီးအမှားအယွင်းများမဖြစ်ပွားစေရန်ဒီဇိုင်းနှင့်အညီအလုပ်လုပ်သည်ကိုစစ်ဆေးရန်အရေးကြီးသည်။