Semalt: URLanna a bhaint as leathanaigh ghréasáin le anraith álainn

Is pacáiste Python ardleibhéil é Anraith álainn a úsáidtear chun doiciméid XML agus HTML a pharsáil. Cruthaíonn leabharlann Beautiful Soup Python crann tanaí a úsáidtear chun faisnéis úsáideach a bhaint as HyperText Markup Language (HTML). Tá an leabharlann seo ar fáil le haghaidh leaganacha Python 2 agus Python 3.

I bhformhór na gcásanna, aimsíonn tú nach féidir do spriocshonraí a rochtain agus a úsáid ach mar chuid de leathanach gréasáin. Ina leithéid de chás, ní mór duit teicníc scrapála gréasáin den sórt sin a úsáid a fhéadfaidh sonraí a bhaint sna formáidí ar féidir anailís a dhéanamh orthu. Seo an áit a dtagann leabharlann Beautiful Soup isteach.

Riachtanais

Teastaíonn na modúil cheart uait chun leabharlann Anraith Álainn a úsáid. Chun tús a chur leis, ní mór duit teanga cláir Python 2.7 a shuiteáil ar do mheaisín. Sa phost seo, foghlaimeoidh tú conas suíomh Gréasáin a scrabhadh agus gach URL a bhaint ag baint úsáide as Iarrataí agus Anraith Álainn 4. Is tasc é féin a dhéantar a pharsáil HTML, go háirithe le cabhair theicniúil ó Anraith Álainn.

Cén Fáth Anraith Álainn a Úsáid?

Is pacáiste Python den scoth é Beautiful Soup a úsáideadh chun láithreáin ghréasáin a scríobadh agus clibeanna HTML a pharsáil ó 2004. Le déanaí, tháinig Anraith 4 Álainn in ionad Anraith álainn 3 sa tionscal. Tabhair faoi deara go n-oibríonn BS4 ar an dá leagan Python ach nach n-oibríonn BS3 ach ar Python 2.7. Tá na gnéithe tógtha seo a leanas sa leabharlann:

  • Cumas ionchódaithe - Ní gá duit scaoll a dhéanamh faoi ionchóduithe nuair a shuiteáil tú na modúil Anraith álainn is gá ar do mheaisín. Tá an leabharlann uathoibrithe chun ionchuir a thiontú go Unicode agus aschuir go UTF-8.
  • Cumas loingseoireachta - Cuireann Anraith Álainn modhanna atá éasca le húsáid chun crann pár a chuardach, a nascleanúint agus a mhodhnú.

Conas leabharlann Anraith Álainn a úsáid?

Tar éis duit Anraith Álainn a shuiteáil ar do mheaisín, is féidir leat tosú ag úsáid na leabharlainne. Chun tús a chur leis, iompórtáil leabharlann bs4 ag tús do chód Python. Cuir ábhar nó URL ar aghaidh chuig Anraith Álainn chun réad Anraith a chruthú. Mar sin féin, ní fhaigheann an leabharlann an leathanach gréasáin sprice uirthi féin. Anseo, caithfidh tú an tasc sin a chur i gcrích de láimh. Is féidir leat na leathanaigh ghréasáin is fearr leat a fháil go héasca trí mheascán de Python agus Anraith Álainn a úsáid.

Róil na leabharlainne iarratais

Chun leathanach a scrabhadh, ní mór duit é a íoslódáil ar dtús. Is féidir leat leathanaigh ghréasáin a íoslódáil trí leabharlann iarratais a úsáid. Iarrann sé ar oibreacha leabharlainne trí iarraidh "GET" a dhéanamh ar na freastalaithe gréasáin, a íoslódálfaidh, ar a uain, ábhar HTML an leathanaigh ghréasáin is fearr leat.

URLanna a bhaint as leathanaigh ghréasáin

Anois tá faisnéis mhionsonraithe agat maidir le leabharlann Anraith Álainn. Cuideoidh teaglaim de leabharlann BS4 agus Python leat leathanach gréasáin a fháil go han-tapa. Chun na URLanna go léir a bhaint as do sprioc-leathanach gréasáin, bain úsáid as an modh "aimsigh gach". Tabharfaidh an modh seo tiomsú eilimintí duit leis an gclib. Ó bs4, iompórtáil Anraith Álainn agus iarratais. Rith do chód agus cuir isteach suíomh Gréasáin nó leathanach gréasáin chun na URLanna a bhaint as.

mass gmail