cuntenutu
Prublemu cù dati non-tavula
Cù scaricamentu in Excel tabulare Dati Internet ùn hè micca prublema. L'add-in Power Query in Excel rende stu compitu faciule in sicondi. Hè abbastanza à sceglie nantu à a tabulazione Dati Command Da Internet (Dati - Da Internet), incolla l'indirizzu di a pagina web desiderata (per esempiu, indicatori chjave di u Bancu Centrale) è cliccate OK:
Power Query ricunnosce automaticamente tutte e tavule nantu à a pagina web è li liste in una finestra. Navigator:
Allora resta à selezziunà a tavola desiderata scrivendu è caricala in Power Query per un ulteriore prucessu (buttone Cunvertite Dati) o direttamente à u fogliu Excel (buttone Download).
Se i dati sò caricati da u situ chì avete bisognu secondu u scenariu sopra, cunsiderà furtunatu.
Sfurtunatamente, abbastanza spessu ci sò siti induve, quandu pruvate una tale carica, Power Query "ùn vede" tavule cù i dati necessarii, vale à dì in a finestra. Navigator solu ùn ci n'hè Tabella 0,1,2... o trà elli ùn ci hè micca tavula cù l'infurmazioni chì avemu bisognu. Ci ponu esse parechje ragiuni per questu, ma a maiò spessu questu succede perchè u web designer hà utilizatu una custruzzione di tag non standard in u codice HTML di a pagina quandu crea a tavula.
, è u so analogu hè i tags di cuntainer nidificati
Tuttavia, ci hè un modu per aggirari sta limitazione 😉
Comu pratica, pruvemu di scaricà i prezzi è e descrizzioni di i prudutti da u mercatu Wildberries - per esempiu, libri da a sezione Detectives:
Carica codice HTML invece di una pagina web
Prima, avemu aduprà u listessu approcciu - selezziunà u cumandamentu Da Internet Insignia Dati (Dati - Da Internet) è entre in l'indirizzu di a pagina chì avemu bisognu:
https://www.wildberries.ru/catalog/knigi/hudozhestvennaya-literatura/detektivy
Dopu avè cliccatu OK una finestra apparirà Navigator, induve ùn vedemu più tavule utili, salvu un incomprensibile Document:
Allora principia u più interessante. Cliccate nant'à u buttone Cunvertite Dati (trasforma i dati)per carica sempre u cuntenutu di a tavula Documentà l'Editor di Query Power Query. In a finestra chì apre, sguassate u passu navigazzioni (navigazione) croce rossa:
... è dopu cliccate nantu à l'icona di l'ingranaggio à a diritta di u passu surghjente (Source)per apre e so opzioni:
In lista drop-down Aprite u schedariu cum'è (Apre u schedariu cum'è) invece di a pagina HTML predeterminata selezziunata quì, selezziunate File di testu (Fichiu di testu). Questu pruvucarà Power Query à interpretà i dati scaricati micca cum'è una pagina web, ma cum'è testu chjaru, vale à dì Power Query ùn pruverà micca à ricunnosce tag HTML è i so attributi, ligami, stampi, tavule, ma solu prucessarà u codice fonte di a pagina cum'è testu.
Dopu avè cliccatu OK Videremu solu stu codice HTML (pò esse assai voluminoso - ùn vi allarmate):
Cerchendu qualcosa per afferrà
Avà avemu bisognu di capiscenu quali tags, attributi o etichette in u codice pudemu fucalizza nantu à pudè estrae e dati chì avemu bisognu di i prudutti da stu munzeddu di testu. Di sicuru, tuttu dipende di u situ specificu è di u programatore web chì hà scrittu, è avete da improvisà digià.
In u casu di Wildberries, scrolling stu codice finu à i prudutti, pudete truvà facilmente una logica simplice:
- E linee cù prezzi cuntenenu sempre l'etichetta prezzu più bassu
- Linee cù u nome di a marca - sempre cù una etichetta marca c-text-sm
- U nome di u pruduttu pò esse truvatu da u tag merchandise-name c-text-sm
A volte, u prucessu di ricerca pò esse simplificatu assai cù l'arnesi di debugging di codice chì sò avà dispunibili in ogni navigatore mudernu. Facendu clic à u dirittu annantu à qualsiasi elementu di una pagina web (per esempiu, un prezzu o una descrizzione di u produttu), pudete selezziunate u cumandamentu da u menù di cuntestu. Inspect (Inspeccionà) è dopu vede u codice in una finestra còmuda ghjustu accantu à u cuntenutu di u situ:
Filtrà i dati necessarii
Avà, in un modu cumplettamente standard, filtrà e linee chì avemu bisognu in u codice di a pagina per tag rilevati. Per fà questu, selezziunate in a finestra Power Query in u filtru [1] un'opzione Filtri di testu - cuntene (Filtri di testu - cuntene), cambia à u modu Details (Avanzate) [2] e inserisci i nostri criteri:
L'aghjunzione di e cundizioni hè fatta da un buttone cù un nome divertente Aggiungi offerta [3]. È ùn vi scurdate di stabilisce una cunnessione logica per tutte e cundizioni Or (OR) invece И (È) in u listinu drop-down à a manca [4] Altrimenti, u filtru solu ùn funziona micca.
Dopu avè cliccatu OK solu e linee cù l'infurmazioni chì avemu bisognu restanu nantu à u screnu:
Pulitemu a basura
Resta per pulizziari tuttu questu da i detriti in ogni modu chì hè adattatu è cunvene per voi personalmente (ci sò assai di elli). Per esempiu, cusì:
- Eliminate l'etichetta di partenza rimpiazzendu cù vuoti: via cumandamentu Home - Sustituì i valori (Casa - Sustituisce i valori).
- Divide a colonna risultante da u primu delimitatore ">» cumanda manca Home — Split Colonna — By Delimiter (Casa — Colonna divisa — Per delimitatore) è poi divide a colonna resultanti di novu da a prima occorrenza di u delimitatore "<» à a manca per separà u payload da i tags:
- Eliminate colonne extra, è in u restu, rimpiazzà a custruzzione HTML standard " a quotazioni normali.
In u risultatu, avemu i nostri dati in una forma assai più presentable:
Parsing blocchi in colonne
Se guardate attentamente, l'infurmazioni nantu à ogni pruduttu individuale in a lista resultanti sò raggruppati in blocchi di trè cellule. Di sicuru, saria assai più còmuda per noi di travaglià cù sta tavula se sti blocchi sò stati trasfurmati in culonni separati: prezzu, marca (editore) è nome.
Pudete fà una tale trasfurmazioni assai facilmente - cù l'aiutu di, literalmente, una linea di codice in a lingua M integrata in Power Query. Per fà questu, cliccate nant'à u buttone fx in a barra di formula (se ùn pudete micca vede, allora attivate nantu à a tabulazione recensione (Vede)) è inserite a seguente custruzzione:
= Table.FromRows(List.Split(#"Valore sustituitu 1"[Colonna 1.2.1],3))
Eccu a funzione Lista.Split divide a colonna cù u nome Column1.2.1 da a nostra tavula da u passu precedente #"Valore sustituitu 1" in pezzi da 3 cellule e poi una funzione Table.FromRows converte e liste nidificate risultanti in una tavula - digià da trè colonne:
Eppo, allora hè una questione di tecnulugia - per stallà i formati numerichi di e culonne, rinominà è mette in l'ordine ghjustu. È caricate a bellezza resultanti torna à u fogliu Excel cù u cumandimu Home - Chiudi è scaricate (Casa - Chiudi & Carica...)
Eccu tutti i trucchi 🙂
- Importazione di una tarifa bitcoin da un situ web cù Power Query
- Parsing text with regular expressions (RegExp) in Power Query
- Parametrizazione di percorsi di dati in Power Query
Lascia un cumentu
annuler risponde
U vostru indirizzu email ùn seranu micca publicatu. campi nicissarii sò marcati *