Analisi di dati non-table da i siti web

Prublemu cù dati non-tavula

Cù scaricamentu in Excel tabulare Dati Internet ùn hè micca prublema. L'add-in Power Query in Excel rende stu compitu faciule in sicondi. Hè abbastanza à sceglie nantu à a tabulazione Dati Command Da Internet (Dati - Da Internet), incolla l'indirizzu di a pagina web desiderata (per esempiu, indicatori chjave di u Bancu Centrale) è cliccate OK:

Analisi di dati non-table da i siti web

Power Query ricunnosce automaticamente tutte e tavule nantu à a pagina web è li liste in una finestra. Navigator:

Analisi di dati non-table da i siti web

Allora resta à selezziunà a tavola desiderata scrivendu è caricala in Power Query per un ulteriore prucessu (buttone Cunvertite Dati) o direttamente à u fogliu Excel (buttone Download).

Se i dati sò caricati da u situ chì avete bisognu secondu u scenariu sopra, cunsiderà furtunatu.

Sfurtunatamente, abbastanza spessu ci sò siti induve, quandu pruvate una tale carica, Power Query "ùn vede" tavule cù i dati necessarii, vale à dì in a finestra. Navigator solu ùn ci n'hè Tabella 0,1,2... o trà elli ùn ci hè micca tavula cù l'infurmazioni chì avemu bisognu. Ci ponu esse parechje ragiuni per questu, ma a maiò spessu questu succede perchè u web designer hà utilizatu una custruzzione di tag non standard in u codice HTML di a pagina quandu crea a tavula.

, è u so analogu hè i tags di cuntainer nidificati

. Questa hè una tecnica assai cumuna quandu si stallanu siti web, ma, sfurtunatamenti, Power Query ùn hè ancu capace di ricunnosce tali marcatura è carica tali dati in Excel.

Tuttavia, ci hè un modu per aggirari sta limitazione 😉

Comu pratica, pruvemu di scaricà i prezzi è e descrizzioni di i prudutti da u mercatu Wildberries - per esempiu, libri da a sezione Detectives:

Analisi di dati non-table da i siti web

Carica codice HTML invece di una pagina web

Prima, avemu aduprà u listessu approcciu - selezziunà u cumandamentu Da Internet Insignia Dati (Dati - Da Internet) è entre in l'indirizzu di a pagina chì avemu bisognu:

https://www.wildberries.ru/catalog/knigi/hudozhestvennaya-literatura/detektivy

Dopu avè cliccatu OK una finestra apparirà Navigator, induve ùn vedemu più tavule utili, salvu un incomprensibile Document:

Analisi di dati non-table da i siti web

Allora principia u più interessante. Cliccate nant'à u buttone Cunvertite Dati (trasforma i dati)per carica sempre u cuntenutu di a tavula Documentà l'Editor di Query Power Query. In a finestra chì apre, sguassate u passu navigazzioni (navigazione) croce rossa:

Analisi di dati non-table da i siti web

... è dopu cliccate nantu à l'icona di l'ingranaggio à a diritta di u passu surghjente (Source)per apre e so opzioni:

Analisi di dati non-table da i siti web

In lista drop-down Aprite u schedariu cum'è (Apre u schedariu cum'è) invece di a pagina HTML predeterminata selezziunata quì, selezziunate File di testu (Fichiu di testu). Questu pruvucarà Power Query à interpretà i dati scaricati micca cum'è una pagina web, ma cum'è testu chjaru, vale à dì Power Query ùn pruverà micca à ricunnosce tag HTML è i so attributi, ligami, stampi, tavule, ma solu prucessarà u codice fonte di a pagina cum'è testu.

Dopu avè cliccatu OK Videremu solu stu codice HTML (pò esse assai voluminoso - ùn vi allarmate):

Analisi di dati non-table da i siti web

Cerchendu qualcosa per afferrà

Avà avemu bisognu di capiscenu quali tags, attributi o etichette in u codice pudemu fucalizza nantu à pudè estrae e dati chì avemu bisognu di i prudutti da stu munzeddu di testu. Di sicuru, tuttu dipende di u situ specificu è di u programatore web chì hà scrittu, è avete da improvisà digià.

In u casu di Wildberries, scrolling stu codice finu à i prudutti, pudete truvà facilmente una logica simplice:

Analisi di dati non-table da i siti web

  • E linee cù prezzi cuntenenu sempre l'etichetta prezzu più bassu
  • Linee cù u nome di a marca - sempre cù una etichetta marca c-text-sm
  • U nome di u pruduttu pò esse truvatu da u tag merchandise-name c-text-sm

A volte, u prucessu di ricerca pò esse simplificatu assai cù l'arnesi di debugging di codice chì sò avà dispunibili in ogni navigatore mudernu. Facendu clic à u dirittu annantu à qualsiasi elementu di una pagina web (per esempiu, un prezzu o una descrizzione di u produttu), pudete selezziunate u cumandamentu da u menù di cuntestu. Inspect (Inspeccionà) è dopu vede u codice in una finestra còmuda ghjustu accantu à u cuntenutu di u situ:

Analisi di dati non-table da i siti web

Filtrà i dati necessarii

Avà, in un modu cumplettamente standard, filtrà e linee chì avemu bisognu in u codice di a pagina per tag rilevati. Per fà questu, selezziunate in a finestra Power Query in u filtru [1] un'opzione Filtri di testu - cuntene (Filtri di testu - cuntene), cambia à u modu Details (Avanzate) [2] e inserisci i nostri criteri:

Analisi di dati non-table da i siti web

L'aghjunzione di e cundizioni hè fatta da un buttone cù un nome divertente Aggiungi offerta [3]. È ùn vi scurdate di stabilisce una cunnessione logica per tutte e cundizioni Or (OR) invece И (È) in u listinu drop-down à a manca [4] Altrimenti, u filtru solu ùn funziona micca.

Dopu avè cliccatu OK solu e linee cù l'infurmazioni chì avemu bisognu restanu nantu à u screnu:

Analisi di dati non-table da i siti web

Pulitemu a basura

Resta per pulizziari tuttu questu da i detriti in ogni modu chì hè adattatu è cunvene per voi personalmente (ci sò assai di elli). Per esempiu, cusì:

  1. Eliminate l'etichetta di partenza rimpiazzendu cù vuoti: via cumandamentu Home - Sustituì i valori (Casa - Sustituisce i valori).
  2. Divide a colonna risultante da u primu delimitatore ">» cumanda manca Home — Split Colonna — By Delimiter (Casa — Colonna divisa — Per delimitatore) è poi divide a colonna resultanti di novu da a prima occorrenza di u delimitatore "<» à a manca per separà u payload da i tags:

    Analisi di dati non-table da i siti web

  3. Eliminate colonne extra, è in u restu, rimpiazzà a custruzzione HTML standard " a quotazioni normali.

In u risultatu, avemu i nostri dati in una forma assai più presentable:

Analisi di dati non-table da i siti web

Parsing blocchi in colonne

Se guardate attentamente, l'infurmazioni nantu à ogni pruduttu individuale in a lista resultanti sò raggruppati in blocchi di trè cellule. Di sicuru, saria assai più còmuda per noi di travaglià cù sta tavula se sti blocchi sò stati trasfurmati in culonni separati: prezzu, marca (editore) è nome.

Pudete fà una tale trasfurmazioni assai facilmente - cù l'aiutu di, literalmente, una linea di codice in a lingua M integrata in Power Query. Per fà questu, cliccate nant'à u buttone fx in a barra di formula (se ùn pudete micca vede, allora attivate nantu à a tabulazione recensione (Vede)) è inserite a seguente custruzzione:

= Table.FromRows(List.Split(#"Valore sustituitu 1"[Colonna 1.2.1],3))

Eccu a funzione Lista.Split divide a colonna cù u nome Column1.2.1 da a nostra tavula da u passu precedente #"Valore sustituitu 1" in pezzi da 3 cellule e poi una funzione Table.FromRows converte e liste nidificate risultanti in una tavula - digià da trè colonne:

Analisi di dati non-table da i siti web

Eppo, allora hè una questione di tecnulugia - per stallà i formati numerichi di e culonne, rinominà è mette in l'ordine ghjustu. È caricate a bellezza resultanti torna à u fogliu Excel cù u cumandimu Home - Chiudi è scaricate (Casa - Chiudi & Carica...)

Analisi di dati non-table da i siti web

Eccu tutti i trucchi 🙂

  • Importazione di una tarifa bitcoin da un situ web cù Power Query
  • Parsing text with regular expressions (RegExp) in Power Query
  • Parametrizazione di percorsi di dati in Power Query
Scrittu da l'autoreAdminScritta in10000

Lascia un cumentu

annuler risponde

U vostru indirizzu email ùn seranu micca publicatu. campi nicissarii sò marcati *

Ultimi nutizzi

  • Cumu fà a multiplicazione in Excel
  • Truvà l'Ultima Occurrence (VLOOKUP Invertitu)
  • Beneficii di Pivot da Data Model
  • Cosa da fà se i lattice sò visualizati invece di numeri in Excel
  • Prublemi cù e formule in una foglia di calculu Excel

missaghji recenti

Ùn ci hè micca cumenti per vede.

dischi

  • August 2022

Categories

  • 10000
  • 20000

mid-floridaair.com, Proudly powered by WordPress.

Lascia un Audiolibro