In che modo Google BERT vs. Gli algoritmi di Smith lavorano insieme - Panoramica di Semalt




Google ha recentemente pubblicato un documento di ricerca sul loro nuovo algoritmo di PNL SMITH. Questo documento ha illuminato molti professionisti SEO sui cambiamenti che avrebbero giustificato aumenti o cali nel ranking SERP. Tuttavia, la nostra preoccupazione qui è come si confronta questo nuovo algoritmo SMITH con BERT?

Nel documento pubblicato da Google, hanno affermato che SMITH supera BERT nella comprensione di lunghe query di ricerca e lunghi documenti. Ciò che rende SMITH così interessante è che può comprendere passaggi all'interno di un documento simile a ciò che BERT fa con parole e frasi. Questa funzionalità migliorata di SMITH consente di comprendere facilmente documenti più lunghi.

Ma prima di andare oltre, dobbiamo informarti che al momento SMITH non è presente negli algoritmi di Google. Ma se le nostre speculazioni sono corrette, verrà lanciato insieme all'indicizzazione dei passaggi, o lo precederà. Se sei veramente interessato a imparare come classificarti su SEP, l'apprendimento automatico andrebbe inevitabilmente di pari passo a questo interesse.

Quindi, tornando all'argomento, BERT sta per essere sostituito? La maggior parte dei documenti sul Web che sono vasti, robusti e quindi più a lungo funzioneranno meglio con SMITH?

Andiamo oltre e vediamo cosa abbiamo concluso. SMITH può svolgere sia il lavoro di lettura di documenti robusti che sottili. Pensalo come un bazooka. Può causare gravi danni perché può anche aprire le porte.

Per cominciare, perché BERT o SMITH?

La vera domanda qui è perché un motore di ricerca richiederà il Natural Learning Processing per fornire risultati di ricerca. La risposta è semplice. I motori di ricerca richiedono la PNL nella loro transizione da stringhe di comprensione dei motori di ricerca o parole chiave a cose o pagine web.

Dove Google non ha un'idea, cos'altro può essere sulla pagina oltre alle parole chiave o se il contenuto che viene indicizzato ha senso anche in relazione alla query di ricerca. Grazie alla PNL, Google può comprendere il contesto dei caratteri digitati nella sua query di ricerca.
Grazie alla PNL, Google può distinguere le intenzioni di un utente quando dice "sponda del fiume" e "conto bancario". Può anche interpretare dichiarazioni come "Caroline si è incontrata con i suoi amici per un drink, bevande, pinta, birra, birra ..." come innaturali.

In qualità di esperti in SEO, dobbiamo dire che la comprensione delle query di ricerca ha fatto molta strada. È meglio credere che in passato fosse eccessivamente difficile trovare gli articoli giusti su Internet.

Capire BERT

BERT attualmente funziona come il miglior modello di PNL che abbiamo per molte, se non la maggior parte, delle applicazioni, specialmente quando si tratta di comprendere strutture linguistiche complesse. Molti considerano il primo carattere bidirezionale come il più grande balzo in avanti in questo algoritmo. Piuttosto che avere un algoritmo che legge da sinistra a destra, BERT può anche capire le parole in relazione al loro contesto. In questo modo, non darebbe risultati per le singole parole inserite nella query, ma indicizzerà le pagine web in base al significato collettivo delle parole nella query di ricerca.

Ecco un esempio per facilitare la tua comprensione:

UN CAMION HA LUCE.

Se dovessi interpretare quell'affermazione da sinistra a destra, una volta raggiunta la parola "luce", classificheresti il ​​camion come qualcosa con la luce. Questo perché il camion è venuto prima della luce nella dichiarazione.

Ma se vogliamo classificare le cose sui camion, possiamo tralasciare "leggero" perché non lo troviamo prima di "camion".

È difficile considerare l'affermazione in una sola direzione.

Inoltre, BERT ha anche un altro vantaggio segreto di essere così notevole e consente l'elaborazione del linguaggio in modo efficace con un costo delle risorse inferiore rispetto ai modelli precedenti. Questo è davvero un fattore importante da considerare quando si vuole applicarlo all'intero web.

L'applicazione dei token è l'ennesima evoluzione che ha accompagnato BERT. Ci sono 30.000 gettoni in BERT, e ognuno di questi rappresenta una parola comune con un paio di gettoni extra per caratteri e frammenti nel caso in cui esista una parola al di fuori dei 30.000.

Attraverso la sua capacità di elaborare token e trasformatori, BERT ha compreso il contenuto, che gli ha anche dato la capacità di comprendere adeguatamente le frasi.

Quindi, se diciamo, "la giovane donna è andata in riva. Più tardi si è seduta sulla riva del fiume e ha guardato il fiume scorrere".

BERT assegnerà valori diversi a quelle frasi perché si riferiscono a due cose diverse.

Capire SMITH

Poi arriva SMITH, un algoritmo con risorse e numeri migliori da utilizzare per l'elaborazione di documenti più grandi. BERT utilizza circa 256 token per documento e quando supera questa soglia, il costo di elaborazione diventa troppo alto per un funzionamento ottimale. Al contrario, SMITH può gestire fino a 2.248 gettoni per documento. Si tratta di circa 8 volte il numero di token utilizzati da BERT.

Per capire perché i costi di calcolo aumentano in un singolo modello di PNL, dobbiamo prima considerare cosa serve per comprendere una frase e un paragrafo. Quando si ha a che fare con una frase, c'è solo un concetto generale da capire. Ci sono meno parole che si relazionano tra loro, quindi meno connessioni tra le parole e le idee che conservano in memoria.

Trasformando le frasi in paragrafi, la connessione tra queste parole si moltiplica notevolmente. Elabora 8 volte il testo richiederà molte più volte in termini di velocità e capacità di ottimizzazione della memoria utilizzando lo stesso modello. È qui che SMITH fa la differenza fondamentalmente in batch ed eseguendo molte elaborazioni offline. È interessante notare che SMITH dipende ancora da BERT per funzionare correttamente.

Ecco una descrizione di come SMITH prende un documento al suo centro:
  1. Per prima cosa suddivide il documento in dimensioni di raggruppamento più facili da gestire.
  2. Quindi elabora ogni blocco di frasi individualmente.
  3. Un trasformatore apprende quindi una rappresentazione contestuale di ogni blocco, dopodiché li trasforma in una rappresentazione del documento.

Come funziona SMITH?

Per addestrare il modello SMITH, impariamo da BERT in due modi:

Per addestrare BERT, una parola viene estratta da una frase e verranno fornite opzioni alternative

Il BERT, che è meglio formato, è quello che avrà più successo nella scelta dell'opzione giusta tra le alternative fornite. Ad esempio, se BERT riceve la frase:

Il marrone felice ------ saltò oltre la staccionata.
  • Opzione uno: pomodori.
  • Opzione due: cane.
Migliore è l'addestramento del BERT, maggiori sono le sue possibilità di scegliere l'opzione giusta, che è l'opzione due.

Questo metodo di allenamento è applicato anche in SMITH.

SMITH è addestrato per documenti di grandi dimensioni

Più SMITH è addestrato, maggiori sono le sue possibilità di riconoscere le frasi omesse. È la stessa idea con BERT ma un'applicazione diversa. Questa parte è particolarmente interessante perché dipinge un mondo con i contenuti generati da Google messi insieme nelle pagine dei risultati dei motori di ricerca murate. Ovviamente, gli utenti possono andarsene, ma non lo faranno perché Google può mettere insieme contenuti di breve e lunga durata da tutte le migliori fonti nella sua pagina dei risultati.

Se sei in dubbio che ciò accada, dovresti sapere che è già iniziato, e anche se non l'hanno ancora imparato, è un inizio.

SMITH è meglio di BERT?

Con tutto ciò che hai letto, è del tutto naturale presumere che SMITH sia migliore e, in molte attività, è davvero migliore. Ma considera come usi Internet per un momento; quali domande inserisci regolarmente nelle query di ricerca?
  • "Quali sono le previsioni del tempo per oggi?"
  • "Indicazioni per un ristorante".
Rispondere a tali query di ricerca di solito richiede contenuti brevi, spesso con dati limitati e semplici. SMITH è più coinvolto nella comprensione di documenti più lunghi e complessi e query di ricerca lunghe e complesse.

Ciò includerà il mettere insieme diversi documenti e argomenti per creare le loro risposte. Determina il modo in cui il contenuto può essere suddiviso, consentendo a Google di sapere la cosa giusta da visualizzare. Aiuterà Google a capire in che modo le pagine di contenuto sono correlate tra loro e fornisce una scala su cui i link possono essere valutati tra gli altri vantaggi.

Detto questo, concludiamo dicendo che sia BERT che SMITH sono importanti ed entrambi servono al loro scopo unico.

Conclusione

Sebbene SMITH sia il bazooka, ne abbiamo bisogno per dipingere un quadro chiaro di come stanno le cose collettivamente. In termini di risorse, costa di più perché fa un lavoro più grande, ma costa molto meno di BERT quando fa lo stesso lavoro.

BERT aiuta SMITH a comprendere meglio query brevi e piccole porzioni di contenuto. Questo, tuttavia, fino a quando Google non svilupperà un altro algoritmo di PNL che sostituirà entrambi, quindi ci muoveremo e ci metteremo al passo con l'ennesimo progresso nel SEO.

Interessato alla SEO? Dai un'occhiata ai nostri altri articoli su Blog di Semalt.