Google BERT en de toekomst van SEO
In mijn vorige blogpost over de geschiedenis van SEO gaf ik al aan dat Google regelmatig updates uitvoert. De laatste belangrijke was de update naar Google BERT. Maar in tegenstelling tot de vorige updates is Google BERT meer dan alleen een update aan de zoekmachine zelf. Binnen de wereld van Natural Language Processing vormt het BERT-model een mijlpaal.
Wat is BERT?
Dankzij BERT kan Google beter menselijke taal (natural language) interpreteren. Een belangrijke troef om te onthouden bij je SEO-prioriteiten en -resultaten.
BERT is de afkorting van Bidirectional Encoding Relationship Transformers.
BERT is een open source-project van Google dat je vrij kan gebruiken.
BERT is een taalmodel dat erin slaagt gemiddeld sterkere prestaties te leveren op taalopdrachten dan de doorsnee persoon.
Wat is NLP?
Natural Language Processing (NLP) is een combinatie van taalkunde, wiskunde en artificiële intelligentie en helpt computers om inzichten uit tekst te halen. In een vorige blog verwees ik al naar het nut van NLP om de kwaliteit van je teksten te verbeteren.
Natural Language Processing is zeker niet nieuw. Denk maar aan het succes van Lernout en Hauspie in Flanders Language Valley, eind jaren 1990. Ze gebruikten regelgebaseerde algoritmen om gesproken tekst naar geschreven tekst te vertalen. Maar dit werkte nog net niet goed genoeg om bruikbaar te zijn.
Terwijl NLP vroeger vooral gebaseerd was op taalkundige regels, maken de nieuwste technieken gebruik van deep learning technieken. Dankzij extra rekenkracht en nieuwe algoritmes verhoogt de performantie en kunnen machines steeds beter teksten interpreteren. Zo worden nieuwe toepassingen zoals vertaalmachines of chatbots bruikbaar.
Terwijl NLP vroeger vooral gebaseerd was op taalkundige regels, maken de nieuwste technieken gebruik van deep learning technieken. Dankzij extra rekenkracht en nieuwe algoritmes verhoogt de performantie en kunnen machines steeds beter teksten interpreteren. Zo worden nieuwe toepassingen zoals vertaalmachines of chatbots bruikbaar.
Een aantal bekende NLP-taken zijn:
het herkennen van zinsdelen (grammatica);
het beantwoorden van vragen aan de hand van een tekst die het model ter beschikking krijgt;
het herkennen van entiteiten (locaties, namen) in een tekst;
het vergelijken van twee zinnen op gelijkheid/verschillen.
Het analyseren van taal is voor computers een hele uitdaging. Zo biedt het Nederlands bijvoorbeeld heel wat dubbelzinnigheden, homoniemen, synoniemen... en kan naargelang de context een woord of zinsdeel een heel andere betekenis krijgen.
De volgende voorbeelden tonen heel goed aan waar de moeilijkheden van NLP kunnen liggen.
1. Ik zag de man met een verrekijker.
Je kan deze zin op twee manieren interpreteren. Heb ik de verrekijker in mijn hand en kijk ik hiermee naar de man? Of kijk ik naar de man die een verrekijker vast heeft. De juiste interpretatie bepaalt de functie van het zinsdeel ‘met een verrekijker’.
2. Ik wandelde naar de bank.
Ook woorden kan je op verschillende manieren interpreteren. In dit geval zorgt het zelfstandig naamwoord ‘bank’ voor moeilijkheden. Wandelde ik naar een bank om te zitten of naar een bank om geld af te halen? De vele ambiguïteiten maken het begrip van taal uitdagend voor computers.
Context is dus zeer belangrijk bij het juist begrijpen van taal. Op dat punt blijven machines het nog steeds moeilijk hebben om deze context te begrijpen.
Voordelen van BERT
In oktober 2018 maakte Google het BERT-algoritme wereldwijd kenbaar in een research paper. De resultaten en voordelen in vergelijking met andere taalmodellen waren spectaculair.
Dankzij het gebruik van transformers weet BERT de juiste klemtonen te leggen bij elk woord. Sommige woorden zijn belangrijker in een context dan andere en ook verwijzingen weet het BERT-model te herkennen.
Het BERT-model is bidirectioneel. Vroegere unidirectionele modellen haalden de betekenis van woorden uit de context waarin ze werden gebruikt, waardoor elk woord een vaste betekenis (een statische vector) kreeg. BERT traint niet enkel op woorden, maar ook op de contexten rond deze woorden. Afhankelijk van de context krijg je dus een andere vector.]
Het BERT-model werd getraind op miljarden woorden en datapunten, waaronder de hele Wikipedia encyclopedie. Bij het testen van zijn prestaties haalde BERT topscores op de GLUE (Generalized Language Understanding Evaluation) benchmarks. GLUE verzamelt negen verschillende taken die toelaten te evalueren hoe goed een model in staat is om teksten te begrijpen.
Een voorbeeld van een taakje is het voorspellen van het aantal sterren van een IMDb-review aan de hand van de geschreven tekst. Een ander voorbeeld is het beoordelen of de betekenis van twee zinnen dezelfde is of verschillend. Dankzij BERT werd een grote sprong gemaakt in de scores die nog steeds dichter evolueren naar ‘human performance’. BERT Big en BigBird zijn hier varianten van BERT.
Dankzij de verbeterde prestaties kan Google dus beter teksten interpreteren dan vroeger. Het BERT-model houdt meer rekening met de context waarin de woorden gebruikt worden. De technologie kan toegepast worden in complexe NLP-toepassingen zoals vertaalmachines of chatbots.
Eind 2019 werden daar ook de Google-zoekresultaten aan toegevoegd. Dankzij het open source karakter kunnen ook andere bedrijven op basis van de BERT-module doorontwikkelen (hoewel je gigantisch veel rekencapaciteit nodig hebt om de modellen te trainen). Google ontwikkelde ALBERT, Microsoft/Facebook ROBERTA en de Chinese zoekmachine Baidu koos voor de naam “ERNIE”.
BERT en jouw SEO/website
Google wordt steeds meer een chatbot die de intentie van jouw zoekopdracht herkent en zelfs kan voorzien. Waar SEO traditioneel rond keywords draaide, worden ‘entiteiten’ en ‘intenties’ nu steeds belangrijker. Met een entiteit duiden we een begrip aan, met intentie een actie (informatie raadplegen, een product kopen, contact opnemen...). Slaag je erin om op jouw website de bezoeker te helpen, dan zal je ook beter scoren.
Eén entiteit kan bijvoorbeeld zijn: ‘vlucht naar Rome’.
De intenties rond deze entiteit kunnen verschillend zijn: informatie raadplegen, prijs aanvragen, de vlucht boeken. Door je content in te stellen op deze intenties, zal je beter kunnen scoren naar SEO.
BERT en jouw SEO/website
Google wordt steeds meer een chatbot die de intentie van jouw zoekopdracht herkent en zelfs kan voorzien. Waar SEO traditioneel rond keywords draaide, worden ‘entiteiten’ en ‘intenties’ nu steeds belangrijker. Met een entiteit duiden we een begrip aan, met intentie een actie (informatie raadplegen, een product kopen, contact opnemen...). Slaag je erin om op jouw website de bezoeker te helpen, dan zal je ook beter scoren.
Eén entiteit kan bijvoorbeeld zijn: ‘vlucht naar Rome’.
De intenties rond deze entiteit kunnen verschillend zijn: informatie raadplegen, prijs aanvragen, de vlucht boeken. Door je content in te stellen op deze intenties, zal je beter kunnen scoren naar SEO.
We zien het aantal featured snippets toenemen. Naarmate Google beter informatie uit de teksten op jouw website kan interpreteren, zal het aantal featured snippets verder stijgen. Zo zet Google sterk in op nieuwe structured data types als QA en FAQ.
Zo kan Google bezoekers direct vanuit de resultatenpagina verder helpen. Je kan Google hierbij nog altijd sturen door de juiste structured data mee te geven. Wil je echt niet met je webpagina in een snippet gevonden worden, dan kan je de nieuwe tag nosnippet hiervoor gebruiken.
Het is ook belangrijk dat je je eigen entiteit op orde houdt. Informatie op Wikipedia en publieke databanken moet je onmiddellijk aanpassen, gezien Google deze zal verbinden met jouw bedrijf. Je kan het Google ook gemakkelijker maken door je Google My Business zo volledig mogelijk in te vullen. Bovendien kan je via structured data op een gestructureerde manier informatie over jouw entiteit leveren aan Google.
Als we vooruitkijken zal het aantal zero-searches verder toenemen en dankzij het BERT-model blijven stijgen. Het is daarom belangrijk dat je zo goed mogelijk blijft nadenken over hoe je website je bezoeker een direct antwoord kan bieden op zijn vragen.