In dit artikel:

  • Wat is een online crawler?
  • Wat is crawling?
  • Wat is het crawlbudget?
  • Wat is indexeren?
  • Wat is renderen?

De missie van de zoekmachine is om het volledige web op te slaan en dat ze dit snel en efficiënt kunnen doen. De omvang en schaal van het complete web is erg groot. Hoeveel pagina's zijn er? In 2008 bereikte Google een mijlpaal van een biljoen pagina's die op internet werden gecrawld. In 2013 kroop Google naar dertig biljoen pagina's, maar vier jaar later herkende Google meer dan honderddertig biljoen pagina's. De groeisnelheid is duizelingwekkend, en het is geen geringe prestatie om deze pagina's op te slaan.

Inzicht in hoe Google alle websites op het web crawlt en indexeert, is cruciaal voor uw SEO-inspanningen.

Wat is crawlen? Wat is een online crawler?

Crawlen verwijst naar het volgen en opslaan van de links op een pagina en blijft links van bestaande en nieuwe pagina's op een website zoeken en volgen.

Een webcrawler is een softwarepakketprogramma dat alle links op een pagina volgt, wat resulteert in nieuwe pagina's, en die methode voortzet totdat er geen extra nieuwe links of pagina's zijn om te crawlen.

Webcrawlers staan ​​bekend onder totaal verschillende namen: robots, spiders, computerprogrammabots, of kortweg "bots". Ze staan ​​bekend als robots omdat ze een toegewezen taak hebben; reis van link naar link en leg de informatie van elke pagina vast. Helaas, als je je een echt mechanisme voorstelt met metalen platen en armen, dan zijn deze robots dat niet. De netcrawler van Google staat bekend als Google-bot.

Het proces van crawelen moet ergens beginnen. Google maakt gebruik van de bijbehorende initiële "zaadlijst" van bekende websites die de neiging hebben om naar verschillende sites te linken. Ze gebruiken bovendien lijsten met sites die ze in eerdere crawls hebben bezocht, naast sitemaps die zijn ingediend door de website-eigenaar.

Het web crawlen is een continue methode voor een query-engine. Het houdt nooit erg op. Het is van vitaal belang voor zoekmachines om te zoeken naar nieuwe pagina's die zijn gepost of naar updates van recente pagina's. Ze hoeven geen tijd en middelen te verspillen aan pagina's die geen verstandige kandidaten lijken te zijn voor een zoekresultaat.

Google geeft prioriteit aan kruipende pagina's die:

  • Vaak (vaak zijn gekoppeld )
  • Top kwaliteit
  • Vaak bijgewerkt

Websites die nieuwe inhoud van hoge kwaliteit publiceren, krijgen doorgaans een hogere prioriteit.

Wat is crawlbudget?

Het crawlbudget is de verscheidenheid aan pagina's of verzoeken die Google gedurende een bepaald deel van uw tijd voor een website kan crawlen. het aantal gebudgetteerde pagina's is afhankelijk van: grootte, populariteit, kwaliteit, updates en snelheid van de positionering.

Als uw website sluipende bronnen verspilt, kan uw crawlbudget snel afnemen en worden pagina's minder vaak gecrawld, wat leidt tot lagere rankings. Een website kan per ongeluk webcrawlerbronnen verspillen door te veel URL's met een lage waarde aan een crawler te leveren. Dit omvat "onjuiste navigatie, dubbele inhoud, zachte foutpagina's, gehackte pagina's, oneindige scrollgebieden en proxy's, kwaliteit en spaminhoud."

Google identificeert echter websites die moeten worden gecrawld op basis van populariteit; dit zorgt er niet voor dat een website regelmatig wordt gecrawld. Een website kan zich afmelden voor kruipen of het kruipen van componenten en richtlijnen beperken met een robots.txt-bestand. Deze regels vertellen netcrawlers van computerprogramma's welke onderdelen van de website ze mogen crawlen en welke niet. Wees heel voorzichtig met robots.txt. Het is eenvoudig om Google per ongeluk te blokkeren van alle pagina's op een website.

Niet toestaan: /

[blokken kruipen over de hele site]

Niet toestaan: /login/

[blokkeert kruipend elk adres in de directory /login/]

Bekijk de ondersteuningspagina van Google voor robots.txt als je helpt bij het maken van specifieke en complexere regels.

Het commando robots.txt compel blokkeert alleen het crawlen van een pagina. De link wordt nog steeds geïndexeerd als Google een toegestane link naar de niet-toegestane pagina ontdekt. Google neemt het adres en de ankertekst van links naar de pagina op in hun zoekresultaten, maar bevat niet de inhoud van de pagina.

Als u niet wilt dat een pagina wordt geïndexeerd door een indexeringsprogramma, moet u een "noindex"-tag aan de pagina toevoegen

Wat is indexeren?

Indexeren is het opslaan en organiseren van de gegevens die op webpagina's worden gevonden. De software geeft de code op de pagina weer op dezelfde manier als een browser. Het catalogiseert alle inhoud, links en gegevens op de pagina.

Indexering vereist een enorme hoeveelheid pc-bronnen, en het is niet alleen gegevensopslag. Er is een enorme hoeveelheid computerbronnen nodig om verschillende sites weer te geven. Dit merk je als je te veel browsertabs opent!

Wat is renderen?

Rendering is het decoderen van de hypertext opmaaktaal (HTML), CSS en javascript op de pagina om een ​​visuele illustratie te maken van wat u in uw browser ziet. Een online browser zet code om in een visuele weergave van een pagina.

De weergave van hypertext mark-up taalcode vergt proceskracht. Als uw pagina's javascript gebruiken om de inhoud van de pagina weer te geven, kost dit een grote hoeveelheid proceskracht. Zoekmachines zullen javascript-pagina's crawlen en weergeven, de JS-weergave kan binnen een wachtrij voor prioriteitstelling vallen. Als u een zeer grote website heeft die javascript nodig heeft om de inhoud op de pagina's weer te geven, zal het een langere tijd duren om de index van de pagina's bij te werken. Er wordt voorgesteld om inhoud en links indien mogelijk in hypertext-mark-up-taal weer te geven in plaats van javascript.

Rendering-wachtrij
In dit artikel:

  • Wat is een online crawler?
  • Wat is crawling?
  • Wat is het crawlbudget?
  • Wat is indexeren?
  • Wat is renderen?
  • Wat is het verschil tussen kruipen en indexeren?
  • Wat kun je met georganiseerde data?
  • Belang van kruip en classificatie voor uw website, een manier om kruip- en classificatieproblemen te controleren

De missie van de zoekmachine is om het volledige web op te slaan en dat ze dit snel en efficiënt kunnen doen. De omvang en schaal van het complete web is erg groot. Hoeveel pagina's zijn er? In 2008 bereikte Google een mijlpaal van een biljoen pagina's die op internet werden gecrawld. In 2013 kroop Google naar dertig biljoen pagina's, maar vier jaar later herkende Google meer dan honderddertig biljoen pagina's. De groeisnelheid is duizelingwekkend, en het is geen geringe prestatie om deze pagina's op te slaan.

Inzicht in hoe Google alle websites op het web crawlt en indexeert, is cruciaal voor uw SEO-inspanningen.

Wat is crawlen? Wat is een online crawler?

Crawlen verwijst naar het volgen en opslaan van de links op een pagina en blijft links van bestaande en nieuwe pagina's op een website zoeken en volgen.

Een webcrawler is een softwarepakketprogramma dat alle links op een pagina volgt, wat resulteert in nieuwe pagina's, en die methode voortzet totdat er geen extra nieuwe links of pagina's zijn om te crawlen.

Webcrawlers staan ​​bekend onder totaal verschillende namen: robots, spiders, computerprogrammabots, of kortweg "bots". Ze staan ​​bekend als robots omdat ze een toegewezen taak hebben; reis van link naar link en leg de informatie van elke pagina vast. Helaas, als je je een echt mechanisme voorstelt met metalen platen en armen, dan zijn deze robots dat niet. De netcrawler van Google staat bekend als Google-bot.

Het proces van crawelen moet ergens beginnen. Google maakt gebruik van de bijbehorende initiële "zaadlijst" van bekende websites die de neiging hebben om naar verschillende sites te linken. Ze gebruiken bovendien lijsten met sites die ze in eerdere crawls hebben bezocht, naast sitemaps die zijn ingediend door de website-eigenaar.

Het web crawlen is een continue methode voor een query-engine. Het houdt nooit erg op. Het is van vitaal belang voor zoekmachines om te zoeken naar nieuwe pagina's die zijn gepost of naar updates van recente pagina's. Ze hoeven geen tijd en middelen te verspillen aan pagina's die geen verstandige kandidaten lijken te zijn voor een zoekresultaat.

Google geeft prioriteit aan kruipende pagina's die:

  • Vaak (vaak zijn gekoppeld )
  • Top kwaliteit
  • Vaak bijgewerkt

Websites die nieuwe inhoud van hoge kwaliteit publiceren, krijgen doorgaans een hogere prioriteit.

Wat is crawlbudget?

Het crawlbudget is de verscheidenheid aan pagina's of verzoeken die Google gedurende een bepaald deel van uw tijd voor een website kan crawlen. het aantal gebudgetteerde pagina's is afhankelijk van: grootte, populariteit, kwaliteit, updates en snelheid van de positionering.

Als uw website sluipende bronnen verspilt, kan uw crawlbudget snel afnemen en worden pagina's minder vaak gecrawld, wat leidt tot lagere rankings. Een website kan per ongeluk webcrawlerbronnen verspillen door te veel URL's met een lage waarde aan een crawler te leveren. Dit omvat "onjuiste navigatie, dubbele inhoud, zachte foutpagina's, gehackte pagina's, oneindige scrollgebieden en proxy's, kwaliteit en spaminhoud."

Google identificeert echter websites die moeten worden gecrawld op basis van populariteit; dit zorgt er niet voor dat een website regelmatig wordt gecrawld. Een website kan zich afmelden voor kruipen of het kruipen van componenten en richtlijnen beperken met een robots.txt-bestand. Deze regels vertellen netcrawlers van computerprogramma's welke onderdelen van de website ze mogen crawlen en welke niet. Wees heel voorzichtig met robots.txt. Het is eenvoudig om Google per ongeluk te blokkeren van alle pagina's op een website.

Niet toestaan: /

[blokken kruipen over de hele site]

Niet toestaan: /login/

[blokkeert kruipend elk adres in de directory /login/]

Bekijk de ondersteuningspagina van Google voor robots.txt als je helpt bij het maken van specifieke en complexere regels.

Het commando robots.txt compel blokkeert alleen het crawlen van een pagina. De link wordt nog steeds geïndexeerd als Google een toegestane link naar de niet-toegestane pagina ontdekt. Google neemt het adres en de ankertekst van links naar de pagina op in hun zoekresultaten, maar bevat niet de inhoud van de pagina.

Als u niet wilt dat een pagina wordt geïndexeerd door een indexeringsprogramma, moet u een "noindex"-tag aan de pagina toevoegen

Wat is indexeren?

Indexeren is het opslaan en organiseren van de gegevens die op webpagina's worden gevonden. De software geeft de code op de pagina weer op dezelfde manier als een browser. Het catalogiseert alle inhoud, links en gegevens op de pagina.

Indexering vereist een enorme hoeveelheid pc-bronnen, en het is niet alleen gegevensopslag. Er is een enorme hoeveelheid computerbronnen nodig om verschillende sites weer te geven. Dit merk je als je te veel browsertabs opent!

Wat is renderen?

Rendering is het decoderen van de hypertext opmaaktaal (HTML), CSS en javascript op de pagina om een ​​visuele illustratie te maken van wat u in uw browser ziet. Een online browser zet code om in een visuele weergave van een pagina.

De weergave van hypertext mark-up taalcode vergt proceskracht. Als uw pagina's javascript gebruiken om de inhoud van de pagina weer te geven, kost dit een grote hoeveelheid proceskracht. Zoekmachines zullen javascript-pagina's crawlen en weergeven, de JS-weergave kan binnen een wachtrij voor prioriteitstelling vallen. Als u een zeer grote website heeft die javascript nodig heeft om de inhoud op de pagina's weer te geven, zal het een langere tijd duren om de index van de pagina's bij te werken. Er wordt voorgesteld om inhoud en links indien mogelijk in hypertext-mark-up-taal weer te geven in plaats van javascript.

Rendering-wachtrij

Analyse op blokniveau (paginasegmentatie)

Met paginasegmentatie of analyse op blokniveau kan een zoekmachine de verschillende componenten van de pagina laden: navigatie, advertenties, inhoud, voettekst, enz. Van daaruit bepaalt deze formule welk deel van de pagina de belangrijkste essentiële informatie of primaire inhoud bevat . Dit helpt het computerprogramma waar te nemen wat de pagina is en niet in de war te raken door iets eromheen.

Zoekmachines gebruiken dit begrip bovendien om ervaringen van lage kwaliteit, trage websites, te veel advertenties op een pagina of te weinig inhoud boven de vouw te bestraffen.

Een technisch analysedocument dat door Microsoft is gedrukt, schetste hoe verschillende secties op een webpagina worden begrepen door de bijbehorende formule. Paginasegmentatie is ook nuttig voor linkanalyse.