Mik azok a keresőrobotok?
Több néven is találkozhatunk velük, crawler, bot, spider, search engine robot, pók.
A keresőrobotok olyan speciális programok, amelyek folyamatosan járják a weboldalakat és gyűjtik az adatokat a keresőoldalak számára. A robotok linkeken keresztül közlekednek, weboldalról weboldalra linkről linkre.
A keresőrobotok feladata, hogy bejárják a weboldalt és a weboldalról információkat adjon a kereső rendszereknek. Elemzi a weboldal technikai paramétereit, a tartalmakat, megpróbálja értelmezni miről szól az adott tartalom.
Hogy működik a keresőrobot?
Amikor létrehozunk egy új weboldalt vagy egy új tartalmat akkor linkeken keresztül vagy a webhelytérképen keresztül talál rá a keresőrobot. Ezért fontos a belső linkek jól strukturált kialakítása, amelyről már Miért nem működik a keresőoptimalizálás? cikkünkben is írtunk egy összefoglalót. A keresőrobotok megvizsgálják először, hogy van-e a weboldalon úgynevezett robots.txt fájl és ebben a fájlban mit határozott meg a weboldal tulajdonosa a feltérképezési engedélyekre vonatkozóan, továbbá ebben a fájlban helyezhető el az sitemap.xml elérhetősége is.
A robots.txt minden esetben a weboldal gyökér könyvtárában helyezkedik el. A HW Plus CMS adminisztrációs rendszerében a SEO menüpont alatt is megtalálható és szerkeszthető, így nem kell bajlódni FTP programokkal.
A keresőrobotok előre meghatározott szabályrendszer szerint indexelik a weboldalt. Fontos tudni, hogy csak azt tudják értelmezni, ami számukra látható a forráskódban. Egy a weboldalon elhelyezett képet csak abban az esetben tudja értelmezni, ha azt ALT, TITEL címkével is elláttuk. Ha a link nem egyértelmű pl., egy javascript vezérelt gomb hivatkozik a további linkre, a robot képtelen benyomni az elhelyezett gombot, így a link követése is megszakad!
Robors.txt árnyoldala
A robot.txt vel kapcsolatban nem szokták felhívni a figyelmet rá, de érdemes óvatosan megadni a tiltott elemeket. Ugyanis a robots.txt nyilvánosan elérhető, ha közvetlen meghívást kap. Mivel minden esetben a neve robots.txt és minden esetben a gyökér könyvtárban kap helyet, ezért a domain név után ha beírjuk a böngésző címsorába, hogy robots.txt máris megtekinthető https://www.hwonline.hu/robots.txt
Konkurencia elemzésnél sokszor használjuk ennek a fájlnak is az elemzését, ugyanis, ha valamit el akarunk rejteni a robotok elől, az információval is szolgálhat. Például olyan marketing anyagok, amelyek az eladást segítik, de csak bizonyos adatok megadása után elérhető. De a hackerek is előszeretettel használják, mert pl. kiderülhet belőle, hol helyezkedik el az adminisztrációs felület, vagy egy weboldal könyvtárszerkezeti struktúra is láthatóvá válhat. Tehát gondoljuk meg mi az, amit megadunk ebben a fájlban!
Milyen gyakran látogatja meg a weboldalt a keresőrobot?
A keresőrobotok egy úgynevezett feltérképezési büdzsé alapján dolgoznak, erről a Google egy külön cikket is megjelentetett.
A feltérképezési büdzsé egy olyan határérték, amely megmondja, hogy egyszerre párhuzamosan mennyi lekérést hajthat végre a Google robot, és azt mennyi időközönként teheti meg úgy, hogy az a weboldal felhasználói élményét ne rontja. Ugyanis a Google robotja is terhelést tesz a webszerverre, ha elkezdi a feltérképezést, ami akár weboldal lassulásához is vezethet, ami rontja a felhasználói élményt!
A feltérképezési büdzsé kihasználásával olyan oldalaknak kell számolnia, amelyek URL címei meghaladják a többszázezres vagy milliós nagyságrendet! Egy átlag weboldalnak vagy pár ezer URL-t tartalmazó honlapnak feltehetően nem kell foglalkoznia, kivéve, ha nem vétett pár alapvető szabályt!
Milyen hibák miatt csökkentheti a feltérképezési büdzsét a Google?
- Ha a weboldal elérési sebessége eleve lassú
- Ha webszerver sokszor áll, vagy hibákat generál
- Ha sok a 404-es hiba
- Ha sok a duplikált tartalom
- Ha sok az értéktelen gyenge URL és a rajta található tartalom
- Ha a weboldal tartalmai SPAM jellegűek
- Ha a weboldalt feltörték
Keresőrobotok IP cím listája
Weboldal elemzéshez jó ha tudjuk, milyen IP címekről érkeztek és mikor a keresőrobotok. Egy access log elemzése esetén csak azt látjuk mikor, és mit nézett meg a bizonyos IP cím. Ha különösen kíváncsiak vagyunk arra milyen tartalmakat térképeztek fel a robotok akkor ebből a listából összehasonlíthatjuk az IP címeket.
Továbbá akkor is jó tudni az IP címeket, ha a weboldal elérhetőségét IP cím tiltással is korlátozzuk. Ha esetleg, egy feltérképező robot IP címét korlátozzuk, azzal az oldalt teljesen kizárhatjuk a keresőrendszerekből.
A google keresőrobotja általánosságban a 66.249 es kezdetű IP címről érkezik!
A Googlebot ellenőrzése a Google súgója szerint.
Google: Googlebot
IP - től | IP - ig |
---|---|
64.233.160.0 | 64.233.191.255 |
66.102.0.0 | 66.102.15.255 |
66.249.64.0 | 66.249.95.255 |
72.14.192.0 | 72.14.255.255 |
74.125.0.0 | 74.125.255.255 |
209.85.128.0 | 209.85.255.255 |
216.239.32.0 | 216.239.63.255 |
Bing: BingBot
IP - től | IP - ig |
---|---|
104.146.0.0 | 104.146.63.255 |
104.146.100.0 | 104.146.103.255 |
104.146.104.0 | 104.146.111.255 |
104.146.112.0 | 104.146.112.255 |
104.146.113.0 | 104.146.113.255 |
MSN keresés / Live keresés: MSNBot
IP - től | IP - ig |
---|---|
64.4.0.0 | 54.4.63.255 |
65.52.0.0 | 65.55.255.255 |
131.253.21.0 | 131.253.47.255 |
157.54.0.0 | 157.60.255.255 |
207.46.0.0 | 207.46.255.255 |
207.68.128.0 | 207.68.207.255 |
Baidu: Baidu robot
IP - től | IP - ig |
---|---|
103.6.76.0 | 103.6.79.255 |
104.193.88.0 | 104.193.91.255 |
106.12.0.0 | 106.13.255.255 |
115.231.36.136 | 115.231.36.143 |
115.231.36.144 | 115.231.36.159 |
Yahoo: Yahoo Slurp
IP - től | IP - ig |
---|---|
8.12.144.0 | 8.12.144.255 |
66.196.64.0 | 66.196.127.255 |
66.228.160.0 | 66.228.191.255 |
67.195.0.0 | 67.195.255.255 |
68.142.192.0 | 68.142.255.255 |
72.30.0.0 | 72.30.255.255 |
74.6.0.0 | 74.6.255.255 |
98.136.0.0 | 98.139.255.255 |
202.160.176.0 | 202.160.191.255 |
209.191.64.0 | 209.191.127.255 |
Baidu: Baidu robot
IP - től | IP - ig |
---|---|
103.6.76.0 | 103.6.79.255 |
104.193.88.0 | 104.193.91.255 |
106.12.0.0 | 106.13.255.255 |
115.231.36.136 | 115.231.36.143 |
115.231.36.144 | 115.231.36.159 |