Ang pag-index ay ang proseso ng pag-scan ng mga file na matatagpuan sa isang mapagkukunan sa Internet ng isang robot sa paghahanap. Isinasagawa ang pamamaraang ito upang ang site ay magagamit sa mga resulta ng paghahanap para sa iba't ibang mga query sa search engine. Kabilang sa pinakamalaking mga search engine ngayon ay ang Yandex, na nagsasagawa ng pag-scan na ito sa sarili nitong pamamaraan.
Panuto
Hakbang 1
Ang pag-index ng site ng Internet ay isinasagawa ng mga espesyal na awtomatikong programa - mga robot sa paghahanap, na awtomatikong sinusubaybayan ang hitsura ng mga bagong site sa World Wide Web, na patuloy na pag-scan ng mga pahina ng Internet na matatagpuan sa Internet, mga file at mga link sa mga ito sa bawat mapagkukunan.
Hakbang 2
Upang mag-scan, ang robot ay papunta sa direktoryo kung saan matatagpuan ang mapagkukunan sa isang partikular na server. Kapag pumipili ng isang bagong site, ang robot ay ginagabayan ng pagkakaroon nito. Halimbawa
Hakbang 3
Ang robot ay nagna-navigate sa site at ini-scan ang istraktura nito, unang naghahanap ng mga file na nagsasaad ng karagdagang paghahanap. Halimbawa, ang isang site ay na-scan para sa Sitemap.xml o robots.txt. Maaaring gamitin ang mga file na ito upang maitakda ang pag-uugali ng robot sa paghahanap kapag nag-scan. Gamit ang sitemap (sitemap.xml), nakakakuha ang robot ng isang mas tumpak na ideya ng istraktura ng mapagkukunan. Gumagamit ang webmaster ng robots.txt upang tukuyin ang mga file na hindi niya nais ipakita sa mga resulta ng paghahanap. Halimbawa, maaaring ito ay personal na impormasyon o iba pang hindi ginustong data.
Hakbang 4
Na-scan ang dalawang dokumentong ito at natanggap ang mga kinakailangang tagubilin, nagsisimula ang robot na i-parse ang HTML code at iproseso ang mga natanggap na tag. Bilang default, sa kawalan ng isang file na robots.txt, sinisimulan ng search engine ang pagproseso ng lahat ng mga dokumento na nakaimbak sa server.
Hakbang 5
Sa pamamagitan ng pag-click sa mga link sa mga dokumento, nakakatanggap din ang robot ng impormasyon tungkol sa iba pang mga site na nakapila para sa pag-scan na sumusunod sa mapagkukunang ito. Ang mga na-scan na file sa site ay nai-save bilang isang kopya ng teksto at istraktura sa mga server sa mga sentro ng data ng Yandex.
Hakbang 6
Ang pangangailangan para sa muling pag-scan ay awtomatikong natutukoy din ng mga robot. Inihambing ng programa ang mayroon nang resulta ng pag-scan sa na-update na bersyon ng site kapag dumaan ito muli sa pag-index. Kung ang data na natanggap ng programa ay magkakaiba, ang kopya ng site ay na-update sa server ng Yandex din.