Documente noi - cercetari, esee, comentariu, compunere, document
Documente categorii

World Wide Web - Concepte fundamentale ale web-ului, Motoare de cautare pe web

World Wide Web


Web-ul reprezinta segmentul multimedia al Internetului, care desi este numai unul dintre numeroasele sisteme folosite on-line pentru a regasi si transfera informatia, a devenit prin usurinta utilizarii si bogata interfata grafica, cel mai popular segment Internet si cel mai promitator rezultat pentru lumea afacerilor.

WWW- ul este cel mai mare rezervor de informatie electronica din lume. El consta dintr-o colectie de milioane de documente multimedia legate intre ele, aflate pe calculatoare raspandite in lumea intreaga. Legarea documentelor prin intermediul hypertext-ului faciliteaza localizarea acestora, precum si comutarea de la o pagina la alta, permitand regasirea de informatii fara a mai fi nevoie de un index principal al informatiilor din Internet. Bogatia multimedia si usurinta in utilizare a condus la explozia fenomenala a acestei "panze de paianjen", ea reprezentand in fapt cea mai intens folosita arie Internet de catre toate categoriile de utilizatori.




1. Concepte fundamentale ale web-ului


Din punct de vedere al utilizatorului, Web-ul consta dintr-o colectie imensa de documente multimedia (care includ pe langa text, imagini grafice, imagini video si sunet) raspandite in toata lumea, stocate in serverele WEB, numite pagini. Fiecare pagina contine legaturi la alte pagini aflate oriunde in lume, utilizandu-se tehnologia hipertext.

Pentru a avea acces la aceasta aplicatie trebuie cunoscute conceptele fundamentale cu care aceasta opereaza:

Browser - este un program pentru deplasarea prin World Wide Web, o aplicatie de "rasfoire" a continutului unui server Web. Browser-ul lanseaza cererile catre server si ofera documentul solicitat utilizatorului. Cele mai cunoscute programe de navigare sunt: Mosaic, Netscape, Microsoft Internet Explorer si Lynx. Programul de navigare aduce pagina ceruta, interpreteaza textul si comenzile de formatare continute in text si afiseaza pagina formatata corespunzator pe monitor.

Hipertext - este documentul multimedia distribuit pe mai multe masini, cu care se lucreaza atunci cand se utilizeaza o aplicatie Web. Cititorul poate sa aleaga doar acele  cuvinte sau fraze ce prezinta interes sau poate selecta o pictograma sau buton de selectie. Hipertextul permite astfel legatura catre un alt loc din cadrul documentului sau alta locatie din Internet. Sistemul hipertext poate afisa si informatii multimedia in plus fata de text alcatuind astfel un sistem hipermedia.

Hiperlegaturi - este un tip de punctator in documentele Web, vizibil pe ecranul navigatoarelor Internet si reprezinta comenzi de inserare a legaturilor in documente catre alte documente sau figuri. Hiperlegaturile au doua capete: unul face referire la articolul solicitat iar celalalt este "ancora" format dintr-un cuvant, grup de cuvinte sau figura ce se afiseaza in documentul gazda.

URL (Universal Resource Locator - Localizator universal de resurse) - permite codificarea unui identificator de adresa pentru fiecare document Web si care consta dintr-un sir de caractere ce identifica tipul si locul resursei. Fiecare pagina are un URL care functioneaza ca nume al paginii general valabil. Un URL are trei componente: protocolul, numele DNS al masinii pe care este memorat fisierul (tip *.htm sau *.html) si un nume local care indica in mod unic pagina. De exemplu http://express.com/mihnea/index.htm, unde protocolul este http, numele DNS al serverului este express.com si numele fisierului impreuna cu directorul de pe serverul respectiv: mihnea/index htm. Functionarea hipertextului implica ca la selectia unei portiuni de text sa se furnizeze doua elemente: textul prin care se face selectia si URL-ul paginii care trebuie incarcata. In ciuda tuturor avantajelor, cresterea Web-ului a evidentiat si o slabiciune a utilizarii URL-urilor. Pentru o pagina care este foarte des referita, ar fi de preferat sa existe mai multe copii ale documentului pe servere diferite, pentru a reduce traficul in retea. Problema este ca URL-urile nu ofera nici o posibilitate de indicare a unei pagini fara specificarea locului unde se gaseste aceasta.



HTTP (HyperText Transfer Protocol - Protocolul de transfer pentru hipertext) este un protocol de nivel superior in arhitectura TCP/IP pentru transferul documentelor multimedia pe Web si consta din doua tipuri de elemente: multimea cererilor de la programele de navigare catre servere si o multime de raspunsuri care merg in sens invers. Toate versiunile noi de HTTP suporta doua tipuri de cereri: simpla - o linie GET in care se indica pagina dorita fara specificarea versiunii de protocol (GET/hypertext/www/Project.htm) si completa - unde este prezent si protocolul in linia GET (GET/hypertext/www/Project.htmlHTTP/1.0)

Home Page (Pagina de domiciliu sau pagina gazda) reprezinta prima pagina a unui document spre care utilizatorii aplicatiei Web isi pozitioneaza hiperlegaturile. Mai multe pagini de web adunate intr-un sistem ierarhic si care au o caracteristica comuna formeaza un web site[1]. O pagina web contine trimiteri sau ancore care leaga pagina curenta cu o alta, inlesnind rasfoirea site-ului respectiv sau cu o alta pagina de pe alta masina cuplata la Internet, text obisnuit si hipertext, iconite, desene, harti, fotografii, inregistrari audio, video, formulare care cer utilizatorilor sa introduca informatii. Daca paginile hipertext sunt combinate cu alte tipuri  de pagini, rezultatul se numeste hipermedia.

HTML (HyperText Markup Language) este o aplicatie SGML (Standard Generalized Markup Language - limbajul standard generalizat de marcare) specializata pentru hipertext si adaptat la Web. Paginile de Web sunt scrise in limbajul HTML - limbaj de marcare hipertext care descrie cum trebuie sa fie formatate textele - ce permite utilizatorilor sa produca pagini care includ texte, grafica si legaturi la alte pagini. Avantajele utilizarii unui limbaj de marcare fata de unul in care nu se utilizeaza marcarea explicita consta din faptul ca este simplu de scris pentru un program de navigare care sa interpreteze comenzile de marcare. O pagina corect formatata contine o zona de cap (head), capul fiind cuprins intre marcajele <HEAD> si </HEAD> si o zona de corp (body), corpul fiind intre marcajele <BODY> si </BODY>, cuprinse intre tag-urile <HTML> si </HTML>. Marcajele pot fi scrise cu litere mici sau mari, aplicarea formatelor de caractere si a formatelor de paragraf folosind HTML fiind niste operatiuni tehnice de asociere foarte simple.



Crearea paginilor Web statice se poate realiza cu editoare simple, de tipul WYSMWING (What You See Is What You Get, "obtii la imprimare ceea ce vezi"), cu optiuni de hipertext, utilizand Netscape Composer sau FrontPage din Microsoft Office. De regula se folosesc functiile de Wizard pentru crearea si adaugarea de hiperlegaturi, care sunt referirile alte adrese URL. Locul indicat de o legatura se numeste tinta care poate fi o alta pagine Web dar si o imagine, un clip sonor sau chiar un clip video. Utilizand HTML se pot afisa pagini Web statice, iar folosind mecanismul de script-uri CGI[2] exista si posibilitatea limitata de a avea interactiune in dublu sens (cerere - raspuns). Interactiunea rapida cu pagini dinamice scrise HTML sau pagini Web puternic interactive se realizeaza cu ajutorul limbajului Java, limbaj de programare dezvoltat de Sun Microsystem care aduce in Web interactivitatea si animatia. HotJava este numele interpretorului pentru Java folosit pentru citirea si interactionarea cu programele Java.


2 Motoare de cautare pe web


O problema majora pe care o au utilizatorii Internet-ului este dimensiunea uriasa pe care o are aceasta retea. O noua abordare in privinta descompunerii resurselor, presupune programe care parcurg serverele Web cautand URL-uri relevante. In ultimul timp au aparut o serie de programe utile in privinta catalogarii si indexarii miilor de servere Web si a URL-urilor corespunzatoare. In aceasta categorie de programe si baze de date pot fi evidentiate urmatoarele motoare de cautare: AliWeb, Yahoo, MSN, Excite, Altavista, Infoseek, Nikos, The World Wide Web Worm, MetaCrawler, Lycos etc. Pentru referirea la un subiect concret se folosesc mai multe metode de cautare. Diferitele instrumente dispun de metode de cautare variate si este posibil ca o anumita resursa sa nu fie inregistrata in toate bazele de date on-line. Robotii lucreaza in moduri diferite unii fata de altii, in mod curent fiind folositi algoritmi de baleiere a grupurilor USENET si a paginilor cu anunturi, precum si urmarirea legaturilor URL, in care hiperlegaturile URL dintr-o pagina sunt urmarite pentru a vedea destinatiile, precum si daca acestea sunt vizitate sau nu. Pe Internet se gasesc si un numar de baze de date cu URL-uri on-line. Dintre acestea fac parte imensa biblioteca de la CERN (Consiliul European de Cercetari Nucleare) si serverele EINET Galaxy si Global Network Navigtor (GNN).



Un aspect ce poate crea confuzie este determinat de faptul ca multe servicii par a utiliza o combinatie de programe robot si de baze de date dinamice. A permite unui robot sa execute o cautare in timp real pentru fiecare cerere din retea ar avea un impact negativ asupra retelei-suport a programului. De aceea robotii sunt folositi in perioada de utilizare minima a retelei, iar rezultatele cautarii sunt stocate in baze de date pe care utilizatorul le interogheaza direct. Instrumentele de cautare sunt folosite in principal pentru regasirea resurselor Internet pe baza de subiecte (de exemplu utilizatorul poate folosi un astfel de serviciu pentru cautarea resurselor ce se ocupa de marketing, legislatie, cultura), pentru multe dintre aceste instrumente existand si cautari mai rafinate cu ajutorul operatorilor logici AND si OR (de exemplu se pot cauta termenii law AND computer, rezultatul fiind documentele care se ocupa de ambele domenii).

In principal, motoarele de cautare sunt de doua feluri: tip cuvinte-cheie si tip Yellow Page. Motoarele de cautare tip cuvinte-cheie ofera servicii ce pot fi accesate la adresele: URL http://www.infoseek.com, URL http://www.altavista.digital.com, URL http://www.lycos.com. Motoarele de tip Yellow Page contin informatia organizata intr-o structura arborescenta pe domenii si subdomenii. Astfel de motoare pot fi gasite la adresele urmatoare:URL http://www.bigbook.com, URL http://www.yahoo.com, URL http://www.romanians.com.

Metodele de cautare sunt: arborescenta (directory), mecanism de cautare (search engine), o combinatie intre tipurile arborescent si mecanism de cautare (directory/search engine), multi-mecanism (multi-engine).



[1] Orzan, Gh., Sisteme informatice de marketing, Editura Uranus, 2001, pag. 159

[2] CGI - Common Gateway Interface - interfata comuna de conversie - este un standard pentru tratarea datelor din formulare, prin realizarea interactiunii intre serverul WEB si programul de aplicatie

biologie

botanica






Upload!

Trimite cercetarea ta!
Trimite si tu un document!
NU trimiteti referate, proiecte sau alte forme de lucrari stiintifice, lucrari pentru examenele de evaluare pe parcursul anilor de studiu, precum si lucrari de finalizare a studiilor universitare de licenta, masterat si/sau de doctorat. Aceste documente nu vor fi publicate.