|
Serviciul World Wide Web
Serviciul World Wide Web asigura cautarea si regasirea de informatii de la o anumita adresa si functioneaza pe o structura speciala denumita hipertext sau hipermedia. Acest serviciu este organizat ca o retea de informatii.
Internetul este o colectie de retele de calculatoare ce conecteaza diferite zone ale lumii, serviciul World Wide Web este o tehnologie client-server folosita pentru a accesa o varietate imensa de informatii digitale aflate pe Internet si totodata o colectie de retele de informatii. Folosind un software client, denumit program de navigatie sau browser, cum ar fi Microsoft Internet Explorer, Netscape Navigator sau Mozzila Firefox si o conexiune la un provider Internet (ISP - Internet Service Provider) se poate accesa cu usurinta orice pagina de Web.
Web-ul a aparut in 1989 ca
rezultat al eforturilor de cercetare de la European
Laboratory for Particle Physics (CERN) din
http://www.w3.org/pub/WWW/sunt furnizate informatii numai despre Web.
Serviciul Web este legat de standardul HTML (HyperText Markup Language) care permite ca informatiile sa poata fi citite universal. Web-ul foloseste tehnicile hipertext si multimedia pentru a face informatia mai usor accesibila si atractiva. Natura multimedia a Web-ului deschide noi oportunitati pentru tehnicile educationale si pentru mijloacele de pregatire.
Sursele de informatie pentru Web sunt documentele hipermedia construite din pagini si denumite site-uri web. Serviciul Web se constituie ca o imensa baza de documente si informatii.
Adresarea tuturor documentelor Web se face cu un URL a carui forma este:
http://nume_server_WWW/director/subdirector .../nume_fisier.extensie
1 Hipertext si hipermedia
Termenii de hipertext si hipermedia au cunoscut o mare recunoastere datorita Internet-ului si World Wide Web-ului, intelegerea lor, a modului lor de functionare sta la baza conceperii sau citirii documentelor Web. Datorita acestor noutati tehnologice, documentul pe hartie este transpus intr-o noua structura a carei componenta de baza este legatura sau link-ul.
Ideea de hipertext a aparut initial in cercetarea documentara si ea a fost enuntata prima oara de Vannevar Bush, in 1945, care a remarcat sistemele de indexare si organizare a informatiei utilizate de comunitatea stiintifica. Atat hipertextul cat si hipermedia sunt medii multiple care permit ghidarea structurata si exploatarea unui volum mare de cunostinte si informatii.
Documentul multimedia pe Web denumit si site web se bazeaza pe o structura hipertext sau hipermedia compusa, in principal, din pagini descrise in limbajul HTML si din legaturi intre aceste pagini. Crearea de documente pe reteaua web este legata de standardul denumit HTML (HyperText Markup Language) ce permite structurarea si transferul acestora pe diferite platforme calculator. Paginile si legaturile ce definesc structura "hiper" a documentului web sunt descrise prin limbajul HTML cu ajutorul unor marcaje sau etichete. Continutul paginilor poate fi textual, imbogatit cu elemente multimedia (grafica, sunet, video) sau formulare de interactiune, dar si cu informatii de structurare si de prezentare.
Definite din punct de vedere matematic, atat hipertextul cat si hipermedia sunt medii "n dimensionale", adica "text la n dimensiuni" si respectiv "mediu la n dimensiuni". Din punct de vedere a Web-ului, hipertextul sau hipermedia este modalitatea specifica de a structura si a consulta documente. Pe acest considerent, Web-ul este considerat o mare baza de documente a carei organizare nu este insa ordonata pe principiile unei baze de date obisnuite.
Hipertextul si hipermedia sunt moduri de organizare a informatiei, cu particularitatea ca pot lega diferite parti ale informatiei, unele cu altele, intr-o anumita logica. Informatia manevrata printr-un sistem "hiper" este divizata in noduri, intre care se stabilesc anumite legaturi. Fiecare nod reprezinta un anumit tip de informatie, iar modul tipic de acces la informatie in acest sistem este unul foarte cunoscut, denumit navigare.
Hipermedia s-a dezvoltat prin imbogatirea cu elemente de multimedia a structurii hipertext si ea desemneaza o retea de texte si medii de natura diferita, ca noduri informationale interconectate, prin care utilizatorul se poate deplasa cu usurinta, de obicei, punctand cu mouse-ul o succesiune de legaturi in urmarirea unei anumite idei. Tehnicile hipertext si hipermedia sunt caracterizate prin capacitatea pe care o ofera utilizatorului de a accesa informatia, de "a naviga" in interiorul documentelor intr-o maniera intuitiva datorita legaturilor.
Componentele de baza ale structuri "hiper"sunt nodul informational si legatura (sau link-ul) prin care se construiesc sistemele si se face cautarea informatiilor. Nodurile informationale sunt de natura textuala sau multimedia iar legaturile sunt conexiuni intre aceste elemente.
Legaturile pot fi de natura diferita dupa pozitia punctului lor de pornire (ancora) si a celui de sosire. Astfel, legaturile pot fi interne si externe. Legaturile interne se stabilesc intre doua noduri informationale ce se gasesc in cadrul aceluiasi fisier HTML si legaturile externe se stabilesc intre doua noduri informationale ce se gasesc in cadrul a doua fisiere diferite
Dupa modul in care se leaga paginile unui site web intre ele putem avea structurile hipertext sau hipermedia de navigatie de tip liniar, ierarhic sau de tip graf.
Fig. Structura hipermedia a unui site web
Sistemele hipermedia si hipertext pot furniza cai de navigare unidirectionale si bidirectionale. Cea mai simpla si cunoscuta modalitate de navigare prin structurile "hiper", este cea prin butoane, modalitate care permite accesul usor la informatia continuta in nodurile retelei.
Crearea si functionarea acestor structuri se bazeaza pe anumite principii. Principiile care stau la baza construirii retelor de informatii tin cont, in primul rand, de scopul final al acestora, de identificarea celor mai multe dintre posibilitatile de cautare si de regasire a informatiei. Aceste principii sunt:
principiul metamorfozei, care arata ca reteaua hipertext si hipermedia este intr-o permanenta constructie, adaptandu-se continuu cerintelor de dezvoltare, reconfigurare si regasire a informatiei;
principiul eterogenitatii conform caruia se arata ca se folosesc componente informationale de natura diferita (eterogena), ce se pot regasi pe numeroase tipuri de suport de transmitere a mesajelor;
principiul multiplicitatii si al urmarii pas cu pas demonstreaza ca nu exista doar un singur si nici unic punct de inceput de unde se poate parcurge reteaua de informatii "hiper". Oricare punct, nod al retelei poate fi considerat, la un anumit moment dat, nodul de origine al cautarii, dupa care se stabileste traseul de parcurgere a structurii. Acest traseu nu este de la inceput stabilit, ci el se configureaza treptat, pornind de la nodul initial. "Multiplicitatea" arata ca mai multe noduri pot fi considerate deodata puncte de origine.
principiul exterioritatii arata ca reteaua de date are o unitate organica, dar faciliteaza si deplasarea spre exterior, miscarea, legarea cu alte componente si date care nu fac parte din structura sa;
principiul topologic enunta faptul ca reteaua este intr-o permanenta constructie, readaptare si redefinire de cai de navigatie si noduri;
principiul mobilitatii centrelor arata ca reteaua "hiper" nu are un singur centru (idee principala) ce o caracterizeaza, ci oricare element al sau poate lansa, la un anumit moment dat, o idee principala, un centru. Acest principiu, arata ca reteaua "hiper" este o retea contextuala care se modifica si se adapteaza cadrului de citire a informatiilor.
Regasirea informatiei in sistemele hipermedia sau hipertext se bazeaza pe metode care iau in considerare anumite aspecte ale informatiei.
2 Software Web
Atat softul necesar crearii cat si cel destinat citirii documentelor, site-urilor Web este legat de limbajul HTML (HyperText Markup Language). Acesta este constituit dintr-o serie de etichete ce clarifica structura documentului.
Parcurgerea structurii hipermedia a documentului Web se realizeaza printr-un soft de navigare, cunoscut si sub denumirea de browser, care citeste codul HTML al paginilor Web, il interpreteaza si apoi, afiseaza continutul pe ecran impreuna cu informatia sa de prezentare. Cele mai folosite browser-e sunt: Internet Explorer si Netscape Navigator. Facilitatile de editare si de navigare a informatiei web se pot gasi in acelasi pachet software sau in pachete specifice. Pentru a putea reda elementele multimedia din paginile documentului Web, browser-ii sunt insotiti de programe sofware suplimentare, cum ar fi: viewer ele si player-ele corespunzatoare diferitelor formate de fisiere. Astfel de programe sunt: Real Player, WinAmp, Video for Windows, QuickTime si altele.
Crearea de documente sau site-uri Web se realizeaza cu programe de editare HTML, cum ar fi: Netscape Composer, Microsoft FrontPage, Backstage Designer, Macromedia Dreamweaver. In plus, numeroase editoare de text cunoscute sunt capabile sa faca o conversie a documentului creat in format propriu catre un format HTML. Crearea codului HTML este realizata prin interfete grafice ce detin meniuri, instrumente de fixare a etichetelor sau prin introducerea propriu-zisa a etichetelor HTML. Performantele editoarelor HTML se judeca in functie de posibilitatile oferite.
Programe de navigare, browsere
Prin programele de navigare, denumite si browsere se va citi si se va parcurge din aproape in aproape, informatia hipermedia, intr-un mod, facil pentru utilizator. Inceperea citirii de informatii se face precizand adresa, URL-ul acestora. De obicei, intrarea intr-un site Web se face prin specificarea adresei paginii sale de inceput, cunoscuta si ca home page. Adresa paginii home page, denumita si index, este asimilata ca adresa a intregului site, de la acest punct considerandu-se cuprinsul general al site-ului. Este posibil, insa sa se intre in site din orice alta pagina a acestuia, precizandu-i-se adresa.
Adresa informatiilor cautate se va tasta in dreptul optiunii Location sau Address din fereastra browser-ului. Ajuns la aceasta adresa, serverul va comunica cu browserul pentru a transfera informatia gasita. Toate paginile deschise din site-urile parcurse de catre un browser constituie o lista, un istoric. Acest istoric poate fi derulat, generand afisarea in ordine inversa a paginilor deschise, prin alegerea icon-ul Back sau a icon-ului Forward
Modul de lucru in browser-e diferite nu este modificat. Este suficient sa se urmareasca cuvintele considerate ancora care declanseaza legaturi, pentru a citi intregul site. Exista, insa, diferente intre browser-e in ceea ce priveste citirea si interpretarea anumitor etichete HTML. Acest fapt duce la vizualizarea modificata a unei pagini intr-un browser fata de un altul sau chiar la eliminarea unor elemente de continut.
Fig. Interfata de comenzi si instrumente oferita de Netscape Navigator
pentru citirea informatiei Web
Fig. Interfata de comenzi si instrumente oferita de Internet Explorer
pentru citirea informatiei Web
Capacitatile unui browser sunt masurate dupa posibilitatile cat mai mari in a interpreta cod HTML. De aceea, paginile Web trebuie sa fie scrise in conformitate cu standardele din domeniu, construite de World Wide Web Consortium:
3 Modalitati de cautare
Cea mai simpla cale de a accesa informatie pe Web este atunci cand se cunoaste adresa acesteia. Totusi, exista numeroase site-uri care contin acelasi tip de informatie si a caror adresa nu o cunoastem. De aceea, calea cea mai obisnuita de a cauta si accesa informatie prin Web este apeland la motoare de cautare, directoare de subiecte, metamotoare de cautare (meta search engines), biblioteci virtuale WWW. Localizarea anumitor informatii pe web prin modalitatile amintite se bazeaza pe numeroase instrumente si tehnici de cautare. Procesul si tehnica folosite vor influenta rezultatul obtinut in urma cautarii.
Un numar de site-uri si-au dezvoltat mecanisme pentru localizarea de informatii pe web. Aceste site-uri sunt cunoscute ca instrumente de cautare, de adunare de informatii de pe alte siteuri web, de organizare si de clasificare a informatiei. Instrumentele de cautare care furnizeaza utilizatorilor liste de site-uri dupa tematica: art, education, science, business,.. sunt denumite directoare de cautare. Categoriile furnizate sunt foarte folositoare, dar ele nu ofera un nivel complet de detaliere. In plus, numarul de categorii creste din ce in ce mai mult. De aceea, sunt mai eficiente instrumentele care fac cautarea paginilor Web dupa un anumit criteriu. Aceste instrumente sunt motoarele de cautare si furnizeaza rezultatul pe baza unor cuvinte cheie. Toate site-urile ce contin cuvantul cheie cautat si se gasesc in zona de cautare a motorului, vor fi listate. In aceasta lista, cu un numar foarte mare de iteratii, o parte din rezultate nu sunt fiabile. Se impune ca solutie folosirea mai multor chei de cautare.
In plus, fiecare motor de cautare cerceteaza un numar limitat de site-uri web, respectiv numai pe acelea din baza lor de informatii. Adaugarea unei inregistrari in baza de site-uri se face la cererea formulata de creatorii site-urilor sau printr-un proces electronic de adaugare a site-urilor. Daca aceste procese nu se produc, site-ul respectiv nu se poate activa decat prin mentionarea in clar a adresei sale. Actualitatea si acuratetea datelor dintr-un site nu este garantata, oricine putand pune informatii pe web.
Cautarea pe Internet prin serviciul Web incepe de cele mai multe ori cu adresa unei masini sau a unui director de cautare. Cele mai cunoscute astfel de siteuri sunt:
http://www.yahoo.com
http://www.rol.ro
http://www.w3.org/vl/
http://www.cauta.ro
http://www.webcrawler.com
http://www.infoseek.com
http://altavista.digital.com
http://www.hotbot.com
http://www.excite.com
Dupa cum se poate constata, regasirea informatiei pe Web se imparte intre directoarele si motoarele de cautare.
Directoarele Web, cum este Yahoo, afiseaza informatia pe categorii si dau liste de site-uri cheie cu care se poate incepe cautarea. Daca se cauta o informatie de interes general, un director Web este cel mai bun loc pentru a incepe. Cele mai multe dintre directoare includ si scurte descrieri pentru fiecare site si te conduc la pagina home a acestora.
Motoarele de cautare, cum sunt: Altavista, Lycos, HotBot folosesc programe denumite "spiders" sau "bots" ce urmaresc legaturile de la pagina la pagina, inregistrand o parte sau tot continutul fiecarei pagini prin care trec. Prin urmare, pentru a cauta un anumit concept specific sau o fraza, sau orice ce nu este bine categorisit se folosesc motoarele de cautare.
Cautarea prin cuvinte cheie este determinata de facilitatea principala a Web-ului care este cautarea bazata pe indecsi si pe text. Din acest punct de vedere, se mai pot alege si alte solutii de cautare, cum ar fi: metadirectoarele, bibliotecile virtuale, ghidurile web.
Metamotorul de cautare reprezinta un director de motoare de cautare si constituie o metoda foarte cunoscuta de localizare a unui site web. Site-urile rezultate contin descrieri care ajuta la identificarea informatiei dorite. Iata cateva exemple:
InterNIC
http://www.internic.net
Mamma
http://www.mamma.com
All-in-One
http://www.All-in-One.com
MetaCrawler
http://www.metacrawler.com
Tehnici avansate de cautare
O alta problema a cautarii pe Web este alegerea si folosirea potrivita a cuvintelor cheie.
Cautarea bazata pe criterii multiple
logica booleana care permite includerea de operatori OR, AND si NOT intre cuvintele cheie, in procesul de cautare si rafinare a rezultatului;
cautarea bazata pe proximitate inchide cuvintele cautate intre ghilimele, "cuvintele cautate". Aceste cuvinte vor fi luate in considerare toate, in ordinea in care au fost puse, ca si cum ar fi un singur cuvant.
criteriul "+". Acest criteriu este apelat de anumite motoare de cautare, ca de exemplu, Excite. Criteriul "+" se pune intre cuvintele cheie multiple, dupa care se face cautarea. De exemplu: + web + advertising .
fiecare motor de cautare are metode si criterii proprii pentru cautarea si rafinarea rezultatelor si se folosesc in functie de necesitati.
De retinut pentru cautarea de informatii prin Web:
Un director de cautare clasifica informatia pe tematici si domenii organizate de persoane sau institutii, furnizand categorii mai potrivite cu necesitatile utilizatorilor;
Un motor de cautare se foloseste de cuvinte cheie in organizarea si regasirea informatiei. Cuvintele cheie se combina pe criterii avansate de cautare. Bazele de site-uri constituite dupa cuvinte cheie sunt organizate automat cu ajutorul unor componente soft, denumite spider-i.
Un metamotor este un director de motoare de cautare. Site-urile listate contin descrieri foarte folositoare pentru utilizator.
Ghidurile web furnizeaza un serviciu pentru evaluarea site-ului web sau o lista de site-uri web bine cotate dupa design si continut.
Biblioteca virtuala WWW este o colectie de resurse informatie organizate dupa subiectul specificat. Informatiile sunt intretinute de persoane sau organizatii. Identificare lor este diferita, dar cel mai simplu este prin ghidul bibliotecii virtuale WWW distribuit prin Universitatea Stanford;
Pentru o buna si completa cautare a unui subiect sau cuvant cheie se recomanda folosirea mai multor directoare si motoare de cautare. De fiecare data vom gasi alte rezultate ale cautarii deoarece, fiecare instrument este capabil sa caute informatie doar intr-o anumita baza de date ce contine site-uri diferite.
Tema: