Invisible Web
Termin niezwykle trudny do zdefiniowania. Nie jest to bowiem żaden konkretny twór, nie ma również specyficznej lokalizacji w globalnej sieci. Pojawił się właśnie dlatego, że w praktyce wyszukiwania informacji okazało się, iż strony, które są wyszukiwane przez wyszukiwarki internetowe, stanowią zaledwie 1/500 całkowitych zasobów Internetu. Strony tekstowe, pliki lub inne, zwykle bardzo wartościowe merytorycznie informacje dostępne poprzez sieć WWW, których nie indeksują i nie wyszukują wyszukiwarki internetowe ( ang. Public serach engines). Zasoby te nazywane są także Deep Web ( Głęboka Sieć) bądź też ,,dark master" (ciemna materia). Główna różnica widzialnego i niewidzialnego to różnica w poziomie merytorycznym. Widzialne nie podlegają często kontroli merytorycznej, językowej i bibliograficznej; wiele do życzenia pozostawia także ich aktualność. Ukryty Internet to w większości różnorodne bazy danych, archiwa, serwisy on-line zorganizowane w postaci hierarchicznej struktury w których dane są prawidłowo zaindeksowane. Informacje w bazach zawarte znajdują się pod kontrolą specjalistów dziedzinowych, profesjonalne- zgodne z zasadami języka i stanem badań oraz z zachowaniem praw autorskich. Dostęp do tych zasobów może być płatny.
- Znajdujemy w nim:
- Pełnotekstowe przeglądy czasopism naukowych
- Zarchiwizowane artykuły z prasy codziennej
- Abstrakty naukowe
- Archiwa grup dyskusyjnych
- Fachowe słowniki i encyklopedie
- Obrazy, pliki audio i wideo, pliki graficzne
- Programy oraz bazy teleadresowe W ukrytym Internecie istnieją takie źródła informacji jak Dialog, LexisNexis, Dow - Jones News Retrieval
Dlaczego istnieje ukryty Internet?
- Większość przyczyn jego istnienia wiąże się z budową mechanizmów wyszukująco - indeksujących w wyszukiwarkach internetowych
- Wyszukiwarki zbierają strony do zaindeksowania metodą wędrówki po łączach hipertekstowych
- Połączone siecią odnośników strony tworzą twór zwany grafem
- Struktura grafu nigdy nie jest dokładnie znana, nie można opracować algorytmu, który niezawodnie wyszuka i zaindeksuje wszystkie witryny internetowe
- Roboty obsługujące poszczególne wyszukiwarki wybierają różne drogi w grafie, dlatego też każda z nich rejestruje różne zbiory
- Przeszukiwanie Internetu metodą grafu sprawia, że roboty nie są w stanie dotrzeć do stron, do których nie prowadzą odsyłacze z innych witryn
- Żaden mechanizm nie jest doskonały - z tego powodu zdarzają się przypadki ,,zagubienia" zaindeksowanych stron w bazach wyszukiwarekwięcej >>