Mindent tudni akarok

Internetes archiválás

Pin
Send
Share
Send


Internetes archiválás a világháló egyes részeinek összegyűjtése és annak biztosítása, hogy a gyűjtemény egy archívumban, például archívumban megmaradjon, a jövőbeli kutatók, történészek és a nyilvánosság számára. Az Internet hatalmas mérete miatt a webes archiválók általában webbejárókat alkalmaznak az automatikus gyűjtéshez. A legnagyobb bejárási megközelítésen alapuló internetes archiválási szervezet az Internet Archive, amely a teljes web archívumának fenntartására törekszik. A nemzeti könyvtárak, nemzeti levéltárak és a szervezetek különféle konzorciumai is részt vesznek a kulturális szempontból fontos webtartalom archiválásában. Kereskedelmi internetes archiválási szoftver és szolgáltatások azoknak a szervezeteknek is elérhetők, akiknek jogi vagy szabályozási célokra kell archiválniuk saját webtartalmukat.

Mivel a webhelyek gyakran szerzői jogvédelem alatt állnak, az internetes archiválás során figyelembe kell venni a jogi és társadalmi kérdéseket. A webes környezet globális jellege miatt összetett kérdések merülnek fel.

Az internet gyűjtése

A webes levéltárak általában archiválnak minden típusú webtartalmat, ideértve a HTML weboldalakat, stíluslapokat, JavaScriptet, képeket és videókat. Arról is összegyűjtik a gyűjtött erőforrások metaadatait, mint például a hozzáférési idő, a MIME típus és a tartalom hossza. Ez a metaadat hasznos az archivált gyűjtemény hitelességének és eredetének megállapításához.

A gyűjtés módszerei

Távoli betakarítás

A leggyakoribb internetes archiválási technika webbejárókat használ a weblapok gyűjtésének automatizálására. A webrobotok általában úgy tekintik meg a weboldalakat, mint a böngészővel rendelkező felhasználók az internetet, és így viszonylag egyszerű módszert kínálnak a webtartalom távoli összegyűjtésére.

Internetes bejárók

Példák a webes robotokra, amelyeket gyakran használnak az internetes archiváláshoz:

Heritrix

Heritrix az Internet Archive webrobot, amelyet kifejezetten a webes archiválásra fejlesztettek ki. Nyílt forráskódú, Java nyelven írva. A fő felület egy webböngészővel érhető el, amely olyan parancssori eszközt tartalmaz, amely opcionálisan használható a bejárások kezdeményezésére.

A Heritrixet az Internet Archívum és a skandináv nemzeti könyvtárak fejlesztették ki a 2003 elején írt specifikációk alapján. Az első hivatalos kiadás 2004 januárjában volt, és azóta az Internet Archívum tagjai és más érdekelt harmadik felek folyamatosan fejlesztették.

Számos szervezet és nemzeti könyvtár használja a Heritrixet, köztük:

  • Könyvtár és levéltár Kanada
  • Bibliaothèque nationale de France
  • Izlandi Nemzeti és Egyetemi Könyvtár
  • Új-Zéland Nemzeti Könyvtár
  • Netarkivet.dk
  • Az Internet2 dokumentálása

HTTrack

HTTrack egy ingyenes és nyílt forrású webrobot és offline böngésző, amelyet Xavier Roche fejlesztett ki és a GNU Általános Nyilvános Licenc alapján engedélyezett, amely lehetővé teszi a World Wide Webhelyek letöltését az internetről egy helyi számítógépre. Alapértelmezés szerint a HTTrack a letöltött webhelyet az eredeti webhely relatív link-struktúrája szerint rendezi. A letöltött (vagy „tükrözött”) webhely böngészhető úgy, hogy a böngészőben megnyitja a webhely egyik oldalát.

A HTTrack frissíthet egy meglévő tükrözött webhelyet, és folytathatja a megszakított letöltéseket. A HTTrack teljesen konfigurálható opciókkal és szűrőkkel (tartalmazza / kizárja), és rendelkezik egy integrált súgórendszerrel. Van egy alapvető parancssori verzió és két GUI verzió (WinHTTrack és WebHTrack); az előbbi része lehet a szkripteknek és a cron feladatoknak.

A HTTrack egy webrobotot használ egy weboldal letöltéséhez. A webhely egyes részeit a robotok kizárási protokollja miatt alapértelmezés szerint nem lehet letölteni, kivéve, ha a program során le vannak tiltva. A HTTrack követheti az alapvető JavaScript-kel és az Applets-en vagy a Flash-en belül létrehozott linkeket, de nem bonyolult linkeket (funkciók vagy kifejezések használatával generálhat), vagy a szerveroldali képtérképeket.

Egyéb

Igény szerint

Számos szolgáltatás használható webes erőforrások "igény szerinti" archiválására a webes feltérképezési technikák felhasználásával:

  • A WebCite, kifejezetten tudományos szerzők, folyóirat-szerkesztők és kiadók számára nyújtott szolgáltatás az idézett internetes referenciák állandó archiválására és visszakeresésére (Eysenbach és Trudel, 2005).
  • Az Archive-It, egy előfizetési szolgáltatás, lehetővé teszi az intézmények számára saját web-archívumuk felépítését, kezelését és keresését.
  • A Hanzo Archives kereskedelmi internetes archiválási eszközöket és szolgáltatásokat kínál, megvalósítva a webtartalomra vonatkozó archiválási politikát, és lehetővé téve az elektronikus felfedezést, a peres eljárások támogatását vagy a jogszabályok betartását.

Adatbázis-archiválás

Az adatbázis-archiválás az adatbázis-alapú webhelyek mögöttes tartalmának archiválási módszereire utal. Általában az adatbázis tartalmának kibontását igényli egy szabványos sémában, gyakran XML-t használva. A szokásos formátumban történő tárolás után több adatbázis archivált tartalma egyetlen hozzáférési rendszer segítségével elérhetővé tehető. Ezt a megközelítést példázzák a DeepArc és a Xinq eszközök, amelyeket a Bibliothèque nationale de de France és az Ausztrál Nemzeti Könyvtár fejlesztett ki. A DeepArc lehetővé teszi a relációs adatbázis struktúrájának leképezését egy XML sémához, és a tartalom exportálását egy XML dokumentumba. A Xinq ezután lehetővé teszi a tartalom online továbbítását. Noha a weboldal eredeti elrendezését és viselkedését nem lehet pontosan megőrizni, a Xinq lehetővé teszi az alapvető lekérdezési és visszakeresési funkciók replikálását.

Tranzakciós archiválás

A tranzakciós archiválás eseményvezérelt megközelítés, amely összegyűjti a tényleges tranzakciókat, amelyek a webszerver és a webböngésző között zajlanak. Elsősorban arra szolgál, hogy megőrizzék a tartalom bizonyítékait, amelyet egy adott weboldalon egy adott napon ténylegesen megtekintettek. Ez különösen fontos lehet azoknak a szervezeteknek, amelyeknek meg kell felelniük az információk nyilvánosságra hozatalának és megőrzésének jogi vagy szabályozási követelményeinek.

A tranzakciós archiváló rendszer általában úgy működik, hogy megszakítja az összes HTTP-kérést és a webkiszolgálóra adott válaszát, kiszűri az összes választ az ismétlődő tartalom kiküszöbölése érdekében, és a válaszokat bitfolyamként véglegesen tárolja. A tranzakciós archiváló rendszerhez szoftvert kell telepíteni a webszerverre, és ezért nem használható tartalom gyűjtésére egy távoli webhelyről.

Példák a kereskedelmi tranzakciós archiváló szoftverekre:

Nehézségek és korlátozások

Crawlers

A webes archívumokat, amelyek az internetes feltérképezésre támaszkodnak, mint az elsődleges webes begyűjtési eszközeik, befolyásolják a webes feltérképezés nehézségei:

  • A robotok kizárási protokollja hozzáférhetetlenné teheti a weboldalak bejáróinak részét. Egyes internetes levéltárosok figyelmen kívül hagyhatják a kérést, és bejárhatják ezeket a részeket.
  • A webhelyek nagy részei el lehet rejtve a mély webben. Például, egy webes űrlap mögött található eredményoldal a mély webben található, mert a bejáró nem tudja követni az eredményoldalra mutató linket.
  • Egyes webszerverek eltérő oldalt adhatnak vissza a webrobotok számára, mint a szokásos böngészőkérések esetén. Ez általában a keresőmotorok becsapása érdekében történik, hogy nagyobb forgalmat küldjenek egy weboldalra.
  • A bejárók csapdái (például naptárak) miatt a bejáró végtelen számú oldalt tölthet le, így a bejárókat általában úgy konfigurálják, hogy korlátozzák a bejárni kívánt dinamikus oldalak számát.

Az internet annyira nagy, hogy annak jelentős részének bejárása nagy mennyiségű műszaki erőforrást igényel. Az Internet olyan gyorsan változik, hogy a weboldal egyes részei megváltozhatnak, még mielőtt a bejáró még befejezte is a bejárást.

Általános korlátozások

Az internetes archivátoroknak nemcsak a webes archiválás technikai kihívásaival kell foglalkozniuk, hanem a szellemi tulajdonról szóló törvényekkel is foglalkozniuk kell. Peter Lyman (2002) kijelenti, hogy "bár az internetet népszerûen közhasznú erőforrásnak tekintik, ez szerzői jogvédelem alatt áll, így az archívumíróknak nincs törvényes joguk az internetet lemásolni". Sok ország nemzeti könyvtárainak ugyanakkor törvényes joga van az internetes részek másolására a letét meghosszabbítása mellett.

Néhány nyilvánosan hozzáférhetővé tett nyilvános hozzáférésű non-profit internetes archívum, például a WebCite vagy az Internet Archive, lehetővé teszi a tartalomtulajdonosok számára az archivált tartalom elrejtését vagy eltávolítását, amelyhez nem akarják, hogy a nyilvánosság hozzáférjen. Más internetes archívumok csak bizonyos helyekről érhetők el, vagy azok használata szabályozott. A WebCite hivatkozik a GYIK-be egy nemrégiben indított perre is a gyorsítótárazási mechanizmus ellen, amelyet a Google nyert.

A web-kurátor aspektusai

A webes kurátor, mint minden digitális kuráció, a következőket foglalja magában:

  • Ellenőrizhető webes eszközök gyűjtése
  • Webes eszközök keresése és visszakeresése
  • A gyűjtemény tartalmának megbízhatóságának és integritásának igazolása
  • A gyűjtemény tartalma szemantikai és ontológiai folytonossága és összehasonlíthatósága

Ezért az internetes gyűjtés módszereiről szóló vita mellett a hozzáférés biztosítását, a tanúsítást és a szervezést is be kell vonni. Van egy sor népszerű eszköz, amely a következő kuratációs lépésekre vonatkozik:

Eszköztár a Nemzetközi Internetmegőrzési Konzorcium webes kuratóriumához:

  • Heritrix - hivatalos weboldal - webes eszközgyűjtés
  • NutchWAX - webes archív gyűjtemények keresése
  • Wayback (nyílt forrású Wayback Machine) - keressen és navigáljon a webes archívum gyűjteményekben a NutchWax segítségével
  • Web-kurátor eszköz - a webes gyűjtemény kiválasztása és kezelése

Egyéb nyílt forráskódú eszközök a web-archívumok kezeléséhez:

  • WARC eszközök - web archívumok létrehozására, olvasására, elemzésére és manipulálására programozottan
  • Keresőeszközök - a teljes szöveg és a metaadatok indexálásához és kereséséhez az internetes archívumokban

Példa az internetes archívumra

Az internetes archívum

Az Internetes archívum (IA) egy nonprofit szervezet, amelynek célja egy ingyenes és nyíltan elérhető online digitális könyvtár felépítése és fenntartása, amely magában foglalja a világháló archívumát. Az irodákkal, amelyek a kaliforniai San Francisco Presidio-ban, valamint a Sanwood-i Redwood City-ben és a Mountain View-ben található adatközpontokkal találhatók, az archívum „a világháló web pillanatképeit” tartalmazza (az oldalak archivált másolatai, a idő), szoftverek, filmek, könyvek és audio felvételek. Az internetes levéltár stabilitásának és tartósságának biztosítása érdekében gyűjteményét az egyiptomi Bibliotheca Alexandrina tükrözi, amely eddig a világ egyetlen tükörrel ellátott könyvtára.1 Az IA gyűjteményeit ingyenesen bocsátja a kutatók, történészek és tudósok rendelkezésére. Tagja az American Library Association-nak, és Kalifornia állam hivatalosan elismeri könyvtárnak.2

Az Wayback gép3 egy digitális időkapszula, amelyet az Internet Archívum hozott létre. Ez a szolgáltatás lehetővé teszi a felhasználók számára, hogy a weboldalak archivált verzióit időről időre megtekinthessék.

Lásd még

  • Archív
  • Digitális megőrzés
  • Internetes archívum
  • A Kongresszusi Könyvtár Digitális Könyvtár projektje
  • Nemzeti digitális információs infrastruktúra és megőrzési program
  • Internetes feltérképezés

Megjegyzések

  1. ↑ Az Internet Archívum az Alexandria Új Könyvtárában, az Információs Tudomány Nemzetközi Iskolájában (ISIS). Beérkezett 2008. november 22-én.
  2. ↑ "Az Internet Archívum hivatalosan egy könyvtár" beérkezett 2008. november 22-én.
  3. ↑ web.archive.org Letöltve: 2008. november 22.

Irodalom

  • Brown, A., 2006. Weboldalak archiválása: gyakorlati útmutató az információkezelési szakemberek számára. Facet Publishing. ISBN 1-85604-553-6
  • Brügger, N. 2005. Weboldalak archiválása. Általános szempontok és stratégiák Internetes Kutatási Központ. ISBN 87-990507-0-6. Beérkezett 2008. november 11-én.
  • Day, M. 2003. Az életünk szövetének megőrzése: A webmegőrzési kezdeményezések áttekintése Kutatás és fejlett technológia a digitális könyvtárak számára: A hetedik európai konferencia (ECDL) előzményei, 461-472. Beérkezett 2008. november 11-én.
  • Eysenbach, G. és M. Trudel. 2005. Megy, megy, még mindig ott van: a WebCite szolgáltatás használata idézett weboldalak tartós archiválására Az Internet Internet Research naplója 7 (5). Beérkezett 2008. november 11-én.
  • Fitch, Kent. 2003. "Webhely-archiválás - megközelítés a weboldal által készített lényegesen eltérő válaszok rögzítéséhez" Ausweb 03. Beérkezett 2008. november 11-én.
  • Lyman, P. 2002. A világháló archiválása Nemzeti megőrzési stratégia kidolgozása: kérdések a digitális média archiválásában. Beérkezett 2008. november 11-én.
  • Masanès, J. (szerk.). 2006. Internetes archiválás. Springer-Verlag. ISBN 3-540-23338-5

Külső linkek

Az összes link visszakeresése 2013. augusztus 10.

  • International Internet Preservation Consortium (IIPC) - Nemzetközi konzorcium, amelynek feladata az internetről származó ismeretek és információk megszerzése, megőrzése és elérhetővé tétele a következő generációk számára.
  • Nemzetközi Web Archiváló Műhely (IWAW) - Éves műhely, amely a web archiválásra összpontosít
  • A Kongresszusi Könyvtár, digitális gyűjtemények és programok
  • Kongresszusi Könyvtár, Web Capture
  • Webes archiválási bibliográfia - Az internetes archiválási erőforrások hosszú listája
  • Internetes archiválási programok:

Pin
Send
Share
Send