Knihy Google

Knihy Google
Logo
VývojářGoogle
Typ softwaruDigitální knihovna
Webbooks.google.com
Některá data mohou pocházet z datové položky.

Knihy Google (anglicky Google Books, starší označení Google Book Search, ještě starší Google Print) je vyhledávací služba, kterou poskytuje Google. Cílem je zpřístupnit naskenované (digitalizované) knihy knihoven. V počátcích tohoto projektu (2004) bylo naskenováno přibližně 15 milionů knih z největších amerických knihoven – knihovna Michiganské university, Harvardova univerzitní knihovna, Stanfordova Green library, Oxfordská Bodleian Library, Newyorská veřejná knihovna.

Knihy mají různé způsoby zobrazení podle toho, jak to umožňuje autorský zákon:

  • úplné zobrazení – knihy u kterých autoři, respektive vydavatelství, uvolnila knihy na zveřejnění anebo jsou autorská práva promlčená – staré knihy.
  • omezený náhled – knihy, u kterých autoři, respektive vydavatelství, vlastníci autorských práv, neuvolnili knihy ke zveřejnění.

Projekt Knihy Google

Projekt Knihy Google se vytvářel několik let. Již dříve utvořený pracovní tým se v roce 2004 spojil s pěti univerzitními knihovnami, a sice s Harvardem, Michiganem, Stanfordem, Oxfordem a New York Public Library. Knihovny poskytovaly knihy, které Google začal skenovat. Ve smlouvě oxfordské knihovny se společností Google[1]  bylo naplánováno během následujících tří let zdigitalizovat více než milion tištěných knih, které poté mají být přístupné na internetu skrze službu Google a internetové stránky univerzity. Prozatím byly plánovány pro digitalizaci pouze ty knihy, kterým už vypršela ochrana autorským zákonem (tzn. vydané před rokem 1920). Pro každou knihu se měly vytvořit dvě digitální kopie, jedna z nich je pro Google a jedna pro Oxford. Kopie pro Google má být indexovaná a dohledatelná v jeho vyhledávací službě a kopie pro univerzitu bude spojena s odpovídajícím záznamem v knihovním katalogu.

Projekt Knihy Google čerpal inspiraci z předchozích projektů, jako je například Gutenberg, Universal Library a další. Digitalizační projekt Gutenberg byl založen v roce 1971 a je nejstarší digitální knihovnou. Dobrovolnická skupina skenuje díla, na která už vypršel autorský zákon.

Digitalizační projekt společnosti Google se skládá z více částí. Služba Knihy Google Search umožňuje vyhledávat knihy na základě fulltextového prohledávání jejich obsahu, ne jen prohledáváním bibliografických údajů jako knihovní katalogy. Spolupracuje s Projektem knihovna (Library Project) a Partnerským programem (Partner Program). Projekt knihovna spolupracuje od roku 2004 s knihovnami, které poskytují knihy ke skenování. Automatizovaně se indexuje text, doplňují základní bibliografická metadata, vazby na jiné informační zdroje a další údaje. Pro rozpoznání textu se používá technologie OCR. Naproti tomu Partnerský program je zaměřen na autory a vydavatele. Ti mohou dodávat společnosti Google své knihy přímo v elektronické podobě nebo je dát ke skenování. Jako protislužbu Google nabízí zvýšení jejich prodeje umístěním odkazů na knihkupectví, nezobrazení celých textů knih a finanční podíl na kontextové reklamě.

Google knihy rozdělil do tří skupin podle míry zpřístupnění. První skupinu tvoří knihy, jimž už vypršela doba ochrany autorským zákonem. U nich je umožněno volné vyhledávání a zpřístupnění plných textů. Do druhé skupiny patří knihy, které jsou chráněné autorským zákonem, a majitel autorských práv nevyjádřil souhlas s jejich zveřejňováním. U těchto knih Google umožňuje pouze vyhledávat, ale nezobrazuje plný text, pouze několik úryvků, které souvisí s hledaným výrazem. Vlastník však může vyjádřit nesouhlas a kniha bude z databáze odstraněna nebo ani nebude skenována. U poslední skupiny vlastník souhlasil se zařazením svého díla do projektu Google Book Search a sám určí, které části knihy budou zobrazovány.[2]

Spolupráce s knihovnami

Počet knihoven, které se zapojují do digitalizačního projektu, stále narůstá. Nabídka společnosti Google je pro ně výhodná, protože Google velkou část prací financuje. Knihovna se sama musí postarat pouze o přípravu knih na digitalizaci. Od Google dostanou detailně rozpracovanou metodiku přípravných prací. Nejdříve se musí provést katalogizace knih. Knihovna musí vytvořit elektronický katalog podle požadavků Google. Pak přichází na řadu konzervování a restaurování knih. To je důležité proto, aby knihy nemohly být skenováním poškozeny. Google vydal podrobný manuál, ve kterém popisuje, jaké parametry musí připravované knihy splňovat. Restaurátoři knihy mechanicky čistí, přichycují odpadávající části knižní vazby a fixují místa, která se při skenování mohou nejvíce poškodit. Také se pomocí speciálních testů musí provést kontrola mikrobiologické aktivity knih, aby nebylo mikroby zaneseno skenovací zařízení a ostatní skenované knihy. Výběr knih spočívá ve zhodnocení jejich fyzického stavu, velikosti, ceny a obsahu. Je třeba zjistit, které knihy již Google zdigitalizoval, je zbytečné jeden titul skenovat dvakrát. Také je potřeba ocenit knihy pro pojištění a zajistit složitou administrativu spojenou s vývozem knih. Každá kniha musí mít osvědčení o vývozu do zahraničí ve čtyřech stejnopisech, v České republice se však dá uplatnit výjimka a použít hromadné seznamy knih. Poté následuje samotná expedice knih do zahraničí spolu s předáním elektronických katalogových záznamů. Po naskenování se knihy vrací zpět do původní knihovny. Následně knihovna přebírá od Google digitální dokumenty a zařazuje je mezi své elektronické zdroje.

Soudní spory

Projekt Knihy Google však má i své odpůrce, mezi něž patří především spisovatelé, kteří se bojí ohrožení svých autorských práv a dalším společnostem se nelíbí, že by měl mít Google v této sféře monopol. Už v roce 2005 byla proti Google podána žaloba dvěma americkými sdruženími, Authors Guild a Sdružením amerických nakladatelů. V roce 2008 došlo mezi oběma stranami k uzavření dohody. Google poskytne držitelům práv finanční kompenzace za předchozí zpřístupnění děl bez jejich souhlasu. Nově se bude při vyhledávání knihy pod autorským právem zobrazovat pouze náhled nebo několik úryvků z textu. Tato dohoda však podléhala schválení soudem USA. Následujícího roku byl však newyorský soud požádán ministerstvem spravedlnosti, aby dohodu neuznal. Ministerstvo mělo podezření na sporné autorskoprávní aspekty a na hrozbu zneužití dominantní pozice Google na trhu. Dohoda vyvolala negativní reakce dalších internetových vyhledávačů (Amazon, Microsoft, Yahoo), které se bály o převahu Google. Soudce dohodu zpochybnil jako nerovnou. Namítal, že Google má výhody, které mohou ohrožovat jeho konkurenci. Dále se mu nelíbil princip, kterým by autoři měli dávat nesouhlas se zveřejněním svého díla. Podle dohody by mohl Google digitalizovat veškerá díla a pouze pokud držitelé práv vznesou námitky, bude jejich dílo následně staženo.

Ze soudních materiálů se ukazuje, že hlavní motivací Google k digitalizaci byl konkurenční boj.[3]

Tato dohoda vyvolala negativní reakce i mimo USA, nejsilněji v Kanadě, Austrálii a Evropě. V Evropě s dohodou nesouhlasila především Francie, Itálie a Německo. Francie i Německo proti ní podaly stížnost, obávaly se rizika vytvoření monopolu. Velmi ostře se vyjádřil francouzský Národní syndikát nakladatelů, který reprezentuje více než 500 nakladatelů a 80 % francouzského knižního trhu. Postupně se přidávali další držitelé práv již zdigitalizovaných děl se svými protesty. Nakladatelská skupina La Martiniére podala na společnost Google žalobu u pařížského soudu. Požadovala stažení všech sporných digitálních děl a náhradu ve výši patnácti milionů euro. Do konfrontace se však dostalo francouzské a americké právo, přičemž obě strany mají na autorská práva jiný názor. Nakonec francouzský soud rozhodl ve prospěch skupiny La Martiniére. Nicméně ta v červenci roku 2011 sama podepsala s Google dohodu, podle které Google bude digitalizovat díla chráněná autorským zákonem, která už jsou na trhu rozebraná. Další dohodu s Google uzavřela druhá francouzská nakladatelská skupina Hachette Livre. K této dohodě došlo také v červenci 2011 a Hachette podle ní dostalo právo kontroly knih, které budou digitalizované, a tyto knihy může dále komerčně využít.

Se společností Google uzavírali postupně smlouvy další evropští nakladatelé i knihovny. Do projektu se zapojily obě italské národní knihovny, Římská i Florentská, Národní knihovna Rakouska, Nizozemská královská knihovna, kantonální a univerzitní knihovna ve Švýcarském Lausanne a také Národní knihovna České republiky a Moravská zemská knihovna. O zapojení uvažovala i Národní knihovna Francie, která však zpočátku byla proti a chtěla si svá díla digitalizovat sama, ale kvůli nedostatku finančních prostředků přistoupila také k dohodě s Google.

Spolupráce Google s Národní knihovnou České republiky

Národní knihovna České republiky v roce 2011 zahájila spolupráci se společností Google na digitalizaci historických a vzácných fondů svých sbírek. Digitalizace je prozatím naplánována do roku 2016 a je možnost prodloužení smlouvy vždy o jeden rok. Cílem má být zpřístupnění historických knižních fondů do roku 1800 a některých mladších vzácných fondů. Celkem je naplánováno zdigitalizovat asi 200 tisíc svazků a zpřístupnit je prostřednictvím Google Books a také v rámci Manuscriptoria a Krameria . Podle dohody zdigitalizované knihy Google zpřístupní v rámci svého zdroje Google Books a také služby Google Book Search a spolupracující knihovna může digitální dokumenty archivovat a také zpřístupnit podle vlastního uvážení a začlenit je do svých služeb. Z toho vyplývá, že spolupráce s Google knihovny nijak nesvazuje a může vést k vytvoření otevřeného virtuálního prostředí pro jejich uživatele.

Pro národní knihovnu kvůli spolupráci s Google vyvstává i otázka autorského práva. Na staré tisky se již nevztahuje, ty jsou však úzce spojeny se sekundárními prameny, které se k nim vztahují, což jsou například komentáře, anotace, ale také edice pramenů. Je záhodno digitálně zpřístupnit i tyto dokumenty společně se starými tisky a to může být právě kvůli autorským právům problémem. Pracovníci Národní knihovny Hejnová a Uhlíř ve svém příspěvku[4]  k této problematice navrhují adaptaci autorského práva na nové digitální prostředí a odmítají trvání na starých principech, které fungovaly v tištěném prostředí.

Samotné digitalizaci musí předcházet přípravné práce. Ty Národní knihovna České republiky začala provádět už v průběhu roku 2011. V květnu následujícího roku se uskutečnilo setkání čtyř zástupců Google s pracovníky Národní knihovny, které mělo za cíl předat informace nutné k digitalizačnímu procesu a jeho přípravám. Důraz byl kladen na problematiku transportu historických a vzácných dokumentů na digitalizační pracoviště Google. Následně Google poslal Národní knihovně vzorový vozík, na který měly být nakládány knihy určené k převozu na digitalizaci. Problém způsobila jeho velikost, protože se vejde pouze do jediného výtahu v Klementinu, který navíc není určen pro transport nákladu. Těchto vozíků Klementinum dostalo 20 a muselo vyřešit, kam je uloží.

Další informace Národní knihovna získává od zahraničních partnerů, kteří své fondy také digitalizují v rámci spolupráce se společností Google. V říjnu 2012 se konal každoroční mezinárodní summit knihoven digitalizujících s Google, který pro ně společnost Google připravila tentokrát v Haagu v Národní knihovně. Summitu se zúčastnil jeden zástupce Národní knihovny České republiky a přivezl informace o nových technologiích Google v oblasti zpřístupňování dat, jejich agregace a deduplikace. Ve své zprávě[5]  píše, že v té době bylo v Google Books přes 23 milionů knih, při jejich zpřístupňování jsou respektovány rozdíly v autorských právech jednotlivých zemí a zdigitalizované dokumenty v angličtině již tvoří méně než 50 % všech dokumentů.

Pro digitalizaci knihovna musí mít elektronický katalog podle zásad Google. Národní knihovna elektronický katalog starých tisků neměla, musí ho tedy vytvořit. Oddělení rukopisů a starých tisků připravuje k digitalizaci dokumenty z historického fondu z let 1501–1800. Během dvou let 2011–12 bylo externími pracovníky zkatalogizováno přes 40 tisíc záznamů. Slovanská knihovna připravuje na digitalizaci dokumenty vydané v 19. století.  Během sledovaných dvou let bylo zkatalogizováno přes 8 tisíc záznamů.

Katalogizace však postupuje mnohem rychleji než opravy a restaurování fyzických dokumentů. Historický fond Národní knihovny není totiž v nejlepším stavu, protože v minulosti se s ním nezacházelo moc dobře. Staré tisky byly uloženy v nevhodných klimatických podmínkách. Průzkum fyzického stavu fondu tedy zjistil velmi vážná poškození dokumentů a jejich řešení je mnohem náročnější na čas než katalogizace. Z tohoto důvodu dochází ke skluzu restaurování za katalogizací. Z toho vyplývá, že Národní knihovna potřebuje mnohem více restaurátorů a pracovišť vybavených speciálními přístroji.

Ošetřené knihy se evidují v nově vytvořené databázi, kde jsou rozdělené do čtyř kategorií podle typu poškození. Restaurování knih spočívá zejména ve fixaci uvolněných listů, opravě potrhaného šití, trhlin papíru, opravy knižních hřbetů a výrobě ochranných obálek. Náročnější zásahy zahrnují rozešití knižního bloku, čištění papíru pomocí vodních systémů nebo dolévání papírových listů, opravu knižní vazby a doplnění chybějících knižních desek. Z digitalizace bylo za sledované období vyřazeno asi 540 knih, které nesplňovaly požadavky na fyzický stav určené společností Google. Tyto knihy byly nekompletní nebo zčásti nečitelné, vazba neumožňovala dostatečné otevření, listování knihou by ji poškozovalo apod.

Další činností, kterou musí Národní knihovna vykonat, je předávání samotných knih a metadat společnosti Google. Jednotlivé dávky knih musí být stejně velké, aby byla digitalizace plynulá a pravidelná. Společně s knihami se předávají i seznamy, ve kterých musí být knihy seřazeny stejně jako v jednotlivé dávce, kvůli usnadnění kontroly. Metadata musí knihovna předávat ve formátu MARC XML.

Od r. 2014 běží spolupráce obou partnerů rutinním způsobem a do podzimu 2016 bylo již digitalizováno na 105 000 knih, z toho asi 20 tisíc ze Slovanské knihovny (i z těch bylo cca 2 tisíce starých tisků). Knihy jsou ihned po digitalizaci zpřístupněny v Google Books a tam nacházející se digitální kopie také odkázány z online katalogu starých tisků Národní knihovny ČR a katalogu Slovanské knihovny. Knihy jsou také postupně zpřístupňovány v Manuscriptoriu.

Přebírání dat od společnosti Google probíhá v návaznosti na digitalizaci. Datové balíčky obsahují popisná metadata (původně dodávaná Národní knihovnou), strukturální metadata, obrazová data, textová data a pozice slov v obrazech. Obrazová data Google poskytuje ve formátu JPEG. U starých tisků je datový balíček Google transformován do datového balíčku dle specifikace VISK 6, což je základní předpoklad pro zpřístupnění v Manuscriptoriu a předpoklad pro archivaci. Národní knihovna plánuje takto transformovaná data uložit do systému LTP, který je součástí Národní digitální knihovny.

Spolu s tímto projektem má Národní knihovna i vlastní digitalizační programy, z nichž starší je zaměřen na rukopisy a staré staré tisky a novější na periodika a na mladší knihy vydané po r. 1800.

Závěr

Masová digitalizace prováděná společností Google je přijímána dvojznačně. Akademické prostředí ji hodnotí spíše negativně, zejména proto, že je prováděna za účelem zisku. Naproti tomu knihovny ji vítají. Uvědomují si, že samy by digitalizace v takové míře nikdy schopny nebyly, jak z organizačního, tak převážně z finančního důvodu. Zejména u starých dokumentů, u kterých je nutné klást velký důraz na vyšší kvalitu, by knihovny se svými technickými možnostmi silně zaostávaly. Bez spolupráce knihoven se společností Google by byl přechod do digitálního prostředí mnohem pomalejší.

Digitalizace knih je pro knihovny výhodná i z důvodu ochrany historických fondů a starých tisků. Když budou dokumenty přístupny v digitální podobě, nebudou muset být čtenářům a badatelům půjčovány originály a tím se uchrání před dalším poškozením. Nevýhodou pro knihovny však je fakt, že po zdigitalizování většiny knih lidé přestanou mít zájem chodit do knihovny. Ta je však postavena před nový úkol, a sice uživatelům co nejvíce usnadnit vyhledávání knih v digitální podobě, rozšiřovat jednoduchá metadata, psát obsáhlé obsahy děl apod.

Nevyřešena však stále zůstává otázka autorského práva. Navíc doba autorskoprávní ochrany díla může být v každé zemi různě dlouhá. V zemích Evropské unie a Spojených států amerických trvá ochrana od vytvoření díla až do 70 let po smrti jeho autora. U děl ve vlastnictví korporací je ve Spojených státech ochrana 95 let od vydání díla. Google bere v potaz autorskoprávní ochranu země, ve které bylo dílo vydané. Přesto se vede kolem autorského práva stále mnoho diskuzí.

Odkazy

Reference

V tomto článku byl použit překlad textu z článku Google Books na slovenské Wikipedii.

  1. CARR, Reg. Oxford-Google digitisation agreement. [online]. [cit. 2014-01-16]. Dostupné z: http://www.bodley.ox.ac.uk/news/news58.htm Archivováno 6. 4. 2014 na Wayback Machine.
  2. BARTOŠEK, Miroslav. Google Book Search. Inflow [online]. 26.4. 2009. [cit. 2014-01-16]. Dostupné z: http://www.inflow.cz/google-book-search Archivováno 2. 4. 2015 na Wayback Machine.. ISSN 1802-9736
  3. http://www.bookz.cz/wordpress/2012/08/07/digitalizace-knih-u-google-mirila-na-amazon-zadna-dobrocinost-se-nekona/ Archivováno 5. 3. 2016 na Wayback Machine. - Digitalizace knih u Google mířila na Amazon, žádná dobročinnost se nekoná
  4. HEJNOVÁ, UHLÍŘ. Digitalizace s Google a její vztah k NDK – IOP. Bibliotheca Antiqua 2012: sborník z 21. konference. [online]. Olomouc: Vědecká knihovna v Olomouci, 2012. ISBN 978-80-7053-298-0. [cit. 2013-12-03]. Dostupné z: http://www.vkol.cz/data/soubory/import/konf21/Bibliotheca%20Antiqua%202012-Hejnova-Uhlir.pdf Archivováno 2. 4. 2015 na Wayback Machine.
  5. KNOLL, Adolf. Zpráva ze zahraniční služební cesty. [online]. [cit. 2014-01-16]. Dostupné z: http://wwwold.nkp.cz/files/cz_haag_google2012_ak.pdf

Související články

  • Google Ngram Viewer
  • Google Trends

Literatura

Externí odkazy

Média použitá na této stránce

Google Books logo 2015.svg
Logo of Google Books, introduced in September 2015
Google scanfehler wien.jpg
Scanfehler bei Google Books, Buch der ÖNB Wien