Na katedře bohemistiky FF UP vzniká digitální korpus české prózy

Richard Změlík (na snímku vlevo) již prezentoval nově vznikající digitální korpus české prózy na řadě zahraničních konferencí, mj. na americké Columbia University v New Yorku.
Foto: archiv (rz)
Friday 16 May 2025, 8:00 – Text: Milada Křížková Hronová

Jedno z výzkumných témat, jemuž se věnuje katedra bohemistiky FF UP už od roku 2018, se soustřeďuje na literárně-kartografické a kvantitativní modely českého románu 19.–21. století. Tématem se zabývá prostřednictvím projektu s názvem Literary Cartographic and Quantitative Models of Czech Novels from the 19th to 21st Century. 

Projekt Literary Cartographic and Quantitative Models of Czech Novels from the 19th to 21st Century vznikl na katedře bohemistiky Filozofické fakulty Univerzity Palackého díky docentu teorie literatury Richardu Změlíkovi. Ten se během své vědecké kariéry zabýval řadou literárněvědných témat, mimo jiné i otázkou reprezentace prostoru ve fikčních narativech a problematikou využití kvantitativních a statistických metod v literárněvědném výzkumu. A právě tento jeho dlouhodobý zájem ho před zhruba osmi lety přivedl k nápadu pokusit se využít i další digitální nástroje, které by mohly být užitečné pro systematické zkoumání českých narativních fikcí. Korpus prózy, jak lze uvedený projekt zkráceně označit, tak začal vznikat s myšlenkou funkčně propojit kvantitativní a statistické nástroje pro analýzu literárních textů s literárně-kartografickými mapami, které modelují pražské prostředí v literární fikci, tj. fikční pražské topografie. Do současné doby jej Richard Změlík již prezentoval na řadě zahraničních konferencí, mj. na americké Columbia University v New Yorku či na pařížské Sorbonně a jinde.

Na korpusu české prózy pracujete řadu let. Jaká je jeho aktuální verze? Můžete ji představit?

Současná, již třetí verze webové aplikace stojí na třech základních pilířích. První tvoří literárně-kartografické modely fikčních pražských topografií v české próze 19. až 21. století. Tato část je z hlediska zpracování nejnáročnější. Je totiž prováděna manuálně a bude postupně doplňována dalšími prostorovými daty. Druhým pilířem jsou kvantitativní a statistické modely, které se vztahují k vybraným segmentům literárního narativu, což jsou různé typy vypravěčů. Tento typ modelů je využit i při měření narativního rytmu, slovních shluků, tzv. word clouds, které z kvantitavního hlediska můžeme chápat jako motivy, dále při zobrazování analýzy sentimentu neboli emocionálního zatížení textu a řady dalších aspektů. Třetí pilíř tvoří korpusové nástroje; konkrétně se jedná o konkordance, kolokace, vyhledávání frekvencí slov a podobně.

Při detailnějším pohledu na tyto tři základní složky korpusu můžeme zjistit, že každá z nich zahrnuje další sadu různých nástrojů pro analýzu dané oblasti literárních narativů. Kromě literárně-kartografických modelů, které mapují fikční pražskou topografii ve vybrané české próze, která explicitně tematizuje pražské prostředí, zde najdeme prostorové modely zobrazující hustotu jednotlivých lokací (toponym), dále modely ukazující pohyb postav ve fikčním plenéru, komparativní model zobrazující frekvenční vytížení jednotlivých toponym v konkrétních prózách, ale i GIS modely, které literární lokace propojují s konkrétními místy na základě geografického souřadnicového systému. Mezi kvantitativními modely se nachází také statistické modely ukazující rozdíly mezi texty v délce vět, lexikální bohatství každého z textů, jeho entropii a v neposlední řadě také metriky pro tzv. čitelnost textů. Součástí kvantitativních modelů jsou rovněž ty, které zobrazují tzv. analýzu sentimentu, respektive emocionální zaměření textů. Třetí oblast nabízí nástroje pro základní vytěžování korpusu, v němž se aktuálně nachází 173 textů od 20 autorů. Vedle konkordančního vyhledávání mají uživatelé k dispozici formuláře pro vyhledávání kolokací (slovních souvýskytů), konkrétních slovních dvojic nebo vyhledávání frekvencí slov. Nedílnou součástí korpusu je také možnost vyhledávat podle CQL dotazování. V neposlední řadě si uživatelé mohou zobrazit stylometrické síťové grafy či tzv. dendrogramy, jež ukazují, jak si jsou jednotlivé texty blízké a naopak. Součástí projektu je i odkaz na repositář, na němž jsou uložena surová a strojově čitelná data pro samostatnou analýzu.

Co je smyslem projektu a popsané aplikace?

Tím hlavním smyslem je funkčně propojit specificky orientované literárněvědné bádání s lingvistickým. Korpus je však možné vytěžovat s ohledem jak na vybrané literárněvědné požadavky, tak výhradně na ty lingvistické. Stejně tak ale dobře funguje právě ve vzájemném propojení lingvoliterárního bádání. Korpus je ovšem možné využívat i laiky, tedy lidmi, kteří primárně nejsou ani literární vědci, ani lingvisté. Dokážu si představit, že může sloužit jako určitý turistický průvodce Prahou po literárních místech. Pro tento účel jsou součástí korpusu právě GIS modely, které propojují literární místa s reálnými. Primárně je tedy korpus určen pro literární vědce a lingvisty, sekundárně pro kohokoli, kdo se jednoduše řečeno zajímá o pražský plenér v literatuře.

Na čem pracujete aktuálně? Je něco, co vám činí potíže?

Hlavním problémem je samozřejmě financování a s ním úzce spojené přerozdělení dílčích prací. V aktuální situaci již není v mých silách doplňovat kontinuálně všechna data a současně upgradovat veškeré funkcionality. A právě s tím mi pomáhají studenti coby pomocné vědecké síly, kterým bych tímto rád poděkoval, konkrétně Jakubu Součkovi, Martinu Storzerovi a Janu Sládkovi z katedry bohemistiky FF UP. Do budoucna je proto nezbytné zajistit jiné zdroje financování, než které nabízí institucionální podpora. Mám na mysli významnější grantovou podporu. A na čem pracuji aktuálně? Na vývoji nových funkcionalit v rámci analýzy sentimentu, které jakmile pokryjí stávající rozsah korpusových dat, budou zpřístupněny uživatelům. Jinak zásadním progresem bude muset projít zejména oblast literárních map, což spočívá především v doplňování nových prostorových dat. Tato část je, jak bylo řečeno, nejnáročnější na zpracování, neboť z nemalé části se uskutečňuje manuálně.

Souvisí tento projekt s nedávno založeným centrem na katedře bohemistiky pod názvem Digital Humanities in Literary and Book Studies?

Centrum jsme základali (Richard Změlík, Vladimír Polách a Miroslav Vepřek) v roce 2023 s tím, že každý z nás se stručně řečeno nějakým způsobem své odborné práce vztahoval k digital humanities. Každý z nás přišel do společného centra s vlastními aktivitami a projekty, které jsou dlouhodobější. Právě toto hrálo, myslím, důležitou roli při vzniku centra. Aktivita centra spočívá i v jiných oblastech. Letos se například uskuteční již třetí ročník konference Humanitní a společenské vědy z pohledu digital humanities. Každý z nás se rovněž snaží implementovat poznatky ze svého bádání do výuky.

Jaké výzvy vás čekají do budoucna?
S ohledem na současný vývoj v oblasti digitálních technologií se přirozeně nabízí využití AI nebo přidružených témat, jako je např. strojové učení. Za sebe mohu říci, že se v této oblasti pokouším o určité kroky, které by se týkaly predikce literární topografie na základě již dostupných prostorových dat. A k čemu by taková analýza mohla sloužit? Například k tomu, abychom si ověřovali, jak specifické jsou v tomto směru tvůrčí postupy autorů, jakými „algoritmy“ se řídí. Ovšem toto je teprve v počátcích.

O projektu Literary Cartographic and Quantitative Models of Czech Novels from the 19th to 21st Century, jehož dosavadní výstupy již docent Richard Změlík z katedry bohemistiky FF UP představil v několika domácích i zahraničních časopisech, se dozvíte zde. Odkaz na centrum Digital Humanities in Literary and Book Studies je k dispozici zde.

Back

Privacy settings

We use cookies and any other network identifiers on our website that may contain personal data (e.g. about how you browse our website). We and some of the service providers we use have access to or store this data on your device. This data helps us to operate and improve our services. For some purposes, your consent is required to process data collected in this way. You can change or revoke your consent at any time (see the link at the bottom the page).

(Essential cookies enable basic functions and are necessary for the website to function properly.)
(Statistics cookies collect information anonymously. This information helps us to understand how our visitors use our website.)
(They are designed for promotional purposes, measuring the success of promotional campaigns, etc.)