Digitális irodalmi emlékezet Közép-Európában
A kutatás a közép-kelet-európai régió kortárs önismeretét vizsgálja. Az emögött meghúzódó fő motivációnk, hogy a régió mint kulturális és földrajzi egység képzete az elmúlt évtizedekben veszített magyarázó erejéből, miközben az egyes nemzeti hagyományok egyre inkább befelé fordulnak és/vagy a nyugati, globális trendekhez igazodnak. A projekt első lépéseként, a visegrádi országokra (Csehország, Lengyelország, Magyarország és Szlovákia) összpontosítunk, és azt vizsgáljuk, e négy hagyomány milyen mértékben ismeri egymás irodalmi kultúráját.
Ennek érdekében azt elemezzük, hogy az egyes hagyományokból mely szerzők - írók, költők vagy drámaírók - rendelkeznek Wikipédia-oldalakkal a másik nyelvén. Hipotézisünk szerint, ha egy szerző az egyik irodalmi hagyományból (például Milan Kundera cseh nyelven is publikáló író) szócikként szerepel egy másikhoz kötődő (például a lengyel nyelvű) Wikipedián, akkor mondhatjuk, hogy ez a szerző része egy másik hagyomány irodalmi emlékezetének (Kundera a lengyel irodalmi emlékezetnek), legalábbis elérhetők róla szóló információk az adott hagyományhoz tartozó, leggyakrabban használt enciklopédiában. Így tehát az összes ilyen szerző megszámlálásával kvantifikálható lehet a visegrádi térség irodalmi hagyományainak emlékezete és egymáshoz való viszonya is.
Módszerünk a Wikidata lekérdezését, az adatok tisztítását, hálózati reprezentációk létrehozását és az eredmények értelmezését foglalja magában.
Ahhoz, hogy a szépirodalmi szerzők rekordjait megkapjuk, a P106-os „occupation” (foglalkozás) tulajdonságot használtuk, és három értékre szűrtünk: „poet” (költő, Q49757), „writer” (író, Q36180) és „playwright” (színműíró, Q214917). A nemzetiség/állampolgárság kérdésénél úgy döntöttünk, hogy a P1412-es „languages spoken, written or signed” (beszélt nyelvek) tulajdonság elemeit vizsgáljuk, vagyis azokat a szerzőket vettük be a vizsgálandók körébe, akik cseh, magyar, szlovák vagy lengyel nyelven írtak. A lekérdezéseket a Wikidata adatbázis SPARQL lekérdező felületén hajtottuk végre. A felület lehetővé teszi, hogy a rekordok bizonyos tulajdonságainak elemeit is láthatóvá tegyük és lementhetőek legyenek. A számunkra fontos tulajdonságok a következőek voltak, amelyeket felhasználtunk az adatok vizualizációja során: „name in native language” (születési/anyanyelvi név, P1559), Wikidata azonosító, „date of birth” (születési idő, P569), „date of death” (halálozási idő, P570), „sex or gender” (nem, P21) és „religion or worldview” (vallás, P140). Az utolsó lekérdezés időpontja: 2024. 09. 18.
A metaadatok vizsgálata során egyértelművé vált, hogy kézi ellenőrzésre is szükség van. A munkának ebben a fázisában az adott személy által írt művek műfaját vettük irányadónak. Mivel a legtöbb európai hagyományban a 19. századtól különülnek el élesen szépirodalmi (fikciós) és egyéb szövegek egymástól (valamint több műfaj, elsősorban a regény is ekkor jön létre), külön kezeltük az 1800 előtt és az azt követően született művek íróit. Ezt az elvet érvényesítettük az egyházi/vallási irodalom, az emlékiratok, az önéletrajzok és utazási irodalom műfajainak esetében. A fantasy, a tudományos fantasztikus irodalom, valamint a gyerekirodalom alkotásait figyelembe vettük egy-egy életmű vizsgálatakor, az esszéket, műfordításokat és dalszövegeket viszont nem, tehát akik kizárólag az utóbbi műfajokban alkottak, azok nem kerültek be a végleges szerzőlistánkba. Semmilyen időhatárt nem adtunk meg a lekérdezéseknél.
A Digitális irodalmi emlékezet Közép-Európában projekt rekordjai elérhetőek itt. (feltöltés folyamatban)
A projekthez kapcsolódó SPARQL lekérdezések elérhetőek itt. (feltöltés folyamatban)
A projekt szakmai felelősei: Dobás Kata, Szemes Botond
Digital Literary Memory in Central Europe
The research explores the CEE region's contemporary knowledge of itself, an important topic as the concept of the region as a unified cultural and geographical entity has weakened in recent decades, while individual states and traditions increasingly focus inwardly and/or align with Western or global trends. As the initial step, we focus on the Visegrad countries (the Czech Republic, Poland, Hungary, and Slovakia) to examine the extent of their knowledge about each other's literary cultures.
To address this, we investigate which authors—writers of literary fiction, poets, or playwrights—from these four traditions have Wikipedia pages in the others' languages. We hypothesize that if an author from one literary tradition (e.g., Milan Kundera Czech writer) appears on a Wikipedia in another language (e.g., Polish), that author forms part of the literary memory of the second tradition. At the very least, information about the author is available in the most widely used encyclopedic resource in that language. Our methodology involves querying Wikidata, cleaning the data, creating network representations, and interpreting the results.
In order to obtain the records of literary authors, we used the P106 "occupation" property and filtered for three values: "poet" (Q49757), "writer" (Q36180), and "playwright" (Q214917). Regarding nationality/citizenship, we decided to examine the elements of the P1412 "languages spoken, written, or signed" property, meaning we included authors who wrote in Czech, Hungarian, Slovak, or Polish. The queries were executed on the Wikidata database via the SPARQL query interface. The interface allows us to make certain property elements visible and downloadable. The properties we considered important for our data visualization were the following, which we used: "name in native language" (P1559), Wikidata identifier, "date of birth" (P569), "date of death" (P570), "sex or gender" (P21), and "religion or worldview" (P140). The last query was conducted on September 18, 2024.
During the examination of metadata, it became clear that manual verification was also necessary. In this phase of the work, we used the genre of works written by the person as a guideline. Since, in most European traditions, fictional and other texts began to be distinctly separated from the 19th century onward (and several genres, notably the novel, emerged around this time), we treated authors of works before and after 1800 separately. This principle was applied to the genres of religious literature, memoirs, autobiographies, and travel literature. We considered works of fantasy, science fiction, and children's literature when studying an author's oeuvre, but excluded essays, translations, and song lyrics. Therefore, authors who only worked in the latter genres were not included in our final list of authors. No time limits were applied in the queries.
The records of the "Digital Literary Memory in Central Europe" project are available here. (Upload in progress)
The SPARQL queries related to the project are available here. (Upload in progress)
The project's professional supervisors: Kata Dobás, Botond Szemes.