Quantifying Witness Lists – An approach doomed to fail

The following is a short paper prepared for a course. Since I was not able to further elaborate on it and put more material around, it remains a miscella with no specific claims.

The Witness Lists of the Cartulary of Holy Trinity, Aldgate

Research concerning persons, especially such dealing with masses of persons, often refers to the use and the possibilities offered by information and computational technologies: Faster re­search and more intriguing results are said to be possible. Through digitization and quantifica­tion more efficient and more precise work by historians ought to be possible. This paper seeks to test these promises by applying quantificational (factive) analyses on a collection of documents of Holy Trinity, Aldgate (London).


Witness lists offer the possibility to use an analysis based on quantification. For example it can be useful to distinguish how many witnesses were “needed” for a certain type of docu­ment, if any, and what changes occurred to this type over time. By looking solely at measura­ble fac­tors, I try to find as many possible conclusions that could be compared to results gained by close reading of similar sources. The danger of conclusions based on misinter­preted data is here willingly accepted and a test to check out approaches that are mostly neglected in the field of historical studies. Besides focusing on the use of wit­nesses in medieval documents, the methodology applied is of interest.

The questions posed in this paper are therefore threefold:

  1. How often and in what types of documents did witnesses occur in the cartulary of Holy Trin­ity abbey, Aldgate?
  2. What conclusions regarding typological as well as temporal patterns can be reached?
  3. How useful is the methodology in order to gain insights about matters of document produc­tion and connection between appearances of witnesses, date of document production, and types of documents?

The idea is to neglect the “content” of the entries in order to not be influenced by biases such as how much and what witnesses are to be expected when.

In order to have a quantifiable sample, I chose to analyze the documents copied in the cartu­lary of Holy Trinity. Due to the fact that the cartulary is available in a normalized English form and following a standardized description it is possible to structure the entries as data accordingly and without great effort (linguistical and paleographical). The structuring as well as the ba­sics of the documents will be explained in part 3. Part 4 deals with insights gained by the ap­plied methods. Part 5 offers conclusions as well as a critique of the methods applied, but first a short introduc­tion about Holy Trinity and its cartulary.

Holy Trinity and its Cartulary

Holy Trinity, Aldgate (also called Christ Church) was one of the most important monasteries within the city of London. Founded in 1108 by Queen Matilda (c. 1080—1118), secular can­ons following an Augustinian rule inhabited the site until its dissolution in 1532.[1] Since the founda­tion a strong connection to King and Queen as patrons can be found. Right at the beginning the endowments were invested heavily in buildings, vestments, and other objects of display, lead­ing to a scarcity of food and an involvement of the locals at Aldgate by donat­ing bread to the can­ons.[2] Foremost in London was land acquired and rented to citizens. There­fore most of the in­come stemmed from the city and was only partially augmented by revenues from out of town.[3] Until the dissolution in the 16th century, starting around 1290, the income of the monastery increased.[4]

Detail of structured document, containing seven entries of the cartulary

Figure 1: Detail of structured document, containing seven entries of the cartulary

The cartulary is one of the main sources for the economic and political history of Holy Trin­ity. In the 18th century the manuscript was edited and partially printed.[5] The edition in 1971 by Hodgett follows this tradition and treats the manuscript as a trustworthy collection of docu­ments in possession of the monastery.[6] The production of the cartulary itself is only given a lim­ited account. Although time (between 1425 and 1427) and scribe (Thomas de Ax­bridge) are known, it’s not asked what the reasons for the production of the cartulary could have been, and why the documents were ordered by parish. Similarly, it is not asked, why after the 13th century fewer and fewer documents were copied into the cartulary.

Without being able to consult the manuscript, it is hard to judge what reasons do stand be­hind the production in the 1420. The order of documents suggests connections between the cartu­lary and book of accounts. Bringing together the scattered documents of a parish in one place. Due to the fact that even summation (aggregation) were part of every parish-entry, it’s highly likely that the book was needed in order to defend or execute entitlements. This would explain the differ­ent types of documents and some of the frequencies (outlined below in figure 3).[7] Yet, these are only assump­tions that need further research.

In order to produce a distinct nomenclature in this paper, a “document” refers to the docu­ment that was copied into the cartulary. “Entry” is a part of the cartulary, i.e. a document, but also the notice (similar to a chronicle), or a summation. “Manuscript” meanwhile describes the cartulary as a book.

Structures of the documents – structuring the cartulary

The basis of this analysis is the edition by G. A. J. Hodgett published in 1971. This edition of the cartulary was digitized by British History Online[8] “a digital library containing some of the core printed primary (…) sources for the medieval (…) history of the British Isles.”[9] Most parts of the edition by Hodgett do not consist of full-text transcriptions but modernized and standard­ized summaries of the documents copied into the cartulary. The cartulary itself, as mentioned above, is not executed by the editor, and thus every copy is treated as a sin­gle entry referring to the document that should have existed at the time of the produc­tion of the cartulary.[10] Each entry is numbered,[11] followed by time of production (or time frame if un­sure), and a typological classification.[12] There are many types of documents and sometimes overlap­ping: Grants appear most often, followed by lists of those paying (quit) rents, notes, and summation of parishes.[13] Subsequent to the type of the char­ter follows a description of the act that was attested by the document, outlying the legal act, the involved parties, as well as the amount of money that was part of the agreement. Due to the goals of this paper that parts have been almost entirely ignored. Of far more interest are the lists of witnesses attached to the description of the documents. Although often shortened in cartularies, it seems as if this prac­tice was not followed in Holy Trinity. While this is obviously beneficial for the present study, we still wonder why the witnesses were copied.


Figure 2: Quantity of entries in cartulary by year.

In order to work with the available material, a structured document was created that can be searched and interpreted using so called “regular expressions”.[14]

Of the 1073 entries contain at least 366 entries one witness. Subtracting the entries of the summations of parish totals (84), the lists of those paying (quit) rent (264), and the chronicle en­tries (22), 703 entries could possibly include witnesses.[15] In slightly more than 50 percent (52%) of the entries at least one witness is mentioned.

A charter mentions on average 3.65 witnesses (if witnesses are in it at all). Of the 1336 witnesses in the cartulary, about 1080 of those are mentioned only once as wit­nesses: 134 appear twice or more.[16]

The use of the structured document appears to be useful in order to determine how many wit­nesses to expect. Therefore it is possible to determine that as a maximum 18 witnesses were listed (in 1193),[17] whilst several entries only name one witness.[18]

Not counted were entries mentioning an undefined number of witnesses (like “and further noble­men”).

The distribution of charters over the years within the cartulary shows that most entries were written between 1147 and 1272. Some years dominate the entries in the cartulary, for reasons that might have to do with the fact that in case of uncertain dating (i.e. postquam dating) the earliest possible date was taken.[19] No differences were made between dates vali­dated with cer­tainty compared to dates only assumed. On average almost 1.06 dated entries can be found in the cartulary per year.[20]

In order to fully understand the appearing witnesses (especially its shifting quantities) it is neces­sary to describe all entries of the cartulary in a similar manner, leading to a typology that was assumed by Hodgett’s edition (and of course a strong point of attack).

Although several checks and controls were conducted there still will be errors in the 3945 lines of the structured files, a caveat to relativize all conclusions to come.


Figure 3: Distribution of types of charters, including containing witnesses.

The typology of different charters demonstrates that mostly grants were copied into the cartu­lary. Lists of those paying (quit) rents does make the second largest part (together with the grants more than 80 percent. The fact that mostly grants were witnessed is very intri­guing, since it makes claims about the nature of grants possible and strengthens the presupposi­tion that the transmission of grants was one of the main goals of the production of the cartulary.[21] Combined with the appearance of entries of summation and lists of leasehold­ers a system of accounting becomes most likely a “background” of the cartularisa­tion. Regarding the distribu­tion of entries containing witnesses it becomes obvious that no type of document with certainty needed the involvement of named witnesses.[22]

Applied Quantifications – What the Numbers Tell

The next question to tackle concerning the witness lists deals with the distribution of wit­nesses per entry per year, in order to be able to tell whether there was a shift in pure quan­tity of wit­nesses listed in the documents.

Every dot in figure 4 symbolizes the number of witnesses in a given document in a particular year. Looking for patterns it becomes obvious that no development towards a more standard­ized number of witnesses per document can be stated over the long run. On the contrary, alt­hough two or three witnesses seem to become rather “normal” at the end of the 12th century, around 1300 the diversity grows again (maybe also due to the fact that the sam­ple around that time gets thinner). Also between 1190 and 1280 a lot of documents were pro­duced, naming either more witnesses than the two or three, or even less by nam­ing just one. The one witness-entry is only a frequent option between 1215 an 1250, which diminishes at the turn of the 14th century.

Further insights are promised by the analysis of three factors at the same time: date – type – and quantity of witnesses (figure 5). The regular connection between witnesses and grants be­comes once again obvious. As already demonstrated in the typological comparison, grants do mostly come with witnesses (more than 88% of the documents). And they do so steadily over time. Although usually containing about three witnesses, peaks and lows aren’t missing and no connection between time frame and quantity (concerning peak and low) can be found. Concern­ing the overall quantity of witnesses in the documents, there is no pattern or evolu­tion to­wards a consistent quantity detectable, not even for certain types of documents. A tendency towards three or four witnesses on average per grant can perhaps be found between 1230 and 1280.

Figure 4

Figure 4: Distribution of Witnesses by year per document. Grey cross lines stand for two witnesses. The figure is to scale.

For the same time period is also a concentration detectable on using witnesses only in grants (ex­cept for two leases and one release). Before as well as after the time frame the variety of types was broader, although not consisting of the same types of documents before and after. Whereas before, types such as “confirmations”, “letters”, and a “release” can be found, in the later period one “acquittance”, “quitclaims” and others can be stated. In both periods (before 1230 and after 1280) occurred witnessed “exchanges”.

Patterns in Documents produced in the same time – an excursus

Due to the fact that certain years appear more often as dates of entries, the likelihood of pat­terns in appearing witnesses are higher. And analyzing the entries of 1222 (or rather post 1222) shows that certain people and even identical or almost identical combinations of peo­ple appear (42 entries containing witnesses): 7 documents were witnessed solely or accompa­nied with not more than one other named witness by Gilbert Fulc (or “son of Fulk”). Even more intri­guing is the appearance of a combination of witnesses in the same year: William de Alegate, Ralph his brother, Stephen the Tanner, Terricus, Bartholomew (also a brother of William) ap­pear among others (and twice in a different sequence) in 9 entries.

Similar to the insights of McKitterick for Saint Gall, it can be stated that in 13th century Lon­don witnesses were denominated (at least partially) in groups.[24] Due to the fact that the char­ters cannot be dated exactly, it remains questionable whether the issuing of the char­ters happened at the same date or whether the same group was called up on different dates.

Interestingly, the same cannot be concluded for the documents dated 1197 (or rather post 1197). In this group of documents only 3 persons appear more than once.[25] In the same pe­riod it’s also conspicuous that a majority of people with a clerical background are listed as witnesses (es­pecially in comparison to the group of 1222).[26]

Quantifying Witness Lists: a Conclusion and a Critique

The idea of this project was to rely solely on gained “data” (rather than information) of the cartu­lary’s digitized version in order to test how far and in what directions a quantitative analysis could lead. The results are biased:

No constant patterns of when how many witnesses were present in order to produce a char­ter was found. Neither is there, barring grants to a certain degree, a type of document identifiable that had to have witnesses mentioned. Except for the period between 1230 and 1280 there is no evolution or stream-lining of documents detectable. But interestingly right at the beginning of this period, a pattern of groups of witnesses can be stated. These two percep­tions united could belong to an attempt to produce documents a certain way using a certain group of peo­ple. Or it could be a sign of the influence claimed by a certain group in the 1220ies and 1230ies. Between 1222 and 1248 Richard was prior, right at the time that “the greatest business activity took place”[27] according to Hodgett.[28]

These conclusions make two points obvious: A quantitative analysis only makes sense if compared and enhanced with further perspectives that can’t be gained from pure num­bers. Second, one of the main problems of this paper remains or gets even aggravated: The cartu­lary stands like a semi-translucent curtain between the documents and the historian. The uncer­tainty of what is trustworthy and what not remains.[29] For example, the re­peated occurrence of the same group of people could indicate a forgery.

Figure 5

Figure 5: Representation of quantity of witness – type – and time of production. The charter (years) is not to scale! The average value is taken if the same type appeared more than once in one year.

Nevertheless, depictions and quantifications might help to approach questions of why and how witnesses were “used” in documents (and further in medieval societies). Dealing with quantifica­tions might help to detect patterns and modifications that would have gone unno­ticed in close reading. Comparisons are more easily feasible and hone our approaches to differ­ent institutions and settings. Though, of course a wider array of data needed to be collected in order to be able to make more sustainable arguments.

[1] A short introduction to the monastery, its history, and its economic standing is given in the introduction of the edition: Hodgett, G. A. J.: The Cartulary of Holy Trinity, Aldgate: London Record Society 7 (1971), pp. xi-xxi, here: xiii-xvi. The site of the monastery was before its foundation already inhabited by canons, see ibid, p. xiii.

[2] Without having indepth insight, one could argue that this was not done due to the scarce endowment but in order to popularize the newly established monastery. Following the narrative of the scarcity: Ibid, p. xiv.

[3] Ibid, xvi, Hodgett estimates that 60 percent were income from the city. One of the neglected sources of incomes were coming from churches collated to Holy Trinity, cf. Ibid, xvii.

[4] Ibid.

[5] Ibid, xi.

[6] Hodgett claims that the scribe of the book (Thomas de Axbridge) was not negligent but partially ill informed.

[7] See Figure 2, p. 6.

[8] Hodgett: The Cartulary of Holy Trinity, Aldgate: London Record Society 7 (1971). URL: http://www.british-history.ac.uk/report.aspx?compid=64000 [accessed: 15 October 2013].

[9] Cited after self-description: http://www.british-history.ac.uk/Default.aspx [accessed 2013-10-15]. The ressource was created and is maintained by the Institute of Historical Research and the History of Parliament Trust.

[10] Except for page breaks of the cartulary that are mentioned within the documents.

[11] Numbers run from 1 to 1073, baring an appendix.

[12] The classification is only partially stringent, since some of the charters were described rather than classified in length.

[13] As mentioned above (see page 1), the main goal of the cartulary might have been a more severe control of the dues, thus understandably the mentioned parts occur the most often. A list of the most frequent types of documents is to be found in figure 3.

[14] The document is in XML, a markup language that does not define the interpretation of the used tags but demands for a strict hierarchy. The style of the structure is close (but not according) to the quasi-standard of TEI (Text Encoding Initiative) for the structured encoding of texts (especially editions): http://www.tei-c.org/index.xml [accessed: 2013-10-15].

[15] The subtracted entries were either never produced as charters and appear in the cartulary for the first time (such as chronicle entries and summations of parishes), or are traditionally not known to have contained a witness list (such as lists of those paying rents etc.).

[16] There is an uncertainty in these numbers because they were collected by comparison of names, independent of the time of their appearance, thus it is possible, that persons were counted as identical because they had had the same name. Further it is also possible that persons appeared several times as witnesses but were counted as distinct persons, since the spelling of their name varied greatly (small variations were taken into consideration if possible) and/or they were only called by their first name.

[17] Entry n° 270, a grant of Jordan to Holy Trinity.

[18] To be found in the years 1087, 1135, 1136, 1170 (twice), 1180, 1197 (twice), 1215, 1222 (eleven times), 1223, 1228, 1231, 1241, 1243, 1247, 1250 (twice), 1252, 1270, 1303, 1308, as well as five undated entries.

[19] 1222 is mentioned in 45 entries, 1170 in 41, 1197 in 28. The postquam dating could refer to: 1170, assassination of Thomas Becket; 1222, council at Osney.

[20] The average per year is 1.05974 (all years considered).

[21] In this regard a comparison of grant holders and lease paying people could be very fruitful.

[22] „Sales“ and „quitclaims“ do always contain named witnesses, but since they only appear in small numbers, the conclusion would not be steady. There is also no pattern to be found in the grants not containing witness lists.

[23] Grey cross lines stand for two witnesses. The figure is to scale.

[24] McKitterick, Rosamond: The Carolingians and the written word, Cambridge 1989, pp. 98-103.

[25] Roger, the chaplain of St. Edmund (twice); Robert, the chaplain (five times); John, chaplain of St. Michael.

[26] In the group of 1197 slightly more clericus than laicus can be found, whereas in the group of 1222 less than a handful clericus appear.

[27] Hodgett, Cartulary, p. xv.

[28] Assuming this is correct, that means that not the biggest spikes in the production of documents could point to such activity but rather a steady production.

[29] Similar to the observations of: Geary, Patrick J.: Phantoms of remembrance : memory and oblivion at the end of the first millennium, Princeton 1994, pp. 112-114.

Digital Humanities Defined — zu eng?

In seinem Beitrag vom Sonntag bringt Michael Piotrowski (twitter: @true_mxp) ein wichtiges Thema auf den Punkt: Was zum Teufel sind eigentlich DH (Link zu seinem Blogbeitrag).

Vorausschicken muss man, dass Michael in vielen Punkten recht hat: Die DH keine eigene Disziplin ist (sondern innerhalb der „alten Disziplinen“ agieren muss), ein (weites, undefiniertes) Methodenset anbietet, etc. (oder kurz: Beitrag lesen).

Seine Definition der Digital Humanities ist knapp und schlüssig, wobei er zwischen „enger“ (1) und „erweiterter“ (2) Definition unterscheidet.
(1) Die Anwendung von quantitativen, computer-basierten Methoden für geisteswissenschaftliche Forschung (sprich zur Beantwortung geisteswissenschaftlicher Fragestellungen)
(2) Die Anwendung von computer-basierten Tools für geisteswissenschaftlicher Forschung.

Zur Veranschaulichung zählt er etwa digitalen Editionen zu zweiter Gruppe, jedoch nicht zu DH im ersten, engeren Sinn.

Grundsätzlich bin ich sehr dafür, ab und zu kurze Diskussionen über die Definition von Digital Humanities zu führen. Ich bin wie Michael der Meinung, dass in vielen Definitionen zuviel dazu gerechnet wird und der Begriff bereits zu oft als Buzzword (sei es bei Anträgen für Forschungsprojekte oder zur Selbstdarstellung) missbraucht wird. Wie er ausführt hat das Führen eines Blogs wenig mit DH zu tun, ebenso wenig wie Konversationen auf twitter oder Ausschreibungen auf H-Soz-Kult.

Mein Problem an seinen Definitionen ist sein strenge: (1) ist mir zu eng, (2) dagegen zu weit. (hört sich wie eine herrlich endlose scholastische Debatte an…)
Die zweite Definition würde — meiner Meinung nach — eigentlich alle WissenschaftlerInnen zu DHler machen, die nur ab und zu einen Computer anmachen und eine Abfrage auf dem Suchanbieter/Bibliothekskatalog ihrer Wahl durchführen. Obwohl ich noch nicht ganz von der Zweiteilung in weite und enge Definition überzeugt bin, müsste daher hier eine Verfeinerung stattfinden.

Bei (1) der Definition bin ich dagegen völlig d’accord, dass es sich bei allen damit beschriebenen Forschungen um DH handelt. Gleichzeitig gehört aber dennoch mehr in diese Kategorie: Wenn der Begriff Quantifizierung vorgebracht wird, impliziert dies eine statistische Veri-/Falsifizierung. In vielen vorstellbaren Anwendungsfällen der Geisteswissenschaften wird die Datenlage jedoch zu klein sein um jemals zu einem statistisch belastbaren Ergebnis zu kommen (und eine Ausweitung der Stichprobe ist für mich ein äusserst zweischneidiges Schwert, big data ist nicht die Antwort auf alles). Würden solche Forschungen folglich dennoch als „quantifiziert“ gelten?

Ein weiteres Themenfeld das völlig weggelassen wird, sind Visualisierungen. Der versierte Argumentator wird vorbringen, dass es sich dabei nicht um Forschung/“Denken“ im engeren Sinn handelt, zugegeben. Dennoch kann etwa die Darstellung auf einer Karte zu Einsichten führen, die nicht einmal Ortskundigen auffallen würde (ganz zu Schweigen vom Potential der Kombination mit geologischen oder anderen Filtern).

Dies führt mich zum eigentlichen Kern: Meiner Meinung nach geht es in den Geisteswissenschaften um das Verstehen von Menschen, ihren Vorstellungswelten (Wirklichkeiten?), ihren Handlungen und ihren Beeinflussungen. Um dem aber näher zu kommen, bedarf es oft dem Überwinden eigener Vorstellung und Logik („Selbst-Befremden“) und genau dafür kann (und soll) die Maschine auf dem Schreibtisch auch genutzt werden. Mit neu dargestellten, umgeordneten Daten (Quellen) ist es möglich zu anderen (vielleicht besseren) Anregungen gegenüber von Problemgemengen kommen. Und genau solche Impulse gehören zu den Digital Humanities (meiner Meinung nach sogar dann wenn die Auswertung theoretisch ohne Rechenleistung erbracht werden könnte, in dem etwa selbst eine Karte gezeichnet würde). Ansonsten sind wir relativ schnell wieder bei Diskussionen um Quantifizierungen und „Zählbarmachungen“, die bereits in den 70er Jahren die Geschichtswissenschaft zu revolutionieren versuchten und in Retrospektive zahlreiche Grabenkämpfe auslösten.

Die von Michael vorgebrachte Kategorie für Natural Language Processing und ähnliches als Humanities Computing (ausserhalb der DH), könnte als Anstoss gesehen werden über die Einführung von weiteren Kategorien nachzudenken, welche die DH als Umbrella-Term nutzen. Statt einer Zweiteilung hätten wir dann eine Vielzahl von Unterdefinitionen…

Und was bedeutet es nun Digital Humanities zu betreiben?

Der Einsatz von digital(isiert)en Ressourcen und Algorithmen (Programmen?) um geisteswissenschaftliche Fragestellungen zu beantworten. (na ja, auch nicht ganz zufrieden stellend…) [eine Fortsetzung der Diskussion ist wohl unumgänglich :]

Renouveaux Potentiels II: Sémantique Historique

Wie im letzten Post begonnen, soll an dieser Stelle, das nicht mehr ganz frische Werk von Alain Guerreau «L’Avenir d’un passé incertain» bzw. die vom Autor als zukunftsträchtig eingestuften Potentiale besprochen werden.

Ein sich wiederholender Ausspruch Guerreaus betrifft das Potential der linguistischen Auswertung von Quellentexten. Ausgehend von „prekärem Wortwissen“ (in Anspielung auf fehlende bzw. ungenügende Wörterbücher, welche durch die Fachwissenschaft auch nicht gebraucht werde) will G. Wandel im Begriffsgebrauch und in der Begriffsgeschichte deutlich machen. Wiederum folgt G. einem totalitären Ansatz, indem er sich nicht auf einzelne Begriffe stützt, sondern im Grundsatz alle Worte (insbesondere die mittellateinischen) neu kontextualisieren und „verstehen lernen“ will. Obwohl nicht grundsätzlich in Frage gestellt (u.a. für Belegstellen!) werden Wörterbücher als problematisch dargestellt.

Eine Verdeutlichung bringt das Vorkommen von vinea in einer Urkunde des 11. Jahrhunderts (ab S. 195). Einleuchtend wird die Übersetzung von vinea als vigne abgelehnt und aufgezeigt, welchen Hintergrund das Wort im mittelalterlichen Kontext hatte. Gekonnt wird die Andersartigkeit der Weintraube vom Anbau über die Bewirtschaftung bis zur Ernte beschrieben. Tieferschürfend verfährt G. auch auf der Ebene der représentation, indem er aufzeigt, wie eng verknüpft das Niederschreiben des Begriffs vinea auf Pergament mit dutzenden Stellen in der Vulgata war (S. 197). [Witzig ist, dass G. an dieser Stelle direkt abschweift und von der Häufigkeit bzw. dem Fehlen der vinea in gewissen Büchern der Bibel zu berichten beginnt, ohne zu einem Abschluss zu kommen; erweitert wird die Beschreibung durch Ausblick auf Augustin und die gesamte PL] In einem der abschliessenden Sätze „entlarvt“ sich Guerreau und bringt sein Programm (oder sein Ziel der Geschichtsschreibung) zum Ausdruck: „La seule finalité du métier d’historien est de montrer comment les sociétés ont fonctionné et se sont transformées. Cette finalité impose de partir de l’idée de la société comme ensemble articulé de relations, et rien d’autre.“ (S. 200)

Quelle: http://www.amazon.fr/Lavenir-dun-passé-incertain-histoire/dp/2020496976/ref=sr_1_1?ie=UTF8&qid=1371214666&sr=8-1

Schlecht zu lesen: Auf der Abbild steht „Ceci est ou n’est pas une vigne“. Quelle: http://www.amazon.fr/Lavenir-dun-passé-incertain-histoire/dp/2020496976/ref=sr_1_1?ie=UTF8&qid=1371214666&sr=8-1

Um die Unzulänglichkeiten auszumerzen, schlägt G. vor champ sémantique zu bilden (mit Verweis auf Jost Trier und seine Wortfelder und Sinnbezirke). Wie die Analyse anzustellen sei, weiss G. nicht: „c’est une des tâches les plus urgentes qui s’imposent aux médiévistes dans les prochaines années.“ (S. 208) Wichtige Bestandteile einer solchen Analyse müssten die Korpus- und Konkordanzbildung sein. Einer der Vorteile wird dann das „wieder“ oder „neu“ und „anders“ lesen (bekannter) Texte.

Um der Methodik der Semantik näher zu kommen beschreibt G. in einem längeren Abschnitt die Geburt und Entwicklung derselben im Feld der Linguistik am Ende des 19. Jahrhunderts, wobei relativ rasch ins 20. Jahrhundert und die Gegenwart vorgedrungen wird. Der Schwerpunkt ist klar auf die deutschsprachige Forschung gelegt und endet mit der Transferthese Bumkes (die besagt, dass der Ritterbegriff durch die „Übersetzungen“ Hartmanns von Aue in die deutsche Vernakular gekommen sei).

Leider vernachlässigt es Guerreau fast vollständig aufzuzeigen, welche Methodiken angewandt werden könnten um seinem Ansinnen, einer Neu-Interpretation mittelalterlichen Quellen gerecht zu werden. Gelegentlich dringen einige Fetzen, welche an korpuslinguistische Vorgehen denken lassen durch, handfeste Konkretisierungen fehlen jedoch.

Alles in allem bleibt der interessierte Leser etwas ratlos zurück. Auch die abschliessenden zwölf Thesen sind zwar (neben ihrer Radikalität) durchaus anregend, bringen aber keine Konkretheit in das Guerreau’sche Projekt der Mediävistik im 21. Jahrhundert.

Renouveaux Potentiels I: Archäologie und Statistik (Guerreau gekürzt)

2001 veröffentlichte der streitbare Historiker Alain Guerreau einen Aufruf und eine Versuchsanleitung, wie historische Mittelalterforschung im 21. Jahrhundert funktionieren soll (Guerreau, A.: L’Avenir d’un Passé Incertain. Quelle Histoire du Moyen Age au XXie siècle. Paris: Editions du Seuil 2001). Die Ansätze sind – abgesehen von den Profanitäten – äusserst lesenswert und sollen an dieser Stelle thematisch geordnet und verkürzt wiedergegeben werden. [Rezensionen zum Werk finden sich hier, hier und hier.]

Als wichtiges Potential für die historische Mittelalterforschung wird Archäologie, Statistik und Informatik („nouveaux support de l’information“) identifiziert. Im Aufbau des Buches finden sich diese Ansprüche nachdem eine profunde (und „leicht“ polemische) Historisierung des Forschungszweigs vorgenommen wurde (I: Naissance et étapes de la médiévistique, S. 19-135).

Im Gegensatz zur Antike, so Guerreaus kurze und wahre Problematisierung, beteiligten sich Historikerinnen so gut wie nie an archäologischen Grabungen, obwohl das Grundwissen dazu in 15 Tagen angeeignet werden könnte. In globo geht der Zunft deswegen ein verständnisvoller Umgang mit den materiellen „Grossüberbleibseln“ der Zeit ab: Les médiévistes doivent tous fouiller (154)!

Eine Folge dieser Abwesenheit ist die Vereinnahmung (vorwiegend der Kirchen) durch KunsthistorikerInnen, welche sich vorwiegend ästhetischen Fragen und Annäherung zuwenden. Évolution, rôle und signification (145f.) spielten dabei eine zu kleine Rolle.

Die Rolle der Mittelalterarchäologie sieht G. auch in der Analyse von grossen Flächen und Studien zu pflanzlichen und tierischen Überresten in der Umgebung der Grabungen (lobend hervorgehoben werden die von Devroey und Mol herausgegebenen Studien zu Dinkel).

Das Resultat der Grabungs- und Auswertungsarbeiten sieht G. gesammelt in Standartwerken (positiv vermerkt die corpus vitrearum), welche wiederum von der Wissenschaft herangezogen werden muss und ein „vollständigeres“ Bild zu liefern hilft.


Im zweiten Teil seiner Auslotung des Potentials, geht G. zu den Möglichkeiten der Statistik und der Informatik. Angefangen bei der Entwicklung des Personal Computer über die Digitalisierung von Quellen und Fachliteratur zu dem daraus erwachsenden Potential, werde ein Umgang mit Zahlen- und Wort-Reihen möglich, welcher nicht verglichen werden kann mit den (zurecht) gescheiterten Quantifizierungsversuchen der 70er und 80er Jahren des letzten Jahrhunderts. Das Argument – zugegebenermassen bei ihm etwas komplexer vorgetragen – ist nur bedingt richtig. Wie öfters im Buch geht G. von einer Medävistik aus, die nicht gehindert wird durch ökonomische, forschungstechnische und andere Hemmnisse. Dem Franzosen schwebt ein Apparat von Forschern vor, die alle nur das Ziel kennen »das Mittelalter« in allen seinen Facetten auszuleuchten. Entsprechend rigide müssen seine Ansprüch demzufolge auch sein.

Aber zurück zum Potential: Es geht also um die Nummerisierung (Dataisierung?) des Forschungsgebiets. Vom indicateur kommt man zum indicateur généralisé (177-179). Etwa lassen sich aus dem Gebrauch und der Häufung von Abkürzungen in Inkunabeln auf die zones de calage schliessen, analysiert man eine möglichst grosse Anzahl von Inkunabeln führt dies zu Schlüssen der Herkunft.

In eine andere Richtung zielt die Binarisierung des Untersuchungsgebiet, indem eine Anzahl von klar entscheidbaren(0 oder 1)  bzw. bezifferbaren Fragen/Definitionen an Subjekte/Objekte gestellt werden und nach Ähnlichkeiten und Korrelationen gesucht wird: Ausgeführt anhand von Manuskripten kann man sich vorstellen, dass Herstellungszeit, -ort und -institution aufgenommen werden sowie kodikologische und inhaltliche Angaben, wie die Zeilenlänge, Spaltenzahl, Schrift, Art des Textes etc. Resultate zur Produktionslandschaft (analog zu Urkundenlandschaft?) und der dortigen Gesellschaft(en) lassen sich erhoffen. [Das Beispiel finde ich sehr interessant, dennoch würde ich gerade hier vorbehalte machen bezüglich Fragen der Überlieferung, die nicht an letzter sondern an erster Stelle stehen sollten. Ansonsten beziehen sich die gemachten Aussagen stärker auf spätere Ausleseprozesse als die Dokumentenproduktion.]

Als weitere wichtige Möglichkeit der computerisierten Hilfe streicht G. die Herstellung von Grafiken hervor, wobei gleichzeitig auf die Gefahren hingewiesen wird.

Der Abschluss der kurzen Werbetour macht ein Ausblick zur sémantique historique, welche im nächsten Beitrag erörtert wird.

Google nGram und der Versuch einer Rezeptionsanalyse

Überlegungen zu Textanalyse und wie es gelingt „hinter den Text“ zu kommen, treiben mich bereits etwas länger um. Interessanterweise liegt es nicht zuletzt am digital turn und der (Retro-)Digitalisiererei, die diesbezüglich Neuansätze denkbar machen lässt (den Zusammenhang mit dem linguistic turn und Medienentwicklungen – McLuhan et al. – müsste man natürlich auch noch herstellen).

Kurzschlüssig formuliert, wenig verwunderlich also, dass aus dem grössten Digitalisierungsprojekt (der Menschheit? des Universums?) ein Tool erwachsen ist, welches Usern Worte, Ausdrücke und ganze Sätze suchen lässt im digitalisierten Buch-Bestand [google books]. Mit Hilfe sogenannter N-Gramme (das sind Zerlegungen von Texten, im Falle von Google Books, in Wörter, etwas präziser bei Wikipedia) kann visualisiert werden, welcher Begriff, welcher Satz wann, wie häufig vorkam und so (vielleicht auch) zeigen wie wichtig er war. Spannend wird die Auswertung, da unterschieden wird nach Sprachen, insbesondere aber, da verglichen werden kann zwischen Begriffen. Wer wird wann häufiger erwähnt: Platon oder Aristoteles? (im deutschsprachigen Korpus liegt A. immer vorne, die Entwicklung verläuft jedoch parallel; im französischsprachigen Korpus liegt der Fall genau umgekehrt, wobei Plato immer deutlich vorne liegt; im englissprachigen Korpus schliesslich gibt es häufiger Führungswechsel [Platon führt etwa zwischen 1934 und 47 oder 54 und 64]).

Die Verbreitung und hier kommt Google gleich zum zweiten Mal ins Spiel wurde nicht zuletzt durch eine Publikation – mitgeschrieben von Mitarbeitern des Such-Gross-Konzerns – angeheizt. Der eigens dafür komponierte Begriff „Culturomics“ (frei übersetzt: Kultur-onomie, zusammengesetzt wie Öko-nomie; gedacht wie Genom-Analyse bzw. was daraus gefolgert werden kann: genomics) soll verdeutlichen, dass in Zukunft aus einer Unzahl von Büchern und der Auswertung von Wortfrequenz und ähnlichen Verfahren schlüssig und vor allem quantifizierbar (und somit verifizierbar?!) eruiert werden kann, was wann wichtig war. – Das hört sich krude an, ist es auch, aber Kritik steht (hier) nicht zur Debatte.

Culturomics is the application of high-throughput data collection and analysis to the study of human culture (Science 331/176 (2011), pp. 181-182)

Interessant ist, wie der Ansatz in den vergangenen Jahren in der Öffentlichkeit verbreitet und rezipiert wurde. Mit am Anfang steht die angesprochene Publikation, die von Jean-Baptiste Michel et al. in Science publiziert wurde. Die Wahl für das Publikationsorgan hängt, gemäss Selbstbeschreibung im Paper, mit Wissen um die Gepflogenheiten der Zeitschrift zusammen; das es sich dabei um eines der wichtigsten Publikationsorgane weltweit handelt, entspricht wohl dem Anspruch der Forscher und Forscherinnen. Innerhalb der vierzehn Autoren, werden vier als Mitarbeiter von Google ausgewiesen und als Mitautor „The Google Books Team“ genannt.

Auf den Science Artikel folgend sprang praktisch jede Zeitung auf den n-Gram Zug auf (interessant wie unterschiedlich n-gramme darin definiert und erklärt wurden). Innert Monaten wurde jeder nur bedingt Interessierte mit Culturomics und/oder n-Gram bekannt geprügelt gemacht.

Die Reaktion von Geisteswissenschaftler insbesondere auf den Science Artikel war dürftig (im besten Fall) – die lesen ja auch nicht Science… Gerade mal zwei Reaktionen finden sich innerhalb der Zeitschrift (Science 332 (2011), pp. 35-36). Die Vorwürfe der beiden Scholars richtete sich zum einen gegen die Definition von „Wörtern“ und zum anderen gegen die Beschränkung der Datengrundlage auf „Bücher“. Beide Vorwürfe wurden freundlich, aber mit Verweis auf zukünftige Verbesserungen zurückgewiesen. Seitdem wurde das Thema innerhalb von Science nicht mehr kontrovers diskutiert.

Was ich bezüglich der Aufnahme des Google n-gram Tools für interessant (und irgendwie auch bezeichnend halte), ist dass es aufgrund der Methode und mit Verweis auf Quantifizierungsmöglichkeiten von „Kultur“ möglich war, sich in einem der wichtigsten Wissenschaftsmagazine zu positionieren (Wissenschaft im Sinne von scientific im Gegensatz zu scholarly).
Ob kausal verknüpft oder nicht sei dahingestellt: Folgend auf die Publikation erhielt das Tool eine Publizität über die gesamte Welt, sodass ein Umgehen der Abfragemöglichkeit unmöglich erscheint. Dennoch fehlen Ansätze zur Kritik (oder auch Verbesserungs- und Anpassungsvorschläge) von Seiten der intendierten Nutzer (also Geisteswissenschaftler) bis auf wenige Ausnahmen.
Erstaunlicherweise scheint die „Weltöffentlichkeit“ eine neue Methode (oder eine Herangehensweise?) zu kennen, die jedoch in der Fachwissenschaft nicht genutzt oder nicht diskutiert wird.
Oder noch bösartiger formuliert: Alle Welt meint die Möglichkeit zur Erforschung von geisteswissenschaftlichen Problemen gefunden zu haben, aber die Wissenschaftler interessierts nicht.

Textanalyse mal anders — Idee zu einer Anleitung

Das Problem bei der Analyse von mittelalterlichen Quellen–insbesondere Urkunden–ist, dass wir eigentlich nur wissen, dass wir nichts wissen. Und allein um zu dieser Erkenntnis zu gelangen haben wir mehrere hundert Jahre gebraucht.
Joseph Morsel sagte einmal treffend:

Über mittelalterliche Dokumente wissen wir eigentlich nur, dass sie Ausdruck eines Problems sind.

(Wahrscheinlich habe ich die Aussage jetzt gerade fundamental falsch- und uminterpretiert und lehne an dieser Stelle jegliche Verantwortung ab. Ich kann auch nicht nachweisen, wo in seinem umfangreichen Werk er diese Aussage zu Papier gebracht hat — mea maxima culpa)

Ein Ansatz das Problem aus einer neuen Perspektive zu betrachten, bietet die non-lineare Textanalyse, die ich vor Wochen das erste Mal ausgetestet habe.

Der Ansatz funktioniert folgendermassen: Man nehme eine oder mehrere Quellen (den Ausdruck „Quelle“ umgeht Morsel übrigens geschickt und wohl nicht zu unrecht), werfe sie in einen Konkordanz-Programm für Korpusanalyse und schaue welche Worte am häufigsten vorkommen (keine Angst eine Aufzählung der Probleme folgt weiter unten).

Die Linguisten nutzen diese Art der Textanalyse schon länger, jedoch weniger für inhaltliche Forschung (im Sinne von, was passierte wann und wieso), sondern um diachrone Entwicklungen in der Sprache zu beobachten (auch bezüglich von Wortteilen).

Das faszinierende an der rohen Auszählung der Worte ist es, zu beobachten, welche Schwerpunkte anscheinend im gewählten Textkorpus vorherrschten. Noch spannender wird es wenn man visuell nachvollzieht, wo die häufigen Worte vorkommen (für gute Konkordanzsoftware ein Kinderspiel, gerne Verweise ich diesbezüglich auf die Seite von Noah Bubenhofer). Bei Protokollen zu Befragungen kann man etwa feststellen, welche Gruppe (oder wer, wen einzelne längere Aussagen machen) welche Worte braucht und welche nicht.

Im Idealfall könnten so sowohl synchron, wie auch diachron Vergleiche angestellt werden über die Worte–und in einem späteren Stadium vielleicht auch festen Ausdrücke–und der diesbezüglichen Veränderungen.

Zugegebenermassen ist das nicht die Lösung für alle Problem der unzugänglichen Inhalte von Dokumenten, es bietet aber eine neue Sichtweise auf alte Dokumente (oder, und das finde ich noch spannender: neue Sichtweisen auf sicher geglaubte Aussagen aus Quellen).

Das System enthält aber mehrere riesige Schwachstellen:

  • Zu wenig Dokumente stehen korrigiert (und ja damit meine ich eine Fehlerquote unter 99,9%) zur Verfügung.
  • Die Freiheit der Schreibweise führt zu problematischen Ergebnissen (Schreiberlinge waren schon um 1350 unsäglich kreativ)
  • Oft werden in Editionen (auch sog. elektronischen) Metadaten (wie Regesten), Quelltext und Kommentare wild zusammengeworfen (weshalb ich ein grosser Freund von XML Auszeichnung, etwa nach Schema der TEI, bin)

und diese grundsätzlichen Probleme sind nur der Anfang…

[as usual: to be continued]


Wie in einem früheren Post bereits kurz beschrieben, versuche ich mittels Erfassung von Urkundenbeständen (mit der enorm wertvollen Hilfe von Mitstreiterinnen) auszuwerten, wann welche Urkunde ausgestellt wurde. Eckpunkt der ersten Analyse waren die Jahreszahlen der Ausstellungsdaten. Dank der häufig vorkommenden „exakteren“ Datierung auf einzelne Tage, ist es möglich, zu berechnen an welchen Daten im Jahr die meisten Urkunden ausgestellt wurden (bzw. vorgeben ausgestellt worden zu sein).

Die Analyse der präferierten Ausstellungsdaten ist wahrscheinlich aussagekräftiger, als die zufallsbehaftete und aktiv gestaltete Überlieferung von Urkunden über Jahre und Jahrzehnte. Oder anders ausgedrückt: Die Verfälschung durch verlorene und zerstörte Urkunden wird sich als weniger verfälschend erweisen, als die Produktion bzw. gezielte Zerstörung von Urkunden in einzelnen Jahren. — (Dies ist auch der Grund, wieso ich versuche die Quantifizierung über fünfjahres Blöcke vor zu starken Verfälschungen zu reinigen) —

Das Resultat der ersten Auswertung scheint die Annahme zu bestätigen, denn es stellt sich heraus, dass nicht irgendwelche Tage am häufigsten für die Ausstellung für Urkunden gewählt wurden, sondern Feiertage:

  • 24.06. — Nativitas Johannis bapt. (Geburt Johannes d. Täufers)
  • 16.10. — Galli abb. cf. (Gallus)
  • 11.11. — Martini ep. cf. (St. Martin)
  • 06.12. — Nicolai ep. cf. (St. Nikolaus)

(abb. = abbatis; ep. = episcopi; cf. = confessoris)

Graph der Tages- und Monatsdaten der Produktion von Königsfelder Urkunden

Der Vorteil der Auswertung der Ausstellungstage, im Verhältnis zur Auswertung über Jahre, ist, dass Fälschungen nicht ins Gewicht fallen bzw. im Gegenteil aufzeigen, welche (Heiligen-)Tage besonders wichtig waren. Aussagen, die insbesondere für kulturwissenschaftliche Fragestellungen von grösserer Wichtigkeit sind, als die Authentizitätsfrage.

Was sagen nun aber die vier am häufigsten zur Ausstellung benutzten Tage über ein Kloster? Von besonderem Interesse erscheint mir der Johannistag, welcher kurz nach der Sommersonnenwende gefeiert wurde und ähnlich wie Weihnachten heidnisches Brauchtum mit christlicher Religion zu verschmelzen scheint. Interessant ist der Tag auch, da gemäss Bauernregeln (ja das ist aus der Wikipedia…) nicht vor dem Johannistag geerntet werden sollten. Spekuliert man über allfällige Abgaben, die an diesem Tag gemacht werden sollten, so scheint dies mit Resultaten von Julien Demande übereinzustimmen, welcher (hier stark verkürzt und holzschnittartig:) nachzuweisen versucht, dass Abgabepflichtige zu Zeitpunkten zum Verkauf ihrer Ernte gezwungen werden, an welchen die Preise am schlechtesten sind, also kurz vor oder zu Beginn der Erntesaison. Die „Herren“ verkauften dagegen ihre Naturalien erst zum Zeitpunkt des besten Preises. (Mehr hier: Julien Demade: Grundrente, Jahreszyklus und monetarische Zirkulation. Zur Funktionsweise des spätmittelalterlichen Feudalismus, in: Historische Anthropologie 17 (2009), S. 222-244.).

Gallus war ein häufig gewählter Kirchenpatron (v.a. in der heutigen Deutschschweiz und Süddeutschland) einen besonderen Bezug zu Königsfelden oder den Habsburgern lässt sich nicht feststellen. Das spezielle an Martini ist schwieriger zu bestimmen. Assoziert wird der Feiertag oft mit der Weinernte, was wiederum auf die von Demande vertretene These deuten könnte (die Abgabe von Weinen war insbesondere für Gebiete im Elsass von Wichtigkeit — das Ausschenken von Elsässer Wein wurde auch explizit an bestimmten Gedenktagen gefordert)

Schliesslich bleibt noch der Hl. St. Nikolaus. St. Nikolaus scheint stark mit Habsburg verbunden zu sein (bzw. könnte man vielleicht von der Konstruktion einer Verbindung sprechen), da die erste Stiftungsurkunde (1309) an diesem Tag ausgestellt wurde (aber Vorsicht: die besagte Urkunde ist nur kopial überliefert).

Fazit: Die zur Ausstellung von Urkunden gewählten Daten waren wohl nicht zufällig gewählt — ebensowenig wie später produzierte (Nach-Herstellungen /) Urkunden auf irgendwelche Tage gelegt wurde. Gezielt wurden konnotierte Daten gesucht, die u.U. vor Publikum präsentiert wurden. Aussagen, welche Urkunden zu welchem Zeitpunkt ausgestellt wurden (und wieso), können dagegen erst gemacht werden, wenn ausgewertet ist, welches „Geschäft“, an welchem Tag abgewickelt wurde. (= to be continued…)

(Disclaimer: Wie bereits früher angetönt: Die Daten sind ungereinigt und enthalten noch diverse bekannte [und evtl. unbekannte] Fehler, so lange diese nicht ausgemerzt sind, müssen alle Aussagen als provisorisch behandelt werden. Die vorgebrachten Ideen in diesem Eintrag sind denn auch reine Hypothesen. Auch muss für eine profunde Analyse bedacht werden, dass die Herrschaft über Königsfelden Anfangs 15. Jahrhundert wechselte. Ebenso problematisch ist es natürlich ohne nähere Angaben Daten mit Abgaben zu verbinden, ohne dies in den Quellen zu verifizieren.)