Quantifying Witness Lists – An approach doomed to fail

The following is a short paper prepared for a course. Since I was not able to further elaborate on it and put more material around, it remains a miscella with no specific claims.

The Witness Lists of the Cartulary of Holy Trinity, Aldgate

Research concerning persons, especially such dealing with masses of persons, often refers to the use and the possibilities offered by information and computational technologies: Faster re­search and more intriguing results are said to be possible. Through digitization and quantifica­tion more efficient and more precise work by historians ought to be possible. This paper seeks to test these promises by applying quantificational (factive) analyses on a collection of documents of Holy Trinity, Aldgate (London).


Witness lists offer the possibility to use an analysis based on quantification. For example it can be useful to distinguish how many witnesses were “needed” for a certain type of docu­ment, if any, and what changes occurred to this type over time. By looking solely at measura­ble fac­tors, I try to find as many possible conclusions that could be compared to results gained by close reading of similar sources. The danger of conclusions based on misinter­preted data is here willingly accepted and a test to check out approaches that are mostly neglected in the field of historical studies. Besides focusing on the use of wit­nesses in medieval documents, the methodology applied is of interest.

The questions posed in this paper are therefore threefold:

  1. How often and in what types of documents did witnesses occur in the cartulary of Holy Trin­ity abbey, Aldgate?
  2. What conclusions regarding typological as well as temporal patterns can be reached?
  3. How useful is the methodology in order to gain insights about matters of document produc­tion and connection between appearances of witnesses, date of document production, and types of documents?

The idea is to neglect the “content” of the entries in order to not be influenced by biases such as how much and what witnesses are to be expected when.

In order to have a quantifiable sample, I chose to analyze the documents copied in the cartu­lary of Holy Trinity. Due to the fact that the cartulary is available in a normalized English form and following a standardized description it is possible to structure the entries as data accordingly and without great effort (linguistical and paleographical). The structuring as well as the ba­sics of the documents will be explained in part 3. Part 4 deals with insights gained by the ap­plied methods. Part 5 offers conclusions as well as a critique of the methods applied, but first a short introduc­tion about Holy Trinity and its cartulary.

Holy Trinity and its Cartulary

Holy Trinity, Aldgate (also called Christ Church) was one of the most important monasteries within the city of London. Founded in 1108 by Queen Matilda (c. 1080—1118), secular can­ons following an Augustinian rule inhabited the site until its dissolution in 1532.[1] Since the founda­tion a strong connection to King and Queen as patrons can be found. Right at the beginning the endowments were invested heavily in buildings, vestments, and other objects of display, lead­ing to a scarcity of food and an involvement of the locals at Aldgate by donat­ing bread to the can­ons.[2] Foremost in London was land acquired and rented to citizens. There­fore most of the in­come stemmed from the city and was only partially augmented by revenues from out of town.[3] Until the dissolution in the 16th century, starting around 1290, the income of the monastery increased.[4]

Detail of structured document, containing seven entries of the cartulary

Figure 1: Detail of structured document, containing seven entries of the cartulary

The cartulary is one of the main sources for the economic and political history of Holy Trin­ity. In the 18th century the manuscript was edited and partially printed.[5] The edition in 1971 by Hodgett follows this tradition and treats the manuscript as a trustworthy collection of docu­ments in possession of the monastery.[6] The production of the cartulary itself is only given a lim­ited account. Although time (between 1425 and 1427) and scribe (Thomas de Ax­bridge) are known, it’s not asked what the reasons for the production of the cartulary could have been, and why the documents were ordered by parish. Similarly, it is not asked, why after the 13th century fewer and fewer documents were copied into the cartulary.

Without being able to consult the manuscript, it is hard to judge what reasons do stand be­hind the production in the 1420. The order of documents suggests connections between the cartu­lary and book of accounts. Bringing together the scattered documents of a parish in one place. Due to the fact that even summation (aggregation) were part of every parish-entry, it’s highly likely that the book was needed in order to defend or execute entitlements. This would explain the differ­ent types of documents and some of the frequencies (outlined below in figure 3).[7] Yet, these are only assump­tions that need further research.

In order to produce a distinct nomenclature in this paper, a “document” refers to the docu­ment that was copied into the cartulary. “Entry” is a part of the cartulary, i.e. a document, but also the notice (similar to a chronicle), or a summation. “Manuscript” meanwhile describes the cartulary as a book.

Structures of the documents – structuring the cartulary

The basis of this analysis is the edition by G. A. J. Hodgett published in 1971. This edition of the cartulary was digitized by British History Online[8] “a digital library containing some of the core printed primary (…) sources for the medieval (…) history of the British Isles.”[9] Most parts of the edition by Hodgett do not consist of full-text transcriptions but modernized and standard­ized summaries of the documents copied into the cartulary. The cartulary itself, as mentioned above, is not executed by the editor, and thus every copy is treated as a sin­gle entry referring to the document that should have existed at the time of the produc­tion of the cartulary.[10] Each entry is numbered,[11] followed by time of production (or time frame if un­sure), and a typological classification.[12] There are many types of documents and sometimes overlap­ping: Grants appear most often, followed by lists of those paying (quit) rents, notes, and summation of parishes.[13] Subsequent to the type of the char­ter follows a description of the act that was attested by the document, outlying the legal act, the involved parties, as well as the amount of money that was part of the agreement. Due to the goals of this paper that parts have been almost entirely ignored. Of far more interest are the lists of witnesses attached to the description of the documents. Although often shortened in cartularies, it seems as if this prac­tice was not followed in Holy Trinity. While this is obviously beneficial for the present study, we still wonder why the witnesses were copied.


Figure 2: Quantity of entries in cartulary by year.

In order to work with the available material, a structured document was created that can be searched and interpreted using so called “regular expressions”.[14]

Of the 1073 entries contain at least 366 entries one witness. Subtracting the entries of the summations of parish totals (84), the lists of those paying (quit) rent (264), and the chronicle en­tries (22), 703 entries could possibly include witnesses.[15] In slightly more than 50 percent (52%) of the entries at least one witness is mentioned.

A charter mentions on average 3.65 witnesses (if witnesses are in it at all). Of the 1336 witnesses in the cartulary, about 1080 of those are mentioned only once as wit­nesses: 134 appear twice or more.[16]

The use of the structured document appears to be useful in order to determine how many wit­nesses to expect. Therefore it is possible to determine that as a maximum 18 witnesses were listed (in 1193),[17] whilst several entries only name one witness.[18]

Not counted were entries mentioning an undefined number of witnesses (like “and further noble­men”).

The distribution of charters over the years within the cartulary shows that most entries were written between 1147 and 1272. Some years dominate the entries in the cartulary, for reasons that might have to do with the fact that in case of uncertain dating (i.e. postquam dating) the earliest possible date was taken.[19] No differences were made between dates vali­dated with cer­tainty compared to dates only assumed. On average almost 1.06 dated entries can be found in the cartulary per year.[20]

In order to fully understand the appearing witnesses (especially its shifting quantities) it is neces­sary to describe all entries of the cartulary in a similar manner, leading to a typology that was assumed by Hodgett’s edition (and of course a strong point of attack).

Although several checks and controls were conducted there still will be errors in the 3945 lines of the structured files, a caveat to relativize all conclusions to come.


Figure 3: Distribution of types of charters, including containing witnesses.

The typology of different charters demonstrates that mostly grants were copied into the cartu­lary. Lists of those paying (quit) rents does make the second largest part (together with the grants more than 80 percent. The fact that mostly grants were witnessed is very intri­guing, since it makes claims about the nature of grants possible and strengthens the presupposi­tion that the transmission of grants was one of the main goals of the production of the cartulary.[21] Combined with the appearance of entries of summation and lists of leasehold­ers a system of accounting becomes most likely a “background” of the cartularisa­tion. Regarding the distribu­tion of entries containing witnesses it becomes obvious that no type of document with certainty needed the involvement of named witnesses.[22]

Applied Quantifications – What the Numbers Tell

The next question to tackle concerning the witness lists deals with the distribution of wit­nesses per entry per year, in order to be able to tell whether there was a shift in pure quan­tity of wit­nesses listed in the documents.

Every dot in figure 4 symbolizes the number of witnesses in a given document in a particular year. Looking for patterns it becomes obvious that no development towards a more standard­ized number of witnesses per document can be stated over the long run. On the contrary, alt­hough two or three witnesses seem to become rather “normal” at the end of the 12th century, around 1300 the diversity grows again (maybe also due to the fact that the sam­ple around that time gets thinner). Also between 1190 and 1280 a lot of documents were pro­duced, naming either more witnesses than the two or three, or even less by nam­ing just one. The one witness-entry is only a frequent option between 1215 an 1250, which diminishes at the turn of the 14th century.

Further insights are promised by the analysis of three factors at the same time: date – type – and quantity of witnesses (figure 5). The regular connection between witnesses and grants be­comes once again obvious. As already demonstrated in the typological comparison, grants do mostly come with witnesses (more than 88% of the documents). And they do so steadily over time. Although usually containing about three witnesses, peaks and lows aren’t missing and no connection between time frame and quantity (concerning peak and low) can be found. Concern­ing the overall quantity of witnesses in the documents, there is no pattern or evolu­tion to­wards a consistent quantity detectable, not even for certain types of documents. A tendency towards three or four witnesses on average per grant can perhaps be found between 1230 and 1280.

Figure 4

Figure 4: Distribution of Witnesses by year per document. Grey cross lines stand for two witnesses. The figure is to scale.

For the same time period is also a concentration detectable on using witnesses only in grants (ex­cept for two leases and one release). Before as well as after the time frame the variety of types was broader, although not consisting of the same types of documents before and after. Whereas before, types such as “confirmations”, “letters”, and a “release” can be found, in the later period one “acquittance”, “quitclaims” and others can be stated. In both periods (before 1230 and after 1280) occurred witnessed “exchanges”.

Patterns in Documents produced in the same time – an excursus

Due to the fact that certain years appear more often as dates of entries, the likelihood of pat­terns in appearing witnesses are higher. And analyzing the entries of 1222 (or rather post 1222) shows that certain people and even identical or almost identical combinations of peo­ple appear (42 entries containing witnesses): 7 documents were witnessed solely or accompa­nied with not more than one other named witness by Gilbert Fulc (or “son of Fulk”). Even more intri­guing is the appearance of a combination of witnesses in the same year: William de Alegate, Ralph his brother, Stephen the Tanner, Terricus, Bartholomew (also a brother of William) ap­pear among others (and twice in a different sequence) in 9 entries.

Similar to the insights of McKitterick for Saint Gall, it can be stated that in 13th century Lon­don witnesses were denominated (at least partially) in groups.[24] Due to the fact that the char­ters cannot be dated exactly, it remains questionable whether the issuing of the char­ters happened at the same date or whether the same group was called up on different dates.

Interestingly, the same cannot be concluded for the documents dated 1197 (or rather post 1197). In this group of documents only 3 persons appear more than once.[25] In the same pe­riod it’s also conspicuous that a majority of people with a clerical background are listed as witnesses (es­pecially in comparison to the group of 1222).[26]

Quantifying Witness Lists: a Conclusion and a Critique

The idea of this project was to rely solely on gained “data” (rather than information) of the cartu­lary’s digitized version in order to test how far and in what directions a quantitative analysis could lead. The results are biased:

No constant patterns of when how many witnesses were present in order to produce a char­ter was found. Neither is there, barring grants to a certain degree, a type of document identifiable that had to have witnesses mentioned. Except for the period between 1230 and 1280 there is no evolution or stream-lining of documents detectable. But interestingly right at the beginning of this period, a pattern of groups of witnesses can be stated. These two percep­tions united could belong to an attempt to produce documents a certain way using a certain group of peo­ple. Or it could be a sign of the influence claimed by a certain group in the 1220ies and 1230ies. Between 1222 and 1248 Richard was prior, right at the time that “the greatest business activity took place”[27] according to Hodgett.[28]

These conclusions make two points obvious: A quantitative analysis only makes sense if compared and enhanced with further perspectives that can’t be gained from pure num­bers. Second, one of the main problems of this paper remains or gets even aggravated: The cartu­lary stands like a semi-translucent curtain between the documents and the historian. The uncer­tainty of what is trustworthy and what not remains.[29] For example, the re­peated occurrence of the same group of people could indicate a forgery.

Figure 5

Figure 5: Representation of quantity of witness – type – and time of production. The charter (years) is not to scale! The average value is taken if the same type appeared more than once in one year.

Nevertheless, depictions and quantifications might help to approach questions of why and how witnesses were “used” in documents (and further in medieval societies). Dealing with quantifica­tions might help to detect patterns and modifications that would have gone unno­ticed in close reading. Comparisons are more easily feasible and hone our approaches to differ­ent institutions and settings. Though, of course a wider array of data needed to be collected in order to be able to make more sustainable arguments.

[1] A short introduction to the monastery, its history, and its economic standing is given in the introduction of the edition: Hodgett, G. A. J.: The Cartulary of Holy Trinity, Aldgate: London Record Society 7 (1971), pp. xi-xxi, here: xiii-xvi. The site of the monastery was before its foundation already inhabited by canons, see ibid, p. xiii.

[2] Without having indepth insight, one could argue that this was not done due to the scarce endowment but in order to popularize the newly established monastery. Following the narrative of the scarcity: Ibid, p. xiv.

[3] Ibid, xvi, Hodgett estimates that 60 percent were income from the city. One of the neglected sources of incomes were coming from churches collated to Holy Trinity, cf. Ibid, xvii.

[4] Ibid.

[5] Ibid, xi.

[6] Hodgett claims that the scribe of the book (Thomas de Axbridge) was not negligent but partially ill informed.

[7] See Figure 2, p. 6.

[8] Hodgett: The Cartulary of Holy Trinity, Aldgate: London Record Society 7 (1971). URL: http://www.british-history.ac.uk/report.aspx?compid=64000 [accessed: 15 October 2013].

[9] Cited after self-description: http://www.british-history.ac.uk/Default.aspx [accessed 2013-10-15]. The ressource was created and is maintained by the Institute of Historical Research and the History of Parliament Trust.

[10] Except for page breaks of the cartulary that are mentioned within the documents.

[11] Numbers run from 1 to 1073, baring an appendix.

[12] The classification is only partially stringent, since some of the charters were described rather than classified in length.

[13] As mentioned above (see page 1), the main goal of the cartulary might have been a more severe control of the dues, thus understandably the mentioned parts occur the most often. A list of the most frequent types of documents is to be found in figure 3.

[14] The document is in XML, a markup language that does not define the interpretation of the used tags but demands for a strict hierarchy. The style of the structure is close (but not according) to the quasi-standard of TEI (Text Encoding Initiative) for the structured encoding of texts (especially editions): http://www.tei-c.org/index.xml [accessed: 2013-10-15].

[15] The subtracted entries were either never produced as charters and appear in the cartulary for the first time (such as chronicle entries and summations of parishes), or are traditionally not known to have contained a witness list (such as lists of those paying rents etc.).

[16] There is an uncertainty in these numbers because they were collected by comparison of names, independent of the time of their appearance, thus it is possible, that persons were counted as identical because they had had the same name. Further it is also possible that persons appeared several times as witnesses but were counted as distinct persons, since the spelling of their name varied greatly (small variations were taken into consideration if possible) and/or they were only called by their first name.

[17] Entry n° 270, a grant of Jordan to Holy Trinity.

[18] To be found in the years 1087, 1135, 1136, 1170 (twice), 1180, 1197 (twice), 1215, 1222 (eleven times), 1223, 1228, 1231, 1241, 1243, 1247, 1250 (twice), 1252, 1270, 1303, 1308, as well as five undated entries.

[19] 1222 is mentioned in 45 entries, 1170 in 41, 1197 in 28. The postquam dating could refer to: 1170, assassination of Thomas Becket; 1222, council at Osney.

[20] The average per year is 1.05974 (all years considered).

[21] In this regard a comparison of grant holders and lease paying people could be very fruitful.

[22] „Sales“ and „quitclaims“ do always contain named witnesses, but since they only appear in small numbers, the conclusion would not be steady. There is also no pattern to be found in the grants not containing witness lists.

[23] Grey cross lines stand for two witnesses. The figure is to scale.

[24] McKitterick, Rosamond: The Carolingians and the written word, Cambridge 1989, pp. 98-103.

[25] Roger, the chaplain of St. Edmund (twice); Robert, the chaplain (five times); John, chaplain of St. Michael.

[26] In the group of 1197 slightly more clericus than laicus can be found, whereas in the group of 1222 less than a handful clericus appear.

[27] Hodgett, Cartulary, p. xv.

[28] Assuming this is correct, that means that not the biggest spikes in the production of documents could point to such activity but rather a steady production.

[29] Similar to the observations of: Geary, Patrick J.: Phantoms of remembrance : memory and oblivion at the end of the first millennium, Princeton 1994, pp. 112-114.


Das Buch — eine Marginalie?

In seiner Keynote («When is a book not a book») am Schoenberg Symposium on Manuscripts Studies demonstrierte Peter Stallybrass eindrücklich wie kritisch Vorstellungen vom Buch (insbesondere dem Codex) als primärem Medium der Vormoderne betrachtet werden müssen.

Die Ausführungen starteten mit Antiken Rollen, welche die Buchform nicht vorwegnahmen und der Etymologie des Begriffs „biblio“, der noch im Frühmittelalter (etwa bei Jerome) im Neutrum Plurar gebraucht wurde, bevor hunderte Jahre später ein Feminin Singular daraus wurde.

Auch spätere Bindungen, die nicht im engeren Sinne als Codices angesehen werden können (so die sogenannte archivalische Bindung oder das Einbinden in Lederumschläge) zeugt von abweichenden Vorstelungen, wie Überlieferung sichergestellt werden konnte. Der Gebrauch dieser Bindungen inklusive der Möglichkeit Teile aus der Heftung wieder zu entfernen oder hinzuzufügen, stellten sich dabei als entscheidend für die gewählte Form heraus. Im Gegensatz zum Codex, in welchem die einzelnen Lagen verbunden werden.

Trotzdem bleibt das Buch als herausragender „survival mechanism“ und die künstlerische Ausstattung im Fokus der Wissenschaft.

Richtig fahrt nahm der Vortrag Stallybrass‘ auf als er sich dem Medienwandels mittels Druckerpressen näherte. Fast schon maliziös wurde die Verknüpfung zwischen Reformation und dem Erfindung des Drucks in Europa dekonstruiert und negiert. Aufgrund des Einsatzes der Pressen um Ablassbriefe herzustellen (und zwar im weitaus höheren Umfang als jemals Bibeln durch Gutenberg gedruckt werden konnten), kann die Reformation eher zur Gegenbewegung des Drucks erklärt werden.

Blickt man schliesslich auf die Überlieferung der genannten Druckprodukte fällt auf, dass sie weitaus seltener aufbewahrt wurden. Die Schlussfolgerung, dass der gebundene Codex mehr Marginalie als Zentrum vormoderner (und notabene auch moderner) Kultur ist, scheint logisch, wenn auch überspitzt.

Der Vortrag stellte ein stimmiger und interessanter Einstieg zum Symposium dar. Mehr zu spannenden Projekten und Forschung im nächsten Post.

Ergonomie des Pergamentbeschreibens

Die Thematik um die Handlungsfähigkeit, Handlungsmacht und vielleicht auch die Handlungswirklichkeit von Dingen ist nicht mehr ganz neu. Verknüpft mit der Abkehr von einer anthropozentrischen Weltsicht wird sie auch intensivst von mediävistischer Seite betrieben. Mein Zugang ist dagegen (sehr anthropozentrisch) als Zusammenspiel zwischen verarbeitetem Material (etwa [Tier-]Haut, mit Larven befruchtete Pflanzengallen versetzt mit einem Heilmittelinhaltsstoff [oder zusammengenommen: Tinte aus Galläpfel und Eisensulfat], Wachs und mehr) und der Produktion von Schriftstücken.

Passend – und nicht von mir – ist die Beschreibung des Zusammenwirkens als ergonomisch. Womit angedeutet wird, dass das unterschiedlich verarbeitete Material auf einen Nutzenden trifft, welcher nicht anders kann, als nach bestimmten Regeln das Material zu nutzen. Die Zusammenkunft zwischen Material (mit einem Handlungsspielraum aber auch Handlungsmacht) und Nutzendem (mit Handlungs- und Formungsvorstellung) führt zu einem (von beiden Seiten gefügten) Resultat. Wer genau handelt, bleibt unklar.

Auf einen konkreten (Sonder-?)Fall angewandt könnte das so aussehen: Eine Dame will einen Sachverhalt (einen Güterverkauf an eine Person) vermitteln. Für die Vermittlung werden mehrere Strategien angewandt, die zum einen Menschen miteinbeziehen, zum anderen aber auch in ein Schriftstück münden. Der zweite Teil ist dabei von Interesse, da in diesem vorbearbeitetes Material auf einen Schreibenden trifft. (Im Übrigen müsste man sich ernsthaft überlegen, wie und ob auch der erste Teil in materielle Resultate mündet bzw. inwiefern eine Geste oder anderes durch Materiale, wie Kleidung, Schmuck etc. erlaubt bzw. eingeschränkt wird)

Im hier vorgestellten spezifischen Fall wurde jedoch nicht wie üblich, ein eigenes dafür hergestelltes Pergament verwendet, sondern eine Buchseite zum Urkundenbeschreibstoff umgewidmet. Die Folge der Umwidmung zeigt sich an einem äusserst unerwarteten Ort: Nicht eine Urkundenschrift sondern eine Buchschrift wurde durch den (scheinbar geübten) Schreibenden angewandt.

Hält man die Ausführungen oben für plausibel, kann man also argumentieren, dass aufgrund der nur minimal andersartigen materiellen Zusammensetzung bzw. der Vorbestimmung und Vorbereitungs des Materials der Schreibende eine andere Art des Beschreibens wählen musste.

Abbildung: StAAG U.17/0017 r

Das Schriftbild lässt an ein Buch denken, das Pergament scheint vormals eine Seite in einem Buch gewesen zu sein. StAAG U.17/0017 recto

Die einzelnen Materialien bestimmen folglich nicht nur durch ihr Material-sein, sondern ebenso durch ihren (möglichen) Zustand und ihre vorgängigen Zustände. Vielleicht liesse sich gar von einer Prozessorientiertheit oder gar einer Prozessbewusstheit sprechen. Die Artefakte bleiben (bewusst?) im Fluss.


Tag-Clouds sind ein Web 2.0 Phänom, das zur Visualisierung von wichtigen Themen für Blogs oder Wikipedia-Artikel genutzt werden. Mittels dieser Clouds wird es möglich Text oder Textkorpora nach Häufigkeiten von Wort- oder Phrasenvorkommen zu lesen. Je grösser ein Wort, desto häufiger das Vorkommen in einem oder mehreren Texten. Eigentlich ist es eine Umsetzung, der hier bereits früher angesprochenen Forderung Texte nicht nur linear zu lesen. Die Arten der Darstellung sind natürlich unendlich und in sich auch problematisch (eine fundierte Kritik dazu kenne ich aber leider noch nicht).
Ein interessantes, kürzlich gebloggtes Beispiel findet sich bei Schmalenstroer.net. In der Umsetzung wurde der jeweils häufigste Begriff aus dem Wikipedia-Artikel jedes Landes in eine Weltkarten-Visualisierung gepresst.
Ich hab aus ein paar Ordnungen aus Königsfelden (14. Jahrhundert) eine solche Wolke erstellt (mittels tocloud). Die Rechtschreibung ist nicht vereinheitlicht, entsprechend wird unterschieden zwischen „chungsvelt“ und „kungsvelt“.Die Darstellung ist zweigeteilt: im ersten Teil werden «Phrasen» gebildet (Phrasen im Sinne von «aneinanderhängende Worte, deren Kombination häufiger als einmal vorkommt»), im zweiten die Häufigkeiten der einzelnen Worte aufgezeigt.
Vorgenommene Vorarbeiten:
  • Konsequente Kleinschreibung
  • Auflösung von Superskripten und Umlauten
  • Löschen von diakritischen Zeichen (ansonsten gäbe es wohl überhaupt keine Häufungen).
Das Resultat ist nicht ganz überraschend, da die meisten der Ordnungen von einer aussenstehenden Gönnerin (Agnes von Ungarn) verfasst wurden, werden «die Swestern» und «die Eptissin» häufig angesprochen. Mit den Ausdrücken «wir wellen» (28), «wir wellen ouch» (20) und «wellen wir» (13) steht neben der Gönnerin (wir), der Ausdruck ihres Zwangs (wollen) im Fokus. Daneben kommt aber auch häufig das «sollen» zum Zug, was auch als moralische Verpflichtung verstanden werden kann.
Aber aus der Cloud lässt sich noch viel mehr herausholen, vor allem wenn man einzelne der hochgradig normierten Urkundenteile isoliert und Teile davon (etwa die Invocatio) einzeln betrachtet. Auch könnte man überlegen, Vereinheitlichungen etwa in der Rechtschreibung vorzunehmen … oder semantische Einheiten zu bilden… oder Wortarten zu bestimmen und nur nach Verben oder Nomen zu sortieren… oder alle Worte, die nur einmal vorkommen rauszustreichen…
Und so sieht die (noch sehr rohe) Wolke aus…

die kellerin(3) den zehenden(2) si sol(13) bi unser(4) und swas(4) uf gebuwen(2) man die(2) mit ir(2) wir ordenen(4) das man(10) man dem(2) kursennen und(2) das die amptswestern(2) ferschriben hant(3) sont der(2) edel und(2) die dem closter(2) wa si(3) und daz(2) sol ouch den(6) es si(6) aber das(3) phenning ze(2) von unserre vrowen und muoter(2) gebunden sin ze(3) der eptissinen und(4) ze dem(3) nach ir noturft(4) vil kouffen(2) swestern ze(2) sele von der kilchen ze(2) und unser(6) und sol man(3) den selben(4) dem ampt(2) mit fleisch(2) das inen(3) ez si(2) ab si(2) und och(3) und das si(3) der geschriben(2) du epthissenne(3) das wir inen geordenot(2) die man(4) wir wellen oͮch(2) das almuosen(2) und das man(3) ist aber(2) die da(2) nach bescheidenheit(2) und allu(2) unsers lieben herren(6) und mit(9) man von(2) das sol man(3) sant claren ordens(4) keinen gebresten(2) den guetern(2) sol inen(7) gnaden wilent(2) oder die(3) der gehorsami(3) und den(11) druezehen hundert(2) beiden teilen nach(2) jeklichen derselben(2) das ampt(2) unser lieben(5) kilchen und(2) ordenung und(2) man nach(2) und sol das(4) und ze volfuerende die(2) si dem(2) dar inne(2) dem convent(3) und ein placebo(2) si geben(2) sol du(9) nieman nut(2) geschriben und(2) die eptissin und die(3) den ganden(2) klein noch(3) des conventz(6) geschriben ist(2) und es teile gemeinen armen luten(2) dem covent(3) stet ze(3) frueg und ze nacht(2) si ir(4) unser nachkomen(2) gemeinen armen luten(4) herren und vatters(7) geordenot und ferschriben(2) swas von(2) nach aller(3) und ze einem ewigen(2) die nach uns(2) der kirchen(4) ampt si(2) das du(9) du swester(2) den swestern(7) brieven verschriben(2) jarzit und(2) gottes und ze einem(2) si der(3) und von dem(2) zwei geriht von fleisch und(2) die sont(2) der convente(2) und hundert(2) ze kungsvelt(4) sol si(11) mit huenren(2) ich swester agnes(2) du empter(2) das die swestern(5) und si es(2) nach der(7) von allen(7) des closters(5) von muoss und eins von(2) si ouch(2) wenn si(2) pater noster(3) sin due(2) und muoter(8) ze drin(3) das die eptissin(7) uber wirt(3) sol der(2) das ir(4) der eptissinen und der(3) wir wellen ouch(20) kilchen ze(3) phunt phenning(2) die siechmeistrin(3) der eptissin und(2) als sich(2) swester der(2) aller der(7) sint die(2) geben wir(3) ze ungern(3) und der fier(2) si ze(4) man sol(2) da mit(6) die disen(3) das dem closter(3) vor dem(2) von gottes geburt(3) wir uns und(2) uf die(3) die werkmeistrin gebunden(2) des elosters(2) ze den(3) als vil(2) und alle die swestern(2) wellen wir daz(2) du jarzit(2) mark geltes(3) wir swester(2) unser liebu(2) alle jar(2) das sol(11) von unser lieben(2) vor genanten(3) und ferschriben hant(2) mit des(5) die des(2) si sol ouch(10) stift sint ze kuengesvelt(2) convente verjehen(2) ordenen und setzen(3) der kelnerin(2) und dem(2) ouch den swestern(4) und du(6) wir uns(5) wir das(3) der siechmeistrin(3) und sullent(3) binden wir uns(2) aller der wise(3) ordenen und(6) gesetzet hat(2) von allen den(4) ein guot geriht von(4) das closter(3) das si es(2) inen das(2) von ungern insigel(2) drissig schilling phenning(2) unser geswistergit(3) geben sol(4) zuo der(2) ouch dem(4) da vorgeschriben(2) binden wir(3) das der convent(3) gebunden sin(6) das das(4) ze vier malen(2) sol inen die eptissin(2) und darum(2) geriht von(9) und ze(13) und aller unser geswistergit(2) und alle die(3) gebunden und(2) und dar(3) ouch der(5) der eptissinen(7) korn von(2) kein swester(3) der gewileten(3) das die eptissin gebunden si(2) sint ald(2) nach dem als(2) ze haltenne(2) du siechmeisterin(2) stift ze(3) eptissin und der(2) unser chloster(2) gelich sin(2) und sol(18) eim jar(2) ouch den(8) allu du(3) und ouch die(4) gebunden si(9) dem jartzit(2) agnes die eptissin(2) ze den ziten(2) und als(2) und von uns(2) eptissin sol ouch(6) stete belibe(2) si sin(7) sich die(2) die vor genanten(2) das si den(2) án der(3) rat und(2) unsern briefen(3) den siechen(4) als ir(2) sol ouch den swestern(3) der bruoder(4) den vrowen(3) mit des conventz(2) und des(2) sache stet und(2) die vrowen(7) geben wir disen(2) die amptswestern(4) ding die(2) sol man inen(2) der jartzit(2) geben zwei(2) die eptissin und(4) niht benant wurde(2) und sol ouch(4) zuo dem gotteshus(2) ez von(2) die jartzit(2) diu von(2) si sien(2) se und(2) und wellen(5) und ein guot geriht von fischen und(3) das wir ordenen und(3) ir bedarf(2) ald von(3) kunig albrehtes(2) und ouch die geste(2) und dis(2) wise als si(2) daz die(7) wir unser(2) oder noch(2) der selben(4) man inen(5) ze der(5) willen und(3) zu den(2) jar ein(2) von dem selben(2) ouch daz(2) si sol ouch den siechen win geben nach ir noturft(2) selben ordens(2) es sol ouch(2) si des selben(2) dem lobe des(2) ze kuengesvelt(5) der kellerin und der siechmeistrin(2) von hagel oder von(3) gesunden nach(2) oder der(3) der swestern(2) ir noturft geben(2) win geben(4) schaff ze kouffen(2) untz das(3) zuo dem(6) und muoter und(2) agnes von(2) des almehtigen gottes(2) ouch das(2) mit des conventes(3) und unser und(3) sol si inen geben(3) und ze einem(3) ordenunge und(2) eins von(4) mit aller der(2) swester du der(2) dar umbe(2) gebresten gewinnen(2) und niht(2) wirt das sol(2) wellen wir(13) es nut(2) des selben(4) und sol inen(2) ouch dem covent(2) swester des(2) der eptissinen hant(2) von christes(2) als ez(2) und ein(16) hie nach(2) der eptissin geben(2) kelnerin und(2) unsers lieben herren und vatters(4) die sullent(4) von ir ampt(4) mit der(9) si es(5) mit einander ze(2) sehent oder(2) und von(15) das der(9) es die(3) der vrowen(4) gebunden sin ze gebenn(2) unser frowen(2) die spend(2) sol ire die eptissin(2) dem selben(4) die ratswesteren(2) dar ueber(2) es aber gebrochen von(2) und willen(2) sol ouch der(2) dekeinen weg(2) das wir wellen(2) uf der(4) vier und(2) ist ze(2) sechs mark(2) von dem(13) das wir(16) die swestern(9) weder klein noch gross(2) der kellerin und der(3) und alle(6) dem closter wachset(2) du der(3) und eins von eiier(2) und ouch der(2) mit der eptissenne(2) ze drin jaren(2) von ir(5) ob si(2) der werchmeistrin(2) geben und(6) und das(13) wir wellen och(3) der swesteren(2) man si(2) gar und gentzlich(2) sullent werden(2) das sol die eptissin(3) es denne(2) bi den(3) mueser und ein guot geriht von fischen und von pheffer(2) von allen den guotern(2) und aller unser(3) daz si(6) daz man(8) irer notdurft(3) daz die vrowen(3) schaff ze(3) dem closter wirt(2) von ungern und(2) alle die(6) mit den(4) nach dem(3) werden der(2) von ir ampt nieman(2) das die eptissin und die(2) kunt allen den(2) als da(2) ir zal(2) der kilchen(4) und der(13) daz du(2) si das(3) lieben herren(7) es sol(3) als es(4) die dem(3) man das(3) der siechmeisterin(2) daz korn(2) und von disem(2) si sol ouch den(3) gemain sin(2) wir agnes(2) die von(4) da wir(2) ouch die(7) win geben ze(2) und ferschriben(3) das sol du(3) den menslich sin(2) die du(2) noch der(2) pater noster und(2) von gottes(4) sol man(14) teil des conventz(2) das aber(2) sol ouch(26) zwei mueser(2) gescriben ist(2) nach der regel(3) ein hundert(3) den swesteren(2) mugen alles(2) das sont si(2) und die(9) zwei geriht von(3) ein vigilia und ein(3) und bi(4) derselben jartage(2) du kelnerin(2) von der(9) tuon von(2) und ist(4) sol du eptissin(2) und ouch(11) swester einen(2) des sagere(2) die eptissin sol ouch(4) oder von(12) es weri(2) es si fisch oder fleisch oder(2) vrowen von(2) der wis(2) geben druͥ(2) dem eloster(4) unsers lieben herren und vatters chunig(2) und aller(5) man ez(2) wir besorgen(2) von ungern(4) der convent(4) den die(2) sol das(5) allen den(10) das die siechmeistrin die(2) mueser und(3) der eptissin(6) von keiner(2) wart ze(2) und von allen den(2) ich swester(4) von den schaffen(2) kellerin und(4) gebreste von hagel oder von(2) eptissin sol ouch den(2) sol die(4) gnuog geben(2) si sin bedurfen(2) das man alle tag durch(2) alle unser(2) wir wellen(28) hundert pater noster(2) da von(6) und mit dem insigel(2) bi dem selben eide und bi den selben truwen(2) aber von(2) daz der(2) man zalt von(2) herren guelt(2) kilchen ze stouffen und ze windesch(2) die eptissin(26) lichen oder ane liche(2) bi rehter gehorsami(2) das kein(2) als wir(3) von den(13) daz sol man(2) sol ouch dem(2) wir sullen ouch(2) der werkmeistrin(2) der sol man(3) das due(2) die wir(4) den jarziten(2) der kellerin(5) aber das das(2) der epthissenn(2) die swesteren(2) ze gebenn(5) gebunden si bi(2) jeder swester(2) ein hundert ave maria(2) der siechmeistrinen(2) als gewonlich ist(2) bruodern und den(2) das die(25) eptissin sol(8) und von der(2) si sol inen ouch(2) der sol(4) geswistergit und(2) wa man(2) das si(14) wir sullen(3) dar nach(3) si aber(2) man der(2) wir daz(4) das du gelob(2) wellen ouch(21) lieben frouwen und muoter(2) und eins von(3) uns und(4) sant claren(5) das wir inen(3) du eptissin sol ouch(2) har nach(2) uf der selben stift(2) und ein hundert(2) und den kinden alle(2) zu dem(2) und allen den(2) und swenne(2) da mit wir uns(2) als si(3) man ir(2) ut uber wirt(2) durch unsers lieben herren(2) das inen gebristet(2) den jartziten(2) und si(3) und nut(2) der stift(2) die werkmeistrin(4) teilen nach(3) von eiiern(2) als lang(2) du eptissin(5) die uf(2) muoter seligen(2) die kese(2) der custrin(4) den minren(2) fisch oder fleisch(3) winber oder(2) dez selben(2) hundert ave maria(3) elsaezzer oder lantwin(2) wir si(2) unsers herren(4) ir noturft(8) das die kellerin(2) den bruodern(4) von des(4) wir ein(2) seligen und(2) gebunden haben(2) das die swestern nut(2) ze chungesvelt(3) sweler lay gestalt(2) lieben herren und vatters(5) dem closter(14) und alles(2) wir von(2) inen geben(4) mit allen(2) noch mit(3) der wllen(2) wan wir(2) allu jar(2) eptissin und(6) und muter(2)

wir(112) agnes(9) von(140) gottes(8) gnaden(2) wilent(3) kuniginn(2) ze(109) ungern(7) tuont(1) kunt(7) allen(19) den(95) die(181) disen(9) ansechent(1) oder(74) hoerent(1) lesen(3) das(178) ordenen(7) und(385) setzen(6) dem(87) lobe(2) des(46) almechtigen(1) einem(7) ewigen(2) frid(1) besorgung(1) der(154) swesteren(10) sant(9) claren(5) ordens(10) uff(5) unser(37) stift(8) kungsvelt(4) sint(20) hienach(1) kunftig(2) werdent(6) gewileten(3) nut(24) sullent(9) werden(14) denne(13) fier(6) fierzig(1) dienenden(1) swestern(20) zwo(2) gewilet(2) sin(31) noch(22) cappitel(1) stimme(2) han(7) sich(7) darzuo(5) ferbinden(1) nach(38) aller(19) wise(4) als(38) aenderi(1) cloester(1) ferbunden(1) hant(14) ir(43) zal(2) vorgenanten(3) convent(8) guotern(2) si(131) lieben(14) froewen(1) muoter(10) seligen(5) elisabethen(3) uns(14) unseren(1) bruodern(9) durch(8) unsers(10) herren(15) vatters(7) sele(3) kunig(3) albrehtes(3) geswistergit(5) forderen(1) kilchen(6) stouffen(2) windesch(2) hoff(1) rinfelden(1) sie(7) gebunden(24) bi(17) gehorsami(10) kellerin(9) siechmeistrin(6) vil(11) phenning(5) gebenn(6) uf(15) weli(2) zit(2) bedurffen(1) gentzlich(5) gar(3) erfullen(1) mugen(4) alles(12) hie(6) disem(5) selben(19) binden(4) ouch(81) werkmeistrin(7) custrin(4) inen(24) geordenot(5) es(37) weri(4) denn(2) abgieng(1) closters(6) gelt(1) merkenlich(1) uorlig(1) hagel(3) missewehst(1) mer(2) teil(5) conventz(6) selber(3) geloben(3) woelt(1) helfe(1) komen(1) welen(1) stucken(1) woelten(1) rat(7) wrden(1) abzebrechen(1) untz(6) closter(21) widerkemi(1) ferdurben(1) aber(24) sachen(5) eptissin(40) anders(4) underwegen(2) liessi(1) wellen(49) ratswesteren(3) besseren(4) acht(2) tagen(5) alle(18) wile(1) gebessert(1) rehter(2) ǎn(1) win(6) lang(2) ampt(11) versechen(2) ordenung(3) meinung(1) och(8) werchmeistrin(2) geb(6) sechs(5) mark(4) geltes(3) kernen(2) roggen(3) ein(39) habern(1) guetern(3) hatt(2) fur(2) ander(4) guot(12) ferschriben(6) hattent(1) fuͧrbas(1) sol(102) dazuo(1) ooch(1) ire(4) anderhalb(1) hundert(10) schaff(3) winterenn(1) wenne(2) bescheche(2) schaffen(3) abgienge(1) beschehe(1) ist(33) eim(2) jar(15) aenderu(1) kouffen(6) mag(6) erzugen(1) anderi(2) korn(5) laenbern(1) wllen(2) funf(3) jaren(4) jcklicher(1) swester(28) kursennen(3) mantel(2) maentel(1) gelich(3) kost(2) jeklicher(2) person(3) fordert(1) lengi(1) groessi(1) drin(3) zwen(2) wiss(1) roekk(1) geben(56) allu(8) grawen(1) rokk(1) schapparan(1) weder(7) dikkes(1) dunnes(1) tuoches(1) tuoch(1) starch(1) wol(1) noturft(8) haben(19) farwe(1) gewandes(2) tragen(2) wil(5) man(59) gemeind(1) git(4) bittent(1) gewand(2) scrot(1) nuwe(1) ungescrotens(1) gebe(7) alt(1) gewant(2) wellent(3) sont(7) gesind(2) niemann(1) cleiden(1) vor(10) sehs(1) zwentzig(1) phunt(5) guoter(2) wullen(1) da(35) gefiltzet(1) schuo(1) werkampt(1) einen(8) menschen(2) mit(65) umggang(1) tagloner(1) spise(7) anderm(2) gesint(1) damit(3) benuegen(1) lonen(2) du(66) verseche(2) bericht(2) ziechen(1) ding(5) bette(2) phulwen(1) kussi(1) im(1) darum(2) drissig(2) schilling(6) besorgen(3) ordnen(2) covent(4) wenn(4) zwurent(1) essend(1) frueg(2) nacht(2) zwei(9) gueti(1) geriht(9) muoss(2) eins(4) eiiern(3) vastend(1) druÍ¥(2) mueser(5) fischen(3) pheffer(3) siehmeistrinen(1) swinin(1) fleisch(13) bedurfent(6) machet(1) gruen(1) nemen(4) dritten(1) swinim(1) sengerin(1) essen(4) ladet(3) sunderlich(1) troestet(1) siehmeistrin(1) ganden(2) kranchen(1) kinden(3) mal(6) gruenem(1) eiier(4) sunnentag(1) zistag(1) dornstag(1) einest(3) tag(9) advent(1) vasten(2) fritagen(1) gebannen(1) dru(4) dien(1) krancheit(1) mugent(2) figen(3) winber(3) mandel(4) fisch(4) ob(4) essned(1) doer(1) keine(1) gessen(1) getoerst(1) redlichem(1) siechtagen(1) ligenden(1) siechen(6) conciencia(1) regel(4) tueg(1) huenren(2) muos(2) zucker(1) ris(1) allem(3) siechtag(1) forderet(1) tuon(9) siech(3) welle(2) lessinen(1) halten(2) dur(3) lassend(1) mann(1) lessern(1) gewonlich(3) dunkte(1) ratswestern(3) fierzehen(1) gevisitiert(1) aollu(1) vorgeschriben(5) gericht(2) wie(3) wuchen(1) genemt(1) tuenne(1) ordenot(1) swin(2) stan(4) eptissinen(7) swinen(1) slat(1) wurst(1) oren(2) clawen(2) ruggen(1) welletn(1) siechmeistrinen(2) halbes(2) andern(6) halbteil(1) kellerinen(1) kese(3) wedent(1) gesunt(1) davon(4) wo(1) gebristet(3) keinen(3) gebresten(3) gewinnen(8) ell(1) huenr(2) vallent(3) gegenwurtig(1) án(4) allein(2) funfzig(1) jarzites(1) siemeistrinen(1) jartzitmeistrin(1) bedarf(5) soll(1) jeder(2) zem(1) gaben(1) halb(1) masse(1) wisses(1) wines(2) besten(1) wachset(2) trinken(1) enmag(1) elsaezzer(2) lantwin(2) amtswesteren(1) jarzimeistrin(1) kelnerin(5) siemeistrin(1) sutzlen(1) wa(5) bedurfen(2) guotes(1) brotz(1) gnuog(2) oech(1) saltz(2) amptswestern(6) wegen(2) hoeff(1) allenthalben(1) fasmues(1) kuchinen(1) geschirre(1) gelten(1) obs(3) wirt(7) teillen(1) bescheidenheit(2) milch(2) schnkinen(1) almuosen(2) gemeinlich(2) vallet(1) teilen(8) gesunden(2) nutz(3) dester(1) mir(1) tischen(1) portnerin(1) luterlich(1) teile(2) gemeinen(6) armen(4) luten(5) brotes(3) fiertel(1) holtz(2) garten(1) rihten(2) wel(1) dienend(1) sumerschuo(1) urlob(5) nieman(3) uber(7) oÍ®ch(2) kein(7) amptswester(1) nuet(1) schenk(1) klein(3) gross(2) ǎn(1) neme(2) darumb(1) send(1) sundrig(1) ferzihen(1) tuot(1) ere(2) moeht(1) merknlich(1) widerlegen(1) custerampt(1) soum(1) oeles(1) sechzig(1) grossen(2) phunden(1) wandelkertzen(1) zofinger(1) muntz(1) umb(9) oflaten(1) habend(1) duÍ¥(1) phenningen(1) anderen(2) unsern(5) briefen(3) verschriben(6) wer(6) kor(1) buwes(2) bedoerfti(1) tache(1) glesern(1) soeliches(1) klosters(1) gemeinem(1) ellu(1) jarzit(6) gesetz(1) beliben(2) bestanden(1) won(1) bessern(1) uÍ¥nsers(1) kuÍ¥nig(1) albrechtes(2) uÍ¥nser(1) frouwen(4) chunigin(1) spend(3) jetwederm(1) jarzitmeistrin(2) amptswesteren(1) selb(1) enheiner(1) usswendig(2) innwendig(1) berihten(3) erlich(1) voelleklich(1) har(4) guoten(4) jarziten(2) nuon(1) einp(1) hunt(1) meiientag(1) chunig(3) tages(5) gaest(1) geistlich(1) weltlich(1) eren(1) malen(3) rechnen(1) ut(3) fursparen(1) gefallet(1) volbringen(1) habent(6) jarzitmeistrinen(1) gult(1) conventes(4) gebresti(1) helfen(1) entlechenen(1) verelten(1) nit(1) dehein(1) empter(4) trag(1) keiner(2) slaht(1) jemer(1) ferkumbern(1) versetzen(1) lipgedingen(1) unbekumbert(1) martinstag(1) sagenn(1) jares(1) korns(1) wins(1) worden(2) niden(1) obnen(1) lande(1) mi(1) reat(1) angriffe(1) amtswestern(1) rihte(1) nût(1) angrife(1) verkouffen(1) wissend(1) willen(5) meren(1) chuniginn(1) andres(1) unserm(6) jartag(4) vigilia(3) messe(3) singe(1) je(2) besunder(4) speche(1) hunder(1) pater(3) noster(3) ave(3) maria(3) enkein(1) enhein(1) lipgeding(1) hetti(1) wrde(1) ledeklich(1) daruber(2) fund(1) finden(1) suochen(2) wrd(1) gebrochen(2) gesetzde(2) davor(1) geschriben(7) hat(7) ab(2) dis(4) geschehen(1) gunst(2) ich(5) stete(3) nachkomen(2) truwe(1) gelob(2) stet(6) haltend(1) jecliche(1) enphachen(1) haltenne(2) geschribenn(1) diser(2) stukken(1) behalten(1) werd(1) belib(2) fergessenheit(1) priolin(2) heisse(1) lese(1) manoden(1) dise(1) sache(5) vest(1) swster(1) min(2) ingesigel(3) gnedigen(1) kuniginnen(1) gehenket(1) diesen(1) mittem(1) ougsten(1) zalt(3) geburt(4) drizehenhundert(1) darnach(2) fuenf(1) drissigesten(1) jare(3) diz(2) edel(2) hoch(1) gebornfuerstin(1) kuengin(1) li(1) liebu(3) vrowe(2) gnedigu(1) stifterin(2) dez(6) gotz(1) kuneginne(1) tun(1) chunt(1) sehent(2) ho(1) rent(1) lesent(2) et.-en(1) almehtigen(2) ewigenjride(1) besergurjge(1) western(4) ufunserr(1) chungesvelt(3) ald(10) kuenftig(2) unii(1) swe(1) lern(1) eloster(5) nicht(6) danne(2) vierzig(1) aar(1) zu(10) verbinden(1) andru(2) elaren(1) verbunden(2) hanf(1) dienter(1) eloste.(1) capitel(1) niht(10) vorgenannten(1) convente(7) etzen(1) gu(5) tern(2) jrowen(1) muter(2) chueneginne(1) elzbethel’l(1) selig(5) unif(1) unsem(1) bru(1) el(1) chung(2) alb(1) rechtj(1) er(2) unserr(1) vordem(1) ffen(2) hofe(1) einvelden(1) dlchen(1) windisch(1) obnan(1) nidnan(1) elsas(1) habentalluejar(1) weiher(2) star(1) e_(1) le(1) gehaben(1) kelner(1) ampte(3) sibentzigp(1) unt(1) gute(3) te(3) zwierent(1) essent(1) morgen(1) gerili(1) mu(3) se(4) eines(2) eigerrz(1) ,naht(1) gerihi(1) v.0n(1) ei(1) eigern(1) yu(1) mil(1) ke(2) vastent(1) tu(1) genht(1) ell11(1) elgern(1) sehen(1) vier(4) demjar(2) lassent(1) kelnertn(1) pflegen(2) epthissenn(3) epthissenne(4) elosters(2) ge(2) gesinde(1) werclilute(1) al(6) epthis(2) enne(1) heisset(1) swill(1) ullent(1) berndu(1) masswin(1) ziehen(1) hote(1) fen(1) vii(3) notdwft(1) rnugen(1) altem(1) swinemfleische(1) dasjar(1) siechmeisterin(5) bedarfvon(1) sl-vtnnenfleische(1) dar(14) ru(1) swas(8) winen(1) chomet(1) elo(1) ler(1) lahet(1) ez(18) sien(4) hammen(1) wuersl(1) iechmeisterin(1) daz(51) geullet(1) iechen(1) notdurf(1) irem(1) tro(1) obse(1) gebresse(1) lcelnerin(1) gebres(1) en(4) maltz(1) beiden(3) ehe(1) idenhe(1) clo(1) ter(1) gevallenf(1) chaffen(1) anderin(1) suellent(1) sten(1) gesuni(1) irer(4) notdurft(5) uni(1) ntht(2) kesen(1) el’zuegen(1) sis(1) anderswa(1) div(2) huener(2) gegenwertigald(1) cl(1) ,·uellent(1) eine(1) junfzig(1) enn(2) eiger(1) legen(2) gevallenl(1) jartzit(12) horent(1) su(1) lenf(1) pfliger(1) bedalf(1) jartziten(3) swaz(2) ch(3) gemeine(1) azmusen(1) gevallet(1) kiiche(1) gewonheit(2) epti(1) senne(1) va(1) tmu(1) rdenen(1) siechhus(1) sf(1) chzispfunt(1) sters(1) jte(1) da.s(1) zechen(1) tage(3) em(4) genlil(1) gutem(1) grw2en(1) flel(1) unnentag(1) zinstag(1) dulwag(1) eigem(1) vastenj(1) guten(3) vischen(1) anderer(1) sweslern(1) ligent(1) suehten(1) riden(1) welherley(1) iechfagen(1) ver(2) ehen(1) ri(1) hinbern(1) vigen(1) zugger(1) seite(1) heisse-tun.d(1) an.se(1) tu.(1) .tz(1) si.e.7,h1cigen(1) cc(1) nvente(1) gant(1) s.o(1) kind(1) siflt.so(1) auf(1) s.u(1) o1j(1) versehen(2) siech.en(1) swestem(1) zl,l(1) schajjer(1) fon(1) march(5) ‚l(1) lnsers(1) elgenn(1) gutes(2) werckatr(1) pt(1) herrengulte(1) eigenne(1) wercknieist(1) rin(1) gffben(1) qht(1) westren(1) kuersennan(1) all.er(1) beste(1) uch(1) hzi8(1) mut(2) zehenden(3) spl(1) allujar(1) zwelf(2) .zzg(1) $western(1) rocke(1) eptlssenne(1) oeh(1) werckmezsterm(1) winter(1) aiiderthalbhundert(1) schaf(1) lemmern(1) wollen(2) werckmeisterin(1) jat(1) ieder(1) rock(1) schaphrun(1) zejun(1) pfennig(1) gevallent(1) jarfziten(1) gewinn.en(1) tuch(1) hobt(1) li114(1) unis(1) tuches(1) $wes.tern(1) ablegen(1) gewande(1) .s(1) wercjcmeisterin(1) werckmeisterm(1) meman(1) d1(2) rch(1) bett(1) clurch(1) liebe(1) wan(5) lutterlich(1) dw(2) de,r(1) herschaft(1) sei(1) zcke(1) es.gof(1) lobli(1) hest(1) di(4) schqf(1) abg(1) engen(1) vo(2) lherlei(1) ißt(1) epthlssenne(1) werckmelsterm(1) schafgewmne(1) zat(1) erwulzet(1) werde(3) swestran(2) gewmnen(1) gewarue(1) pu(2) werc7an.eisterin(1) soj(1) duch(2) eptissenne(3) undzwaintzig(1) pfont(2) pter(1) j.eben(1) ol.yier(1) ehen.swestern(1) geviltzet(1) schuhe(1) epthjss(1) mne(1) sumer(1) schuch(1) nachträgllch(1) emgefuegt(1) ahten(1) ck(1) ls(1) male(2) gf(1) oen(1) fuenfswestran(1) masse·(1) o’u.ch(1) genug(1) auch(1) brot(4) jl(1) isch(1) st(1) lltzenne(1) scnt(1) ljfen(1) lembern(1) zeruben(1) wingarten(1) ihten(1) hörent(2) ueber(6) ojeh(1) slechmeistel’in(1) jartzig(1) pjliget(1) ieman(1) schenken(1) gehen(1) .ir(1) bien(1) desc(1) ostersfruende(1) dienen(1) wellenouch(1) swesler(1) ii1(1) rechenne(1) ihr(3) stuenil(1) suellen(1) ·des(1) dosters(1) undsol(1) uueher(1) dekein(2) empler(1) zwe(1) ,tragen(1) eptissenn(6) den.jartzit(1) ,riet(1) swes(1) erfj(1) .wz1’l(1) tisch(1) swenne(2) dulcirzlta.llue(1) be“,hf(1) twerdennach(1) wzr(1) o7jch(1) gewonhelt(1) $l(1) gewonllch(1) begang(1) lstt(1) .enne(1) vqr(1) gestat(1) guelt(5) ko(1) uo(1) jartzif(1) besren(1) gebreste(2) leven(1) helfo(1) entlehenne(1) jjirgelten(1) muege(2) au(1) verrihtet(1) geordenet(1) ouchdaz(1) oebunden(1) stn(1) lieljen(1) chwiig(1) albrecht(1) seligenjar(1) uns.er(1) ite(1) flfrowe.n(1) chunegi(1) etzjartag(1) l1ntj(1) unserer(1) sw(1) ergit(1) iart(1) tot(1) etsterben(1) no’ch(1) sl(1) singen(2) ezn(2) wgllie(1) imd(1) seimes(1) leckbchu(1) $wester(2) sunderllch(1) spreche(2) vlgzlle(1) placebo(2) una(1) ester(1) leibg(1) qinge(1) hahen(1) gros(1) ader(1) do.z(1) hette(1) geper(1) wuerde(1) pthissenn(1) lediglichen(1) dlu(1) eptis(1) onvente(1) nihtes(1) uellent(1) l,lber(1) dekelnenfundt(1) _suchen(1) vmden(1) jen(1) menshcher(1) sm(1) oegrifen(1) wurd(1) kemer(1) ordenuenge(1) getan(1) lum(1) notdurfte(1) dinge(1) aas(1) orgeschriben(1) stat(4) beschehen(2) etmventes(1) gt(1) flst(1) undgeloben(1) agrzes(1) rier(1) gemeint(1) uengesve7t(1) uncl(1) nachkommen(1) truw(1) erwellen(1) lob(3) stel(1) iecklichu(1) mqfahenzu(1) kr(1) geho.1·sarn(1) tel(1) ha.’t(1) nn(1) qer(1) gehorsam(1) azz(1) disu(1) ulizerbrochen(1) beube(1) mm(1) inslgel(1) ms(1) gel(1) mlf(1) grje(1) jzgen(1) frowen(4) chunegimie(1) insigel(7) gehencket(1) brif(1) kuengesvelt(5) zall(1) christes(2) gebu(1) drutehenhundert(1) drizigostem(1) nehsten(1) iins(1) ansehent(1) hören(1) nu(3) hernach(2) albrechts(1) chunegin(1) elsbetten(1) gestift(4) merer(1) sullen(10) sunder(1) due(10) pflege(1) sundern(1) gehalt(1) habe(2) eptischin(1) gueoter(1) zuo(13) hörend(1) versehende(1) inbringend(1) truewen(2) eigen(2) schwester(1) beholffen(1) empfliget(1) allue(1) begangen(1) vollefueren(1) herkomen(1) abgan(1) dueselbe(1) empfolhen(1) jerlich(1) gantz(1) reitung(1) ratswetron(1) belibet(1) bescheidenlich(1) jeklichs(1) liehter(1) zehen(1) vische(1) pfunt(1) uberig(1) vorgestet(1) jedem(1) jartit(1) gevallen(1) swestron(1) ieklichem(1) vigilie(1) selmesse(2) iedue(1) beningna(1) verjehen(2) gewissend(1) volfueren(1) henken(1) vrowen(19) wart(2) druezehen(2) nuen(1) zweitzigosten(1) michels(1) guode(1) guta(1) briefe(1) hochgeborn(1) frowe(2) hertze(1) liebue(1) cuneginne(1) elizabeth(1) chloster(3) geschaffet(1) veringen(1) gekoufet(1) druchsesen(1) chienberg(1) schafhusen(1) drue(2) zweintzig(1) eweclich(1) began(1) ires(1) wirtes(1) iren(2) harnach(1) kuniges(1) punt(1) wachs(1) kertzen(2) machen(2) brenne(1) vigilue(1) singet(1) ieclichen(1) derselben(3) jartage(2) minren(2) brueodern(1) gesten(2) denselben(1) drizig(3) pfenninge(1) gardian(1) pitancie(1) jeklichen(2) schwestern(1) vole(1) erberen(1) choment(2) verzeren(1) schillingund(1) iecklichem(2) jartagen(2) kosneren(1) klosnerin(1) hustuertigen(1) einer(2) mile(1) ges(1) sen(1) pfung(1) heissen(1) bachen(2) zwantzig(1) albrechtz(1) fuenfzehen(1) iartag(1) chuenig(1) elisabeth(1) mute(1) bache(1) dri(2) zig(1) selbe(1) vorgnanten(1) eidem(1) fuerbas(1) schalten(1) ewechlich(1) ordenunge(2) vollefuoren(1) vollebringen(1) geverde(1) guote(1) vorgenante(1) abbtin(1) chlosters(1) gesworn(1) eit(1)  gelobt(1) eide(2) truwen(2)  worten(1) werken(1) geschrift(1) dekeinen(2) weg(3) menslich(2) mug(1) umden(1)  choment(1) ledigen(1) dirre(3) gelubde(2) ende(1) vollebringende(1) volfuerende(2) vorgeschri(1) ben(1) gesetzt(2) loben(1) õch(1) niemer(2) deheiner(1) empfahen(1) nuwen(1) siver(1) gelobe(1) gelobet(1) zebehaltend(1) vorg(2) ante(1)  denunge(1) suchen(1) muge(1) ervinde(1) gelubdes(1) lidig(1) ant(1) band(1)  und(1) mitte(1) belibe(2) unzerbrochen(1) umbe(2) besigelten(1) ebthissenn(1) insigelen(1) wille(2) fro(1) chungeinne(1) antwurte(1) swem(1) besigelt(1) chungsfel(1) zalte(1) driuzehundert(1) zweinzig(1) ordenun(1) friede(1) swestren(1) clare(1) unserre(3) chuenftig(1) einander(2) belibende(1) wonende(1) unsere(1) gemeinschaft(1) haltende(1) wis(3) gescriben(2) libue(1) vorwe(1) kueneginne(1) elysabeth(1) gestiftet(2) gesetzet(3) brieven(3) briester(1) minre(2) bruoder(10) stetechlich(1) sigent(3) vorsorgen(1) suelent(3) messen(2) orden(2) geste(3) enpahen(1) zwainzig(1) marc(1) bewiset(1) genanten(3) mac(1) duerftig(1) rede(1) vrovwen(1) choste(1) gest(1) ledic(1) pfruone(1) lay(5) kirchen(4) stoufen(1) gebesseret(2) ierlichen(1) marchlich(1) wurde(5) dienet(1) jars(1) vuer(1) fuer(2) phruende(1) sueben(1) marchs(1) blosses(1) silbers(1) setzint(2) gewalt(2) gebent(2) setzende(1) ainem(2) schafener(1) besehe(1) gardians(1) heschen(1) siner(1) almuosens(2) alter(2) altern(1) luete(1) enpfelchen(1) chere(1) evangelj(1) opfers(1) bringet(2) pfennige(1) sweler(2) gestalt(2) opfer(1) stillen(1) vritage(1) cuerze(1) wahse(2) lichon(1) liche(3) sibenden(1) drissegosten(1) iargezit(1) swelicher(1) koment(2) lichen(2) ane(2) alliu(1) sidintuoch(1) gulter(1) dekelachen(1) tischlachen(1) werdint(1) geopfert(1) fuerstinne(1) gottezhus(1) siden(1) gewat(1) cleinot(2) mainunge(1) gotteshus(2) dienst(2) kere(1) swelcher(1) solcher(1) komet(2) allez(3) winden(1) ain(1) schuefint(1) bringent(1) betrifft(1) eigtl(1) ihre(1) situation(1) sagere(2) phlegint(1) besorgent(1) gewede(1) kirch(1) swa(1) tach(1) muren(1) glase(1) versehint(1) lieht(1) ole(1) tagesziten(1) nahtes(1) wellint(1) diu(7) clainot(2) belibent(1) deheinen(1) darueber(1) verkofende(1) versetzende(1) lihende(1) moehtint(1) enphromdet(1) doch(1) phlegent(1) suelint(1) phlege(1) lihen(1) ieglichen(1) hoczit(1) zimlich(1) fueglich(1) ros(1) harnesch(1) lichte(1) benant(3) solt(3) welchem(1) tailen(2) halbez(1) geschafet(1) beschaiden(1) welhem(1) tail(2) urbar(1) varendem(1) glich(1) swie(1) bruodernzal(1) geminret(1) hofstat(3) kirchhof(2) uffer(1) tor(2) gegen(2) brugge(1) gat(2) huesern(2) gebuwen(3) hoffstat(1) rinchmur(1) umbvangen(1) hin(1) oberburch(1) vangen(1) sigint(1) hus(2) verfangen(1) leben(1) alf(1) hinder(1) invergint(1) ainen(1) wagen(1) irm(1) hueser(1) muegen(1) schafnerin(1) kirche(1) gemain(2) inne(2) begangint(1) singende(1) lesende(1) baider(1) toten(1) bestate(1) andaht(1) begrebende(1) erwellent(1) versigelt(1) unserin(1) heinrich(1) talhein(1) ziten(2) minron(1) minister(1) waz(1) bachenstain(1) abtissen(1) irs(1) strasburg(1) iar(2) achttzedem(1) merzen(1)

Google nGram und der Versuch einer Rezeptionsanalyse

Überlegungen zu Textanalyse und wie es gelingt „hinter den Text“ zu kommen, treiben mich bereits etwas länger um. Interessanterweise liegt es nicht zuletzt am digital turn und der (Retro-)Digitalisiererei, die diesbezüglich Neuansätze denkbar machen lässt (den Zusammenhang mit dem linguistic turn und Medienentwicklungen – McLuhan et al. – müsste man natürlich auch noch herstellen).

Kurzschlüssig formuliert, wenig verwunderlich also, dass aus dem grössten Digitalisierungsprojekt (der Menschheit? des Universums?) ein Tool erwachsen ist, welches Usern Worte, Ausdrücke und ganze Sätze suchen lässt im digitalisierten Buch-Bestand [google books]. Mit Hilfe sogenannter N-Gramme (das sind Zerlegungen von Texten, im Falle von Google Books, in Wörter, etwas präziser bei Wikipedia) kann visualisiert werden, welcher Begriff, welcher Satz wann, wie häufig vorkam und so (vielleicht auch) zeigen wie wichtig er war. Spannend wird die Auswertung, da unterschieden wird nach Sprachen, insbesondere aber, da verglichen werden kann zwischen Begriffen. Wer wird wann häufiger erwähnt: Platon oder Aristoteles? (im deutschsprachigen Korpus liegt A. immer vorne, die Entwicklung verläuft jedoch parallel; im französischsprachigen Korpus liegt der Fall genau umgekehrt, wobei Plato immer deutlich vorne liegt; im englissprachigen Korpus schliesslich gibt es häufiger Führungswechsel [Platon führt etwa zwischen 1934 und 47 oder 54 und 64]).

Die Verbreitung und hier kommt Google gleich zum zweiten Mal ins Spiel wurde nicht zuletzt durch eine Publikation – mitgeschrieben von Mitarbeitern des Such-Gross-Konzerns – angeheizt. Der eigens dafür komponierte Begriff „Culturomics“ (frei übersetzt: Kultur-onomie, zusammengesetzt wie Öko-nomie; gedacht wie Genom-Analyse bzw. was daraus gefolgert werden kann: genomics) soll verdeutlichen, dass in Zukunft aus einer Unzahl von Büchern und der Auswertung von Wortfrequenz und ähnlichen Verfahren schlüssig und vor allem quantifizierbar (und somit verifizierbar?!) eruiert werden kann, was wann wichtig war. – Das hört sich krude an, ist es auch, aber Kritik steht (hier) nicht zur Debatte.

Culturomics is the application of high-throughput data collection and analysis to the study of human culture (Science 331/176 (2011), pp. 181-182)

Interessant ist, wie der Ansatz in den vergangenen Jahren in der Öffentlichkeit verbreitet und rezipiert wurde. Mit am Anfang steht die angesprochene Publikation, die von Jean-Baptiste Michel et al. in Science publiziert wurde. Die Wahl für das Publikationsorgan hängt, gemäss Selbstbeschreibung im Paper, mit Wissen um die Gepflogenheiten der Zeitschrift zusammen; das es sich dabei um eines der wichtigsten Publikationsorgane weltweit handelt, entspricht wohl dem Anspruch der Forscher und Forscherinnen. Innerhalb der vierzehn Autoren, werden vier als Mitarbeiter von Google ausgewiesen und als Mitautor „The Google Books Team“ genannt.

Auf den Science Artikel folgend sprang praktisch jede Zeitung auf den n-Gram Zug auf (interessant wie unterschiedlich n-gramme darin definiert und erklärt wurden). Innert Monaten wurde jeder nur bedingt Interessierte mit Culturomics und/oder n-Gram bekannt geprügelt gemacht.

Die Reaktion von Geisteswissenschaftler insbesondere auf den Science Artikel war dürftig (im besten Fall) – die lesen ja auch nicht Science… Gerade mal zwei Reaktionen finden sich innerhalb der Zeitschrift (Science 332 (2011), pp. 35-36). Die Vorwürfe der beiden Scholars richtete sich zum einen gegen die Definition von „Wörtern“ und zum anderen gegen die Beschränkung der Datengrundlage auf „Bücher“. Beide Vorwürfe wurden freundlich, aber mit Verweis auf zukünftige Verbesserungen zurückgewiesen. Seitdem wurde das Thema innerhalb von Science nicht mehr kontrovers diskutiert.

Was ich bezüglich der Aufnahme des Google n-gram Tools für interessant (und irgendwie auch bezeichnend halte), ist dass es aufgrund der Methode und mit Verweis auf Quantifizierungsmöglichkeiten von „Kultur“ möglich war, sich in einem der wichtigsten Wissenschaftsmagazine zu positionieren (Wissenschaft im Sinne von scientific im Gegensatz zu scholarly).
Ob kausal verknüpft oder nicht sei dahingestellt: Folgend auf die Publikation erhielt das Tool eine Publizität über die gesamte Welt, sodass ein Umgehen der Abfragemöglichkeit unmöglich erscheint. Dennoch fehlen Ansätze zur Kritik (oder auch Verbesserungs- und Anpassungsvorschläge) von Seiten der intendierten Nutzer (also Geisteswissenschaftler) bis auf wenige Ausnahmen.
Erstaunlicherweise scheint die „Weltöffentlichkeit“ eine neue Methode (oder eine Herangehensweise?) zu kennen, die jedoch in der Fachwissenschaft nicht genutzt oder nicht diskutiert wird.
Oder noch bösartiger formuliert: Alle Welt meint die Möglichkeit zur Erforschung von geisteswissenschaftlichen Problemen gefunden zu haben, aber die Wissenschaftler interessierts nicht.

Esch reloaded

Obwohl es für einen Historiker müssig ist Vergangenheit mit Zukunft zu verbinden, hier trotzdem ein Versuch:

In seinem mittlerweile klassischen Aufsatz in der HZ 240 (1985) „Überlieferungs-Chance und Überlieferungs-Zufall als methodisches Problem des Historikers“ (Zugang via JSTOR) erörtert Arnold Esch, welche Dokumente, weshalb in unsere Zeit überliefert wurden. Die hohe Rezeption seiner verschriftlichten Antrittsvorlesung macht im deutschsprachigen Raum den Aufsatz zur Pflichtlektüre, wenn man sich mit dem Umgang mit Schrift auseinandersetzt. (Interessanterweise verweist auch eine Vielzahl von französischsprachige Arbeiten zu „Schrifthandeln“ auf den Aufsatz, zu ergründen wäre noch weshalb).

In einer Analogie (und gleichzeitigen Verkürzung) versuche ich hier seine Schlüsse auf’s 21. Jahrhundert anzuwenden. Man stelle sich also vor, wie in 500 Jahren Historiker (die sich mit Sicherheit nicht mehr so nennen werden) die Überreste einer Kultur begutachten, die um das Jahr 2000 Schritte in eine digitale Zukunft unternahm. Aus diesen ersten Jahren ist praktisch nichts mehr vorhanden. Das verwendete Material zersetzte sich entweder innerhalb weniger Jahre (säurehaltiges Papier), wurde rezykliert (dagegen sind Palimpseste heilig…), oder aber die Inhalte sind nicht mehr lesbar (und hier kommen natürlich auch „digitale“ Daten ins Spiel). Oder kurz gefasst: Die Überlieferung erlitt Verluste.

Passend dazu zwei Hauptaussagen Eschs, die auf den folgenden Zeilen irgendwie im Fokus stehen:

  • „Urkundliche Überlieferung mach das Mittelalter noch agrarischer, als es ohnehin schon ist.“ (S. 536)
  • „Urkunden-Überlieferung macht das Mittelalter noch kirchlicher, als es ohnehin schon ist.“ (S. 538)

Fragt sich, wer oder was wird in Zukunft überliefert und natürlich auch wie. Zum einen stehen hier die „klassischen“ Überlieferungsträger wie Archive und Bibliotheken. Machen sie das frühe 21. Jahrhundert staatlicher (Archive und Bibliotheken sind grösstenteils staatlich) und intellektueller (in welchem Verhältnis steht die rein prozentuale Überlieferung von Klatsch&Tratsch-Heften zu wissenschaftlichen-hochkultur-zeitschriften) als es ist (vom agrarischen zum intellektuellen und vom kirchlichen zum staatlichen)? Zum anderen bildet das World Wide Web eine Überlieferung, die um einiges komplexer ist, als die Abbildung in Archiven und Bibliotheken, wenn sie denn überhaupt noch existieren wird. Oder letzthin mal die Erlangerhistorikerseite aufgerufen (die wurde vor Jahren in Proseminaren noch als profunde Linkliste empfohlen, mittlerweilen muss die Adresse den Besitzer gewechselt haben). Kurzum wird wohl nicht nur in den Archiven vorwiegend solches überliefert, dessen Überlieferung bewusst forciert wurde.

„Schade“, könnte man sagen, „das bedeutet ja nichts anderes, als dass bewusst ‚Bilder‘ in die Zukunft transportiert werden.“ Genau, aber und hier kommt die (wirkliche) Chance (im Gegensatz zur Esch’schen Chance): Die Analyse des Überlieferten wird den zukünftigen Historionten (der Begriff ist zugegegebenermassen noch verbesserungsfähig) erlauben, Rückschlüsse auf die Nutzung eines Mediums zu ziehen, dass in einer unglaublichen Entwicklung begriffen war zu Beginn des 21. Jahrhunderts. Neben dem „staatlichen“ etablierten sich Unternehmen (z.B. Medienhäuser?!), die sich die Überlieferung etwas kosten liessen.

Natürlich: Der Vergleich hinkt und in 500 Jahren passiert viel, was weder vorhersehbar noch annähernd intendiert ist. Dennoch: Obwohl wir uns immer der Verluste bewusst sein müssen, als Historiker (Esch hat in vielen Punkten durchaus recht), ist die Überlieferung immer eine Chance. Eine Chance um zu sehen, wer es geschafft hat, dass sein „Produkt“ die Zeiten überstand, wer ökonomisch, ideologisch und wie auch immer seine Sichtweise durchsetzte. Die Suche nach den Leerstellen wird uns nie solche Erkenntnisse liefern können, wie die Analyse vom „Übriggebliebenen“.

Das Problem ist, dass Überlieferung zwar gemacht wird, die Überlieferung jedoch nie macht. Es ist die Historikerin oder der Historiont der macht und bildet.

Textanalyse mal anders — Idee zu einer Anleitung

Das Problem bei der Analyse von mittelalterlichen Quellen–insbesondere Urkunden–ist, dass wir eigentlich nur wissen, dass wir nichts wissen. Und allein um zu dieser Erkenntnis zu gelangen haben wir mehrere hundert Jahre gebraucht.
Joseph Morsel sagte einmal treffend:

Über mittelalterliche Dokumente wissen wir eigentlich nur, dass sie Ausdruck eines Problems sind.

(Wahrscheinlich habe ich die Aussage jetzt gerade fundamental falsch- und uminterpretiert und lehne an dieser Stelle jegliche Verantwortung ab. Ich kann auch nicht nachweisen, wo in seinem umfangreichen Werk er diese Aussage zu Papier gebracht hat — mea maxima culpa)

Ein Ansatz das Problem aus einer neuen Perspektive zu betrachten, bietet die non-lineare Textanalyse, die ich vor Wochen das erste Mal ausgetestet habe.

Der Ansatz funktioniert folgendermassen: Man nehme eine oder mehrere Quellen (den Ausdruck „Quelle“ umgeht Morsel übrigens geschickt und wohl nicht zu unrecht), werfe sie in einen Konkordanz-Programm für Korpusanalyse und schaue welche Worte am häufigsten vorkommen (keine Angst eine Aufzählung der Probleme folgt weiter unten).

Die Linguisten nutzen diese Art der Textanalyse schon länger, jedoch weniger für inhaltliche Forschung (im Sinne von, was passierte wann und wieso), sondern um diachrone Entwicklungen in der Sprache zu beobachten (auch bezüglich von Wortteilen).

Das faszinierende an der rohen Auszählung der Worte ist es, zu beobachten, welche Schwerpunkte anscheinend im gewählten Textkorpus vorherrschten. Noch spannender wird es wenn man visuell nachvollzieht, wo die häufigen Worte vorkommen (für gute Konkordanzsoftware ein Kinderspiel, gerne Verweise ich diesbezüglich auf die Seite von Noah Bubenhofer). Bei Protokollen zu Befragungen kann man etwa feststellen, welche Gruppe (oder wer, wen einzelne längere Aussagen machen) welche Worte braucht und welche nicht.

Im Idealfall könnten so sowohl synchron, wie auch diachron Vergleiche angestellt werden über die Worte–und in einem späteren Stadium vielleicht auch festen Ausdrücke–und der diesbezüglichen Veränderungen.

Zugegebenermassen ist das nicht die Lösung für alle Problem der unzugänglichen Inhalte von Dokumenten, es bietet aber eine neue Sichtweise auf alte Dokumente (oder, und das finde ich noch spannender: neue Sichtweisen auf sicher geglaubte Aussagen aus Quellen).

Das System enthält aber mehrere riesige Schwachstellen:

  • Zu wenig Dokumente stehen korrigiert (und ja damit meine ich eine Fehlerquote unter 99,9%) zur Verfügung.
  • Die Freiheit der Schreibweise führt zu problematischen Ergebnissen (Schreiberlinge waren schon um 1350 unsäglich kreativ)
  • Oft werden in Editionen (auch sog. elektronischen) Metadaten (wie Regesten), Quelltext und Kommentare wild zusammengeworfen (weshalb ich ein grosser Freund von XML Auszeichnung, etwa nach Schema der TEI, bin)

und diese grundsätzlichen Probleme sind nur der Anfang…

[as usual: to be continued]