hfdb_xml_converter
XML-Datei einer Merkliste auf Korpusebene auslesen und in ein JSON-Format übersetzen.
Installation
pip install git+https://gitlab.ard.de/ida/hfdb_xml_converter.git
Verwendung
- XML-Datei einer HFDB Merkliste aus dem HFDB-Rich-Client herunterladen (Datei -> Export -> XML)
- Datei mit Python-Script laden und als JSON ausgeben lassen:
from hfdb_xml_converter import xml_to_json
input_file = './data/konf_data.xml'
output_dir = './output'
output_file = process_xml_to_json(input_file, output_dir)
# Output
[
{
"id": 1,
"traegertitel": "Reaktion Bischof Ackermann auf Bericht zu Missbrauch und Bischof Stein",
"tracktitel": "Reaktion Bischof Ackermann auf Bericht zu Missbrauch und Bischof Stein",
"keywords": [
"Bistumsgeschichte",
"Deutlichkeit",
"Mehrzahl",
...
],
"transkript": "Ich sage schon auch, dass es für mich bedrückend ist, dass ...",
"link": "https://linkresolver2.ivz.cn.ard.de/linkresolver/resolve?context=hfdb2&hfdb-recherche/permalink?typ=vollinfoAnzeige&vollinfoArt=vollinfokonf&ak=43073187&ko=53232625&amo=17350850&gkonf=53232624&destination=swrhfdb1"
},
{
"id": 2,
"traegertitel": "Unwetter am Bodensee und im Allgäu. Bericht aus Meckenbeuren",
"tracktitel": "Unwetter am Bodensee und im Allgäu. Bericht aus Meckenbeuren",
"keywords": [
"Hochwasser",
"Pegel",
"Feuerwehr",
...
],
"transkript": "Es war eine dramatische Nacht in Meckenbeuren im Bodenseekreis ...",
"link": "https://linkresolver2.ivz.cn.ard.de/linkresolver/resolve?context=hfdb2&hfdb-recherche/permalink?typ=vollinfoAnzeige&vollinfoArt=vollinfokonf&ak=42598879&ko=52736037&amo=17124572&gkonf=52736033&destination=swrhfdb1"
}
]