Skip to content
Snippets Groups Projects

hfdb_xml_converter

XML-Datei einer Merkliste auf Korpusebene auslesen und in ein JSON-Format übersetzen.

Installation

pip install git+https://gitlab.ard.de/ida/hfdb_xml_converter.git

Verwendung

  1. XML-Datei einer HFDB Merkliste aus dem HFDB-Rich-Client herunterladen (Datei -> Export -> XML)
  2. Datei mit Python-Script laden und als JSON ausgeben lassen:
from hfdb_xml_converter import xml_to_json

input_file = './data/konf_data.xml'
output_dir = './output'
output_file = process_xml_to_json(input_file, output_dir)

# Output

[
  {
    "id": 1,
    "traegertitel": "Reaktion Bischof Ackermann auf Bericht zu Missbrauch und Bischof Stein",
    "tracktitel": "Reaktion Bischof Ackermann auf Bericht zu Missbrauch und Bischof Stein",
    "keywords": [
      "Bistumsgeschichte",
      "Deutlichkeit",
      "Mehrzahl",
      ...
    ],
    "transkript": "Ich sage schon auch, dass es für mich bedrückend ist, dass ...",
    "link": "https://linkresolver2.ivz.cn.ard.de/linkresolver/resolve?context=hfdb2&hfdb-recherche/permalink?typ=vollinfoAnzeige&vollinfoArt=vollinfokonf&ak=43073187&ko=53232625&amo=17350850&gkonf=53232624&destination=swrhfdb1"
  },
  {
    "id": 2,
    "traegertitel": "Unwetter am Bodensee und im Allgäu. Bericht aus Meckenbeuren",
    "tracktitel": "Unwetter am Bodensee und im Allgäu. Bericht aus Meckenbeuren",
    "keywords": [
      "Hochwasser",
      "Pegel",
      "Feuerwehr",
      ...
    ],
    "transkript": "Es war eine dramatische Nacht in Meckenbeuren im Bodenseekreis ...",
    "link": "https://linkresolver2.ivz.cn.ard.de/linkresolver/resolve?context=hfdb2&hfdb-recherche/permalink?typ=vollinfoAnzeige&vollinfoArt=vollinfokonf&ak=42598879&ko=52736037&amo=17124572&gkonf=52736033&destination=swrhfdb1"
  }
]