from datasets import load_dataset from datasets import load_dataset_builder from datasets import get_dataset_config_names # Get a list of available configs/subsets of Thorsten-Voice dataset configs_subsets = get_dataset_config_names("Thorsten-Voice/TV-44kHz-Full") print(configs_subsets) ['TV-2021.02-Neutral', 'TV-2021.06-Emotional', 'TV-2022.10-Neutral', 'TV-2023.09-Hessisch', 'all'] # Get some dataset information ds_builder = load_dataset_builder("Thorsten-Voice/TV-44kHz-Full", "TV-2022.10-Neutral") print("Desciption: " + ds_builder.info.description) print("Homepage: " + ds_builder.info.homepage) print("License: " + ds_builder.info.license) Desciption: Single german male speaker, neutral speech, very clear, high class quality, natural speech flow Homepage: https://www.Thorsten-Voice.de License: CC0 # Load "Hessisch" subset ds = load_dataset("Thorsten-Voice/TV-44kHz-Full", "TV-2022.10-Neutral", split="train") # Return first row of "Hessisch" subset print(ds[0]) # Get first three rows, limited to "text" column print(ds[:3]["text"]) ['Woran kannst du erkennen, ob etwas qualitativ gut oder schlecht ist.', 'Diese heiße Schokolade ist nichts für Kinder und perfekt, um am Wochenende oder nach einem langen Tag zu entspannen.', 'Aus den Untersuchungen kam heraus, dass diese Kinder aufmerksamer waren, emotional stabiler und ausgeglichener im Vergleich zu den Kindern die später ins Bett gingen.']