yt-dlp/yt_dlp/extractor/dctp.py

from .common import InfoExtractor
from ..utils import (
    float_or_none,
    int_or_none,
    unified_timestamp,
    url_or_none,
)


class DctpTvIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?dctp\.tv/(?:#/)?filme/(?P<id>[^/?#&]+)'
    _TESTS = [{
        # 4x3
        'url': 'http://www.dctp.tv/filme/videoinstallation-fuer-eine-kaufhausfassade/',
        'md5': '3ffbd1556c3fe210724d7088fad723e3',
        'info_dict': {
            'id': '95eaa4f33dad413aa17b4ee613cccc6c',
            'display_id': 'videoinstallation-fuer-eine-kaufhausfassade',
            'ext': 'm4v',
            'title': 'Videoinstallation für eine Kaufhausfassade',
            'description': 'Kurzfilm',
            'thumbnail': r're:^https?://.*\.jpg$',
            'duration': 71.24,
            'timestamp': 1302172322,
            'upload_date': '20110407',
        },
    }, {
        # 16x9
        'url': 'http://www.dctp.tv/filme/sind-youtuber-die-besseren-lehrer/',
        'only_matching': True,
    }]

    _BASE_URL = 'http://dctp-ivms2-restapi.s3.amazonaws.com'

    def _real_extract(self, url):
        display_id = self._match_id(url)

        version = self._download_json(
            f'{self._BASE_URL}/version.json', display_id,
            'Downloading version JSON')

        restapi_base = '{}/{}/restapi'.format(
            self._BASE_URL, version['version_name'])

        info = self._download_json(
            f'{restapi_base}/slugs/{display_id}.json', display_id,
            'Downloading video info JSON')

        media = self._download_json(
            '{}/media/{}.json'.format(restapi_base, str(info['object_id'])),
            display_id, 'Downloading media JSON')

        uuid = media['uuid']
        title = media['title']
        is_wide = media.get('is_wide')
        formats = []

        def add_formats(suffix):
            templ = f'https://%s/{uuid}_dctp_{suffix}.m4v'
            formats.extend([{
                'format_id': 'hls-' + suffix,
                'url': templ % 'cdn-segments.dctp.tv' + '/playlist.m3u8',
                'protocol': 'm3u8_native',
            }, {
                'format_id': 's3-' + suffix,
                'url': templ % 'completed-media.s3.amazonaws.com',
            }, {
                'format_id': 'http-' + suffix,
                'url': templ % 'cdn-media.dctp.tv',
            }])

        add_formats('0500_' + ('16x9' if is_wide else '4x3'))
        if is_wide:
            add_formats('720p')

        thumbnails = []
        images = media.get('images')
        if isinstance(images, list):
            for image in images:
                if not isinstance(image, dict):
                    continue
                image_url = url_or_none(image.get('url'))
                if not image_url:
                    continue
                thumbnails.append({
                    'url': image_url,
                    'width': int_or_none(image.get('width')),
                    'height': int_or_none(image.get('height')),
                })

        return {
            'id': uuid,
            'display_id': display_id,
            'title': title,
            'alt_title': media.get('subtitle'),
            'description': media.get('description') or media.get('teaser'),
            'timestamp': unified_timestamp(media.get('created')),
            'duration': float_or_none(media.get('duration_in_ms'), scale=1000),
            'thumbnails': thumbnails,
            'formats': formats,
        }
added extractor for dctp.tv 2015-01-28 00:21:04 -07:00			`from .common import InfoExtractor`
[dctptv] Fix extraction (closes #14599) 2017-10-28 09:58:01 -06:00			`from ..utils import (`
			`float_or_none,`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`int_or_none,`
			`unified_timestamp,`
Improve URL extraction 2018-07-21 06:08:28 -06:00			`url_or_none,`
[dctptv] Fix extraction (closes #14599) 2017-10-28 09:58:01 -06:00			`)`
added extractor for dctp.tv 2015-01-28 00:21:04 -07:00
added test for dctp 2015-01-28 00:59:58 -07:00
added extractor for dctp.tv 2015-01-28 00:21:04 -07:00			`class DctpTvIE(InfoExtractor):`
[dctptv] Fix extraction (closes #14599) 2017-10-28 09:58:01 -06:00			`_VALID_URL = r'https?://(?:www\.)?dctp\.tv/(?:#/)?filme/(?P<id>[^/?#&]+)'`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`_TESTS = [{`
			`# 4x3`
added test for dctp 2015-01-28 00:59:58 -07:00			`'url': 'http://www.dctp.tv/filme/videoinstallation-fuer-eine-kaufhausfassade/',`
[dctp] fix format extraction(closes #23656) 2020-01-07 05:03:32 -07:00			`'md5': '3ffbd1556c3fe210724d7088fad723e3',`
added test for dctp 2015-01-28 00:59:58 -07:00			`'info_dict': {`
[dctp] Fix extraction (closes #10734) 2016-10-01 01:22:48 -06:00			`'id': '95eaa4f33dad413aa17b4ee613cccc6c',`
[dctp] fix test 2015-01-29 16:35:53 -07:00			`'display_id': 'videoinstallation-fuer-eine-kaufhausfassade',`
[dctp] fix format extraction(closes #23656) 2020-01-07 05:03:32 -07:00			`'ext': 'm4v',`
[dctp] Fix extraction (closes #10734) 2016-10-01 01:22:48 -06:00			`'title': 'Videoinstallation für eine Kaufhausfassade',`
			`'description': 'Kurzfilm',`
Fix "invalid escape sequences" error on Python 3.6 2017-01-02 05:08:07 -07:00			`'thumbnail': r're:^https?://.*\.jpg$',`
[dctptv] Fix extraction (closes #14599) 2017-10-28 09:58:01 -06:00			`'duration': 71.24,`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`'timestamp': 1302172322,`
			`'upload_date': '20110407',`
[dctptv] Fix extraction (closes #14599) 2017-10-28 09:58:01 -06:00			`},`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`}, {`
			`# 16x9`
			`'url': 'http://www.dctp.tv/filme/sind-youtuber-die-besseren-lehrer/',`
			`'only_matching': True,`
			`}]`

			`_BASE_URL = 'http://dctp-ivms2-restapi.s3.amazonaws.com'`
added extractor for dctp.tv 2015-01-28 00:21:04 -07:00
			`def _real_extract(self, url):`
[dctptv] Fix extraction (closes #14599) 2017-10-28 09:58:01 -06:00			`display_id = self._match_id(url)`
[dctp] Fix extraction (closes #10734) 2016-10-01 01:22:48 -06:00
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`version = self._download_json(`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 2024-06-11 17:09:58 -06:00			`f'{self._BASE_URL}/version.json', display_id,`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`'Downloading version JSON')`

[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 2024-06-11 17:09:58 -06:00			`restapi_base = '{}/{}/restapi'.format(`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`self._BASE_URL, version['version_name'])`
added extractor for dctp.tv 2015-01-28 00:21:04 -07:00
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`info = self._download_json(`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 2024-06-11 17:09:58 -06:00			`f'{restapi_base}/slugs/{display_id}.json', display_id,`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`'Downloading video info JSON')`
[dctp] Fix extraction (closes #10734) 2016-10-01 01:22:48 -06:00
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`media = self._download_json(`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 2024-06-11 17:09:58 -06:00			`'{}/media/{}.json'.format(restapi_base, str(info['object_id'])),`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`display_id, 'Downloading media JSON')`

			`uuid = media['uuid']`
			`title = media['title']`
[dctp] fix format extraction(closes #23656) 2020-01-07 05:03:32 -07:00			`is_wide = media.get('is_wide')`
			`formats = []`

			`def add_formats(suffix):`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 2024-06-11 17:09:58 -06:00			`templ = f'https://%s/{uuid}_dctp_{suffix}.m4v'`
[dctp] fix format extraction(closes #23656) 2020-01-07 05:03:32 -07:00			`formats.extend([{`
			`'format_id': 'hls-' + suffix,`
			`'url': templ % 'cdn-segments.dctp.tv' + '/playlist.m3u8',`
			`'protocol': 'm3u8_native',`
			`}, {`
			`'format_id': 's3-' + suffix,`
			`'url': templ % 'completed-media.s3.amazonaws.com',`
			`}, {`
			`'format_id': 'http-' + suffix,`
			`'url': templ % 'cdn-media.dctp.tv',`
			`}])`

			`add_formats('0500_' + ('16x9' if is_wide else '4x3'))`
			`if is_wide:`
			`add_formats('720p')`
[dctptv] Fix extraction (closes #14599) 2017-10-28 09:58:01 -06:00
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`thumbnails = []`
			`images = media.get('images')`
			`if isinstance(images, list):`
			`for image in images:`
			`if not isinstance(image, dict):`
			`continue`
Improve URL extraction 2018-07-21 06:08:28 -06:00			`image_url = url_or_none(image.get('url'))`
			`if not image_url:`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`continue`
			`thumbnails.append({`
			`'url': image_url,`
			`'width': int_or_none(image.get('width')),`
			`'height': int_or_none(image.get('height')),`
			`})`
added extractor for dctp.tv 2015-01-28 00:21:04 -07:00
			`return {`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`'id': uuid,`
			`'display_id': display_id,`
added extractor for dctp.tv 2015-01-28 00:21:04 -07:00			`'title': title,`
[dctptv] Restore extraction based on REST API (closes #16850) 2018-06-28 11:35:05 -06:00			`'alt_title': media.get('subtitle'),`
			`'description': media.get('description') or media.get('teaser'),`
			`'timestamp': unified_timestamp(media.get('created')),`
			`'duration': float_or_none(media.get('duration_in_ms'), scale=1000),`
			`'thumbnails': thumbnails,`
[dctp] Fix extraction (closes #10734) 2016-10-01 01:22:48 -06:00			`'formats': formats,`
added extractor for dctp.tv 2015-01-28 00:21:04 -07:00			`}`