yt-dlp/youtube_dl/extractor/moniker.py

# coding: utf-8
from __future__ import unicode_literals

import os.path
import re

from .common import InfoExtractor
from ..compat import (
    compat_urllib_parse,
    compat_urllib_request,
)
from ..utils import (
    ExtractorError,
    remove_start,
)


class MonikerIE(InfoExtractor):
    IE_DESC = 'allmyvideos.net and vidspot.net'
    _VALID_URL = r'https?://(?:www\.)?(?:allmyvideos|vidspot)\.net/(?:(?:2|v)/v-)?(?P<id>[a-zA-Z0-9_-]+)'

    _TESTS = [{
        'url': 'http://allmyvideos.net/jih3nce3x6wn',
        'md5': '710883dee1bfc370ecf9fa6a89307c88',
        'info_dict': {
            'id': 'jih3nce3x6wn',
            'ext': 'mp4',
            'title': 'youtube-dl test video',
        },
    }, {
        'url': 'http://allmyvideos.net/embed-jih3nce3x6wn',
        'md5': '710883dee1bfc370ecf9fa6a89307c88',
        'info_dict': {
            'id': 'jih3nce3x6wn',
            'ext': 'mp4',
            'title': 'youtube-dl test video',
        },
    }, {
        'url': 'http://vidspot.net/l2ngsmhs8ci5',
        'md5': '710883dee1bfc370ecf9fa6a89307c88',
        'info_dict': {
            'id': 'l2ngsmhs8ci5',
            'ext': 'mp4',
            'title': 'youtube-dl test video',
        },
    }, {
        'url': 'https://www.vidspot.net/l2ngsmhs8ci5',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        orig_video_id = self._match_id(url)
        video_id = remove_start(orig_video_id, 'embed-')
        url = url.replace(orig_video_id, video_id)
        assert re.match(self._VALID_URL, url) is not None
        orig_webpage = self._download_webpage(url, video_id)

        if '>File Not Found<' in orig_webpage:
            raise ExtractorError('Video %s does not exist' % video_id, expected=True)

        error = self._search_regex(
            r'class="err">([^<]+)<', orig_webpage, 'error', default=None)
        if error:
            raise ExtractorError(
                '%s returned error: %s' % (self.IE_NAME, error), expected=True)

        builtin_url = self._search_regex(
            r'<iframe[^>]+src=(["\'])(?P<url>.+?/builtin-.+?)\1',
            orig_webpage, 'builtin URL', default=None, group='url')

        if builtin_url:
            req = compat_urllib_request.Request(builtin_url)
            req.add_header('Referer', url)
            webpage = self._download_webpage(req, video_id, 'Downloading builtin page')
            title = self._og_search_title(orig_webpage).strip()
            description = self._og_search_description(orig_webpage).strip()
        else:
            fields = re.findall(r'type="hidden" name="(.+?)"\s* value="?(.+?)">', orig_webpage)
            data = dict(fields)

            post = compat_urllib_parse.urlencode(data)
            headers = {
                b'Content-Type': b'application/x-www-form-urlencoded',
            }
            req = compat_urllib_request.Request(url, post, headers)
            webpage = self._download_webpage(
                req, video_id, note='Downloading video page ...')

            title = os.path.splitext(data['fname'])[0]
            description = None

        # Could be several links with different quality
        links = re.findall(r'"file" : "?(.+?)",', webpage)
        # Assume the links are ordered in quality
        formats = [{
            'url': l,
            'quality': i,
        } for i, l in enumerate(links)]
        self._sort_formats(formats)

        return {
            'id': video_id,
            'title': title,
            'description': description,
            'formats': formats,
        }
Added new host: allmyvideos.net 2014-09-16 12:48:53 -06:00			`# coding: utf-8`
			`from __future__ import unicode_literals`

[allmyvideos] Support multiple formats 2014-09-16 14:56:31 -06:00			`import os.path`
Added new host: allmyvideos.net 2014-09-16 12:48:53 -06:00			`import re`

			`from .common import InfoExtractor`
Fix imports and general cleanup · Import from compat what comes from compat. Yes, some names are available in utils too, but that's an implementation detail. · Use _match_id consistently whenever possible · Fix some outdated tests · Use consistent valid URL (always match the whole protocol, no ^ at start required) · Use modern test definitions 2014-12-13 04:24:42 -07:00			`from ..compat import (`
Added new host: allmyvideos.net 2014-09-16 12:48:53 -06:00			`compat_urllib_parse,`
			`compat_urllib_request,`
			`)`
[moniker] Support embed- URLs (#6450) 2015-08-15 01:17:27 -06:00			`from ..utils import (`
			`ExtractorError,`
			`remove_start,`
			`)`
Added new host: allmyvideos.net 2014-09-16 12:48:53 -06:00

[moniker] rename from hypestat (#3788) 2014-09-18 13:37:09 -06:00			`class MonikerIE(InfoExtractor):`
[hypestat] Unify allmyvideos and vidspot (Closes #3788) 2014-09-18 10:54:03 -06:00			`IE_DESC = 'allmyvideos.net and vidspot.net'`
[moniker] Add support for builtin embedded videos (Closes #7244) 2015-10-29 10:44:01 -06:00			`_VALID_URL = r'https?://(?:www\.)?(?:allmyvideos\|vidspot)\.net/(?:(?:2\|v)/v-)?(?P<id>[a-zA-Z0-9_-]+)'`
Added new host: allmyvideos.net 2014-09-16 12:48:53 -06:00
[hypestat] Unify allmyvideos and vidspot (Closes #3788) 2014-09-18 10:54:03 -06:00			`_TESTS = [{`
Added new host: allmyvideos.net 2014-09-16 12:48:53 -06:00			`'url': 'http://allmyvideos.net/jih3nce3x6wn',`
[allmyvideos] Support multiple formats 2014-09-16 14:56:31 -06:00			`'md5': '710883dee1bfc370ecf9fa6a89307c88',`
Added new host: allmyvideos.net 2014-09-16 12:48:53 -06:00			`'info_dict': {`
			`'id': 'jih3nce3x6wn',`
			`'ext': 'mp4',`
			`'title': 'youtube-dl test video',`
			`},`
[moniker] Support embed- URLs (#6450) 2015-08-15 01:17:27 -06:00			`}, {`
			`'url': 'http://allmyvideos.net/embed-jih3nce3x6wn',`
			`'md5': '710883dee1bfc370ecf9fa6a89307c88',`
			`'info_dict': {`
			`'id': 'jih3nce3x6wn',`
			`'ext': 'mp4',`
			`'title': 'youtube-dl test video',`
			`},`
[hypestat] Unify allmyvideos and vidspot (Closes #3788) 2014-09-18 10:54:03 -06:00			`}, {`
			`'url': 'http://vidspot.net/l2ngsmhs8ci5',`
			`'md5': '710883dee1bfc370ecf9fa6a89307c88',`
			`'info_dict': {`
			`'id': 'l2ngsmhs8ci5',`
			`'ext': 'mp4',`
			`'title': 'youtube-dl test video',`
			`},`
[hypestat] Match URLs with www. and https:// 2014-09-18 10:56:02 -06:00			`}, {`
			`'url': 'https://www.vidspot.net/l2ngsmhs8ci5',`
			`'only_matching': True,`
[hypestat] Unify allmyvideos and vidspot (Closes #3788) 2014-09-18 10:54:03 -06:00			`}]`
Added new host: allmyvideos.net 2014-09-16 12:48:53 -06:00
			`def _real_extract(self, url):`
[moniker] Support embed- URLs (#6450) 2015-08-15 01:17:27 -06:00			`orig_video_id = self._match_id(url)`
			`video_id = remove_start(orig_video_id, 'embed-')`
			`url = url.replace(orig_video_id, video_id)`
			`assert re.match(self._VALID_URL, url) is not None`
Change tabs to spaces 2014-09-16 13:05:50 -06:00			`orig_webpage = self._download_webpage(url, video_id)`
Fix imports and general cleanup · Import from compat what comes from compat. Yes, some names are available in utils too, but that's an implementation detail. · Use _match_id consistently whenever possible · Fix some outdated tests · Use consistent valid URL (always match the whole protocol, no ^ at start required) · Use modern test definitions 2014-12-13 04:24:42 -07:00
[moniker] Check not found error (#5541) 2015-04-27 11:46:16 -06:00			`if '>File Not Found<' in orig_webpage:`
			`raise ExtractorError('Video %s does not exist' % video_id, expected=True)`

[moniker] Capture and output error message (#5541) 2015-04-27 11:44:05 -06:00			`error = self._search_regex(`
			`r'class="err">([^<]+)<', orig_webpage, 'error', default=None)`
			`if error:`
			`raise ExtractorError(`
			`'%s returned error: %s' % (self.IE_NAME, error), expected=True)`

[moniker] Add support for builtin embedded videos (Closes #7244) 2015-10-29 10:44:01 -06:00			`builtin_url = self._search_regex(`
			`r'<iframe[^>]+src=(["\'])(?P<url>.+?/builtin-.+?)\1',`
			`orig_webpage, 'builtin URL', default=None, group='url')`
Change tabs to spaces 2014-09-16 13:05:50 -06:00
[moniker] Add support for builtin embedded videos (Closes #7244) 2015-10-29 10:44:01 -06:00			`if builtin_url:`
			`req = compat_urllib_request.Request(builtin_url)`
			`req.add_header('Referer', url)`
			`webpage = self._download_webpage(req, video_id, 'Downloading builtin page')`
			`title = self._og_search_title(orig_webpage).strip()`
			`description = self._og_search_description(orig_webpage).strip()`
			`else:`
			`fields = re.findall(r'type="hidden" name="(.+?)"\s* value="?(.+?)">', orig_webpage)`
			`data = dict(fields)`

			`post = compat_urllib_parse.urlencode(data)`
			`headers = {`
			`b'Content-Type': b'application/x-www-form-urlencoded',`
			`}`
			`req = compat_urllib_request.Request(url, post, headers)`
			`webpage = self._download_webpage(`
			`req, video_id, note='Downloading video page ...')`
[allmyvideos] Support multiple formats 2014-09-16 14:56:31 -06:00
[moniker] Add support for builtin embedded videos (Closes #7244) 2015-10-29 10:44:01 -06:00			`title = os.path.splitext(data['fname'])[0]`
			`description = None`
Change tabs to spaces 2014-09-16 13:05:50 -06:00
PEP8 applied 2014-11-23 12:41:03 -07:00			`# Could be several links with different quality`
Change tabs to spaces 2014-09-16 13:05:50 -06:00			`links = re.findall(r'"file" : "?(.+?)",', webpage)`
[allmyvideos] Support multiple formats 2014-09-16 14:56:31 -06:00			`# Assume the links are ordered in quality`
			`formats = [{`
			`'url': l,`
			`'quality': i,`
			`} for i, l in enumerate(links)]`
			`self._sort_formats(formats)`
Change tabs to spaces 2014-09-16 13:05:50 -06:00
			`return {`
			`'id': video_id,`
[allmyvideos] Support multiple formats 2014-09-16 14:56:31 -06:00			`'title': title,`
[moniker] Add support for builtin embedded videos (Closes #7244) 2015-10-29 10:44:01 -06:00			`'description': description,`
[allmyvideos] Support multiple formats 2014-09-16 14:56:31 -06:00			`'formats': formats,`
			`}`