lbry-sdk/lbry/stream/downloader.py

import asyncio
import typing
import logging
import binascii

from lbry.dht.node import get_kademlia_peers_from_hosts
from lbry.error import DownloadSDTimeoutError
from lbry.utils import lru_cache_concurrent
from lbry.stream.descriptor import StreamDescriptor
from lbry.blob_exchange.downloader import BlobDownloader
from lbry.torrent.tracker import enqueue_tracker_search

if typing.TYPE_CHECKING:
    from lbry.conf import Config
    from lbry.dht.node import Node
    from lbry.blob.blob_manager import BlobManager
    from lbry.blob.blob_file import AbstractBlob
    from lbry.blob.blob_info import BlobInfo

log = logging.getLogger(__name__)


class StreamDownloader:
    def __init__(self, loop: asyncio.AbstractEventLoop, config: 'Config', blob_manager: 'BlobManager', sd_hash: str,
                 descriptor: typing.Optional[StreamDescriptor] = None):
        self.loop = loop
        self.config = config
        self.blob_manager = blob_manager
        self.sd_hash = sd_hash
        self.search_queue = asyncio.Queue()     # blob hashes to feed into the iterative finder
        self.peer_queue = asyncio.Queue()       # new peers to try
        self.blob_downloader = BlobDownloader(self.loop, self.config, self.blob_manager, self.peer_queue)
        self.descriptor: typing.Optional[StreamDescriptor] = descriptor
        self.node: typing.Optional['Node'] = None
        self.accumulate_task: typing.Optional[asyncio.Task] = None
        self.fixed_peers_handle: typing.Optional[asyncio.Handle] = None
        self.fixed_peers_delay: typing.Optional[float] = None
        self.added_fixed_peers = False
        self.time_to_descriptor: typing.Optional[float] = None
        self.time_to_first_bytes: typing.Optional[float] = None

        async def cached_read_blob(blob_info: 'BlobInfo') -> bytes:
            return await self.read_blob(blob_info, 2)

        if self.blob_manager.decrypted_blob_lru_cache is not None:
            cached_read_blob = lru_cache_concurrent(override_lru_cache=self.blob_manager.decrypted_blob_lru_cache)(
                cached_read_blob
            )

        self.cached_read_blob = cached_read_blob

    async def add_fixed_peers(self):
        def _add_fixed_peers(fixed_peers):
            self.peer_queue.put_nowait(fixed_peers)
            self.added_fixed_peers = True

        if not self.config.fixed_peers:
            return
        if 'dht' in self.config.components_to_skip or not self.node or not \
                len(self.node.protocol.routing_table.get_peers()) > 0:
            self.fixed_peers_delay = 0.0
        else:
            self.fixed_peers_delay = self.config.fixed_peer_delay
        fixed_peers = await get_kademlia_peers_from_hosts(self.config.fixed_peers)
        self.fixed_peers_handle = self.loop.call_later(self.fixed_peers_delay, _add_fixed_peers, fixed_peers)

    async def load_descriptor(self, connection_id: int = 0):
        # download or get the sd blob
        sd_blob = self.blob_manager.get_blob(self.sd_hash)
        if not sd_blob.get_is_verified():
            try:
                now = self.loop.time()
                sd_blob = await asyncio.wait_for(
                    self.blob_downloader.download_blob(self.sd_hash, connection_id),
                    self.config.blob_download_timeout
                )
                log.info("downloaded sd blob %s", self.sd_hash)
                self.time_to_descriptor = self.loop.time() - now
            except asyncio.TimeoutError:
                raise DownloadSDTimeoutError(self.sd_hash)

        # parse the descriptor
        self.descriptor = await StreamDescriptor.from_stream_descriptor_blob(
            self.loop, self.blob_manager.blob_dir, sd_blob
        )
        log.info("loaded stream manifest %s", self.sd_hash)

    async def start(self, node: typing.Optional['Node'] = None, connection_id: int = 0, save_stream=True):
        # set up peer accumulation
        self.node = node or self.node  # fixme: this shouldnt be set here!
        if self.node:
            if self.accumulate_task and not self.accumulate_task.done():
                self.accumulate_task.cancel()
            _, self.accumulate_task = self.node.accumulate_peers(self.search_queue, self.peer_queue)
        await self.add_fixed_peers()
        enqueue_tracker_search(bytes.fromhex(self.sd_hash), self.peer_queue)
        # start searching for peers for the sd hash
        self.search_queue.put_nowait(self.sd_hash)
        log.info("searching for peers for stream %s", self.sd_hash)

        if not self.descriptor:
            await self.load_descriptor(connection_id)

        if not await self.blob_manager.storage.stream_exists(self.sd_hash) and save_stream:
            await self.blob_manager.storage.store_stream(
                self.blob_manager.get_blob(self.sd_hash, length=self.descriptor.length), self.descriptor
            )

    async def download_stream_blob(self, blob_info: 'BlobInfo', connection_id: int = 0) -> 'AbstractBlob':
        if not filter(lambda b: b.blob_hash == blob_info.blob_hash, self.descriptor.blobs[:-1]):
            raise ValueError(f"blob {blob_info.blob_hash} is not part of stream with sd hash {self.sd_hash}")
        blob = await asyncio.wait_for(
            self.blob_downloader.download_blob(blob_info.blob_hash, blob_info.length, connection_id),
            self.config.blob_download_timeout * 10
        )
        return blob

    def decrypt_blob(self, blob_info: 'BlobInfo', blob: 'AbstractBlob') -> bytes:
        return blob.decrypt(
            binascii.unhexlify(self.descriptor.key.encode()), binascii.unhexlify(blob_info.iv.encode())
        )

    async def read_blob(self, blob_info: 'BlobInfo', connection_id: int = 0) -> bytes:
        start = None
        if self.time_to_first_bytes is None:
            start = self.loop.time()
        blob = await self.download_stream_blob(blob_info, connection_id)
        decrypted = self.decrypt_blob(blob_info, blob)
        if start:
            self.time_to_first_bytes = self.loop.time() - start
        return decrypted

    def stop(self):
        if self.accumulate_task:
            self.accumulate_task.cancel()
            self.accumulate_task = None
        if self.fixed_peers_handle:
            self.fixed_peers_handle.cancel()
            self.fixed_peers_handle = None
        self.blob_downloader.close()
async lbrynet.stream 2019-01-22 18:54:17 +01:00			`import asyncio`
			`import typing`
			`import logging`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`import binascii`
use cache for dht peer objects 2019-09-25 17:39:34 +02:00
Bug [#2070] where blob_get RPC timed out. Both stream.downloader and blob_exchange.downloader paths are adding the fixed_peers list to the DHT node. Tested jsonrpc_blob_get daemon call. Bug [#2070] where blob_get RPC timed out. Both stream.downloader and blob_exchange.downloader paths are adding the fixed_peers list to the DHT node. Tested jsonrpc_blob_get daemon call. 2021-07-20 15:50:24 +02:00			`from lbry.dht.node import get_kademlia_peers_from_hosts`
updated code base to use generated errors 2019-11-19 19:57:14 +01:00			`from lbry.error import DownloadSDTimeoutError`
Bug [#2070] where blob_get RPC timed out. Both stream.downloader and blob_exchange.downloader paths are adding the fixed_peers list to the DHT node. Tested jsonrpc_blob_get daemon call. Bug [#2070] where blob_get RPC timed out. Both stream.downloader and blob_exchange.downloader paths are adding the fixed_peers list to the DHT node. Tested jsonrpc_blob_get daemon call. 2021-07-20 15:50:24 +02:00			`from lbry.utils import lru_cache_concurrent`
moved lbrynet -> lbry 2019-06-21 02:55:47 +02:00			`from lbry.stream.descriptor import StreamDescriptor`
			`from lbry.blob_exchange.downloader import BlobDownloader`
return KademliaPeers directly into the queue instead of exposing Announcement abstraction 2022-04-05 04:53:38 +02:00			`from lbry.torrent.tracker import enqueue_tracker_search`
use tracker on download 2022-03-05 08:15:04 +01:00
async lbrynet.stream 2019-01-22 18:54:17 +01:00			`if typing.TYPE_CHECKING:`
moved lbrynet -> lbry 2019-06-21 02:55:47 +02:00			`from lbry.conf import Config`
			`from lbry.dht.node import Node`
			`from lbry.blob.blob_manager import BlobManager`
			`from lbry.blob.blob_file import AbstractBlob`
			`from lbry.blob.blob_info import BlobInfo`
async lbrynet.stream 2019-01-22 18:54:17 +01:00
			`log = logging.getLogger(__name__)`


remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`class StreamDownloader:`
include connection failure count in ttfb analytics 2019-08-05 15:24:23 +02:00			`def __init__(self, loop: asyncio.AbstractEventLoop, config: 'Config', blob_manager: 'BlobManager', sd_hash: str,`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`descriptor: typing.Optional[StreamDescriptor] = None):`
			`self.loop = loop`
refactor downloader split peer accumulation out, use Queues instead of locks 2019-01-30 20:57:09 +01:00			`self.config = config`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`self.blob_manager = blob_manager`
			`self.sd_hash = sd_hash`
passing loop to asyncio functions is deprecated 2021-08-21 05:33:21 +02:00			`self.search_queue = asyncio.Queue() # blob hashes to feed into the iterative finder`
			`self.peer_queue = asyncio.Queue() # new peers to try`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`self.blob_downloader = BlobDownloader(self.loop, self.config, self.blob_manager, self.peer_queue)`
			`self.descriptor: typing.Optional[StreamDescriptor] = descriptor`
refactor downloader split peer accumulation out, use Queues instead of locks 2019-01-30 20:57:09 +01:00			`self.node: typing.Optional['Node'] = None`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`self.accumulate_task: typing.Optional[asyncio.Task] = None`
refactor downloader split peer accumulation out, use Queues instead of locks 2019-01-30 20:57:09 +01:00			`self.fixed_peers_handle: typing.Optional[asyncio.Handle] = None`
fix/test fixed_peer_delay and added_fixed_peers 2019-03-14 20:08:26 +01:00			`self.fixed_peers_delay: typing.Optional[float] = None`
			`self.added_fixed_peers = False`
tests 2019-03-31 19:42:27 +02:00			`self.time_to_descriptor: typing.Optional[float] = None`
			`self.time_to_first_bytes: typing.Optional[float] = None`
refactor downloader split peer accumulation out, use Queues instead of locks 2019-01-30 20:57:09 +01:00
add `blob_lru_cache_size` config setting, defaults to 32 2019-05-24 04:40:02 +02:00			`async def cached_read_blob(blob_info: 'BlobInfo') -> bytes:`
			`return await self.read_blob(blob_info, 2)`

lru cache metrics 2020-12-23 22:37:31 +01:00			`if self.blob_manager.decrypted_blob_lru_cache is not None:`
add `blob_lru_cache_size` config setting, defaults to 32 2019-05-24 04:40:02 +02:00			`cached_read_blob = lru_cache_concurrent(override_lru_cache=self.blob_manager.decrypted_blob_lru_cache)(`
			`cached_read_blob`
			`)`

			`self.cached_read_blob = cached_read_blob`

remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`async def add_fixed_peers(self):`
Bug [#2070] where blob_get RPC timed out. Both stream.downloader and blob_exchange.downloader paths are adding the fixed_peers list to the DHT node. Tested jsonrpc_blob_get daemon call. Bug [#2070] where blob_get RPC timed out. Both stream.downloader and blob_exchange.downloader paths are adding the fixed_peers list to the DHT node. Tested jsonrpc_blob_get daemon call. 2021-07-20 15:50:24 +02:00			`def _add_fixed_peers(fixed_peers):`
			`self.peer_queue.put_nowait(fixed_peers)`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`self.added_fixed_peers = True`

split fixed peer setting out from reflector_servers 2020-05-08 16:58:29 +02:00			`if not self.config.fixed_peers:`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`return`
			`if 'dht' in self.config.components_to_skip or not self.node or not \`
lint: lbry/stream/* 2020-01-03 06:35:38 +01:00			`len(self.node.protocol.routing_table.get_peers()) > 0:`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`self.fixed_peers_delay = 0.0`
			`else:`
			`self.fixed_peers_delay = self.config.fixed_peer_delay`
Bug [#2070] where blob_get RPC timed out. Both stream.downloader and blob_exchange.downloader paths are adding the fixed_peers list to the DHT node. Tested jsonrpc_blob_get daemon call. Bug [#2070] where blob_get RPC timed out. Both stream.downloader and blob_exchange.downloader paths are adding the fixed_peers list to the DHT node. Tested jsonrpc_blob_get daemon call. 2021-07-20 15:50:24 +02:00			`fixed_peers = await get_kademlia_peers_from_hosts(self.config.fixed_peers)`
			`self.fixed_peers_handle = self.loop.call_later(self.fixed_peers_delay, _add_fixed_peers, fixed_peers)`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00
add connection id workaround 2019-05-06 02:22:10 +02:00			`async def load_descriptor(self, connection_id: int = 0):`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`# download or get the sd blob`
			`sd_blob = self.blob_manager.get_blob(self.sd_hash)`
			`if not sd_blob.get_is_verified():`
tests 2019-03-31 19:42:27 +02:00			`try:`
			`now = self.loop.time()`
			`sd_blob = await asyncio.wait_for(`
add connection id workaround 2019-05-06 02:22:10 +02:00			`self.blob_downloader.download_blob(self.sd_hash, connection_id),`
passing loop to asyncio functions is deprecated 2021-08-21 05:33:21 +02:00			`self.config.blob_download_timeout`
tests 2019-03-31 19:42:27 +02:00			`)`
			`log.info("downloaded sd blob %s", self.sd_hash)`
			`self.time_to_descriptor = self.loop.time() - now`
			`except asyncio.TimeoutError:`
updated code base to use generated errors 2019-11-19 19:57:14 +01:00			`raise DownloadSDTimeoutError(self.sd_hash)`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00
			`# parse the descriptor`
			`self.descriptor = await StreamDescriptor.from_stream_descriptor_blob(`
			`self.loop, self.blob_manager.blob_dir, sd_blob`
			`)`
			`log.info("loaded stream manifest %s", self.sd_hash)`

don't save streams for network blobs and bypass disk space manager 2021-10-20 07:18:34 +02:00			`async def start(self, node: typing.Optional['Node'] = None, connection_id: int = 0, save_stream=True):`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`# set up peer accumulation`
fix unit tests 2020-01-29 17:49:14 +01:00			`self.node = node or self.node # fixme: this shouldnt be set here!`
			`if self.node:`
dont clearbanned if there are working peers, dont remove node immediately during search 2019-05-13 18:14:08 +02:00			`if self.accumulate_task and not self.accumulate_task.done():`
			`self.accumulate_task.cancel()`
refactor downloader split peer accumulation out, use Queues instead of locks 2019-01-30 20:57:09 +01:00			`_, self.accumulate_task = self.node.accumulate_peers(self.search_queue, self.peer_queue)`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`await self.add_fixed_peers()`
return KademliaPeers directly into the queue instead of exposing Announcement abstraction 2022-04-05 04:53:38 +02:00			`enqueue_tracker_search(bytes.fromhex(self.sd_hash), self.peer_queue)`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`# start searching for peers for the sd hash`
refactor downloader split peer accumulation out, use Queues instead of locks 2019-01-30 20:57:09 +01:00			`self.search_queue.put_nowait(self.sd_hash)`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`log.info("searching for peers for stream %s", self.sd_hash)`

			`if not self.descriptor:`
add connection id workaround 2019-05-06 02:22:10 +02:00			`await self.load_descriptor(connection_id)`
refactor downloader split peer accumulation out, use Queues instead of locks 2019-01-30 20:57:09 +01:00
don't save streams for network blobs and bypass disk space manager 2021-10-20 07:18:34 +02:00			`if not await self.blob_manager.storage.stream_exists(self.sd_hash) and save_stream:`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`await self.blob_manager.storage.store_stream(`
			`self.blob_manager.get_blob(self.sd_hash, length=self.descriptor.length), self.descriptor`
			`)`

add connection id workaround 2019-05-06 02:22:10 +02:00			`async def download_stream_blob(self, blob_info: 'BlobInfo', connection_id: int = 0) -> 'AbstractBlob':`
typing 2019-08-02 19:14:41 +02:00			`if not filter(lambda b: b.blob_hash == blob_info.blob_hash, self.descriptor.blobs[:-1]):`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`raise ValueError(f"blob {blob_info.blob_hash} is not part of stream with sd hash {self.sd_hash}")`
add timeout to blob downloads after the head blob, stop timed out streams 2019-05-10 20:50:01 +02:00			`blob = await asyncio.wait_for(`
			`self.blob_downloader.download_blob(blob_info.blob_hash, blob_info.length, connection_id),`
passing loop to asyncio functions is deprecated 2021-08-21 05:33:21 +02:00			`self.config.blob_download_timeout * 10`
add timeout to blob downloads after the head blob, stop timed out streams 2019-05-10 20:50:01 +02:00			`)`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`return blob`

more streaming_only + save_blobs integration testing 2019-04-17 19:32:24 +02:00			`def decrypt_blob(self, blob_info: 'BlobInfo', blob: 'AbstractBlob') -> bytes:`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`return blob.decrypt(`
			`binascii.unhexlify(self.descriptor.key.encode()), binascii.unhexlify(blob_info.iv.encode())`
			`)`

add connection id workaround 2019-05-06 02:22:10 +02:00			`async def read_blob(self, blob_info: 'BlobInfo', connection_id: int = 0) -> bytes:`
tests 2019-03-31 19:42:27 +02:00			`start = None`
			`if self.time_to_first_bytes is None:`
			`start = self.loop.time()`
add connection id workaround 2019-05-06 02:22:10 +02:00			`blob = await self.download_stream_blob(blob_info, connection_id)`
more streaming_only + save_blobs integration testing 2019-04-17 19:32:24 +02:00			`decrypted = self.decrypt_blob(blob_info, blob)`
tests 2019-03-31 19:42:27 +02:00			`if start:`
			`self.time_to_first_bytes = self.loop.time() - start`
			`return decrypted`
async lbrynet.stream 2019-01-22 18:54:17 +01:00
set verified event earlier and remove stop awaits 2019-02-01 20:04:53 +01:00			`def stop(self):`
			`if self.accumulate_task:`
refactor downloader split peer accumulation out, use Queues instead of locks 2019-01-30 20:57:09 +01:00			`self.accumulate_task.cancel()`
			`self.accumulate_task = None`
			`if self.fixed_peers_handle:`
			`self.fixed_peers_handle.cancel()`
			`self.fixed_peers_handle = None`
remove StreamAssembler, refactor ManagedStream and StreamDownloader (WIP) 2019-03-31 03:07:43 +02:00			`self.blob_downloader.close()`