lbry-sdk/lbrynet/blob/blob_file.py

import logging
import os
from twisted.internet import defer, threads
from twisted.protocols.basic import FileSender
from twisted.web.client import FileBodyProducer
from twisted.python.failure import Failure
from lbrynet import conf
from lbrynet.core.Error import DownloadCanceledError, InvalidDataError, InvalidBlobHashError
from lbrynet.core.utils import is_valid_blobhash
from lbrynet.blob.writer import HashBlobWriter
from lbrynet.blob.reader import HashBlobReader, HashBlobReader_v0


log = logging.getLogger(__name__)


class BlobFile(object):
    """
    A chunk of data available on the network which is specified by a hashsum

    This class is used to create blobs on the local filesystem
    when we already know the blob hash before hand (i.e., when downloading blobs)
    Also can be used for reading from blobs on the local filesystem
    """

    def __str__(self):
        return self.blob_hash[:16]

    def __repr__(self):
        return '<{}({})>'.format(self.__class__.__name__, str(self))

    def __init__(self, blob_dir, blob_hash, length=None):
        if not is_valid_blobhash(blob_hash):
            raise InvalidBlobHashError(blob_hash)
        self.blob_hash = blob_hash
        self.length = length
        self.writers = {}  # {Peer: writer, finished_deferred}
        self._verified = False
        self.readers = 0
        self.blob_dir = blob_dir
        self.file_path = os.path.join(blob_dir, self.blob_hash)
        self.blob_write_lock = defer.DeferredLock()
        self.saved_verified_blob = False
        if os.path.isfile(self.file_path):
            self.set_length(os.path.getsize(self.file_path))
            # This assumes that the hash of the blob has already been
            # checked as part of the blob creation process. It might
            # be worth having a function that checks the actual hash;
            # its probably too expensive to have that check be part of
            # this call.
            self._verified = True

    def open_for_writing(self, peer):
        """
        open a blob file to be written by peer, supports concurrent
        writers, as long as they are from differnt peers.

        returns tuple of (writer, finished_deferred)

        writer - a file like object with a write() function, close() when finished
        finished_deferred - deferred that is fired when write is finished and returns
            a instance of itself as HashBlob
        """
        if not peer in self.writers:
            log.debug("Opening %s to be written by %s", str(self), str(peer))
            finished_deferred = defer.Deferred()
            writer = HashBlobWriter(self.get_length, self.writer_finished)
            self.writers[peer] = (writer, finished_deferred)
            return (writer, finished_deferred)
        log.warning("Tried to download the same file twice simultaneously from the same peer")
        return None, None

    def open_for_reading(self):
        """
        open blob for reading

        returns a file like object that can be read() from, and closed() when
        finished
        """
        if self._verified is True:
            reader = HashBlobReader(self.file_path, self.reader_finished)
            self.readers += 1
            return reader
        return None

    def delete(self):
        """
        delete blob file from file system, prevent deletion
        if a blob is being read from or written to

        returns a deferred that firesback when delete is completed
        """
        if not self.writers and not self.readers:
            self._verified = False
            self.saved_verified_blob = False

            def delete_from_file_system():
                if os.path.isfile(self.file_path):
                    os.remove(self.file_path)

            d = threads.deferToThread(delete_from_file_system)

            def log_error(err):
                log.warning("An error occurred deleting %s: %s",
                            str(self.file_path), err.getErrorMessage())
                return err

            d.addErrback(log_error)
            return d
        else:
            return defer.fail(Failure(
                ValueError("File is currently being read or written and cannot be deleted")))

    @property
    def verified(self):
        """
        Protect verified from being modified by other classes.
        verified is True if a write to a blob has completed succesfully,
        or a blob has been read to have the same length as specified
        in init
        """
        return self._verified

    def set_length(self, length):
        if self.length is not None and length == self.length:
            return True
        if self.length is None and 0 <= length <= conf.settings['BLOB_SIZE']:
            self.length = length
            return True
        log.warning("Got an invalid length. Previous length: %s, Invalid length: %s",
                    self.length, length)
        return False

    def get_length(self):
        return self.length

    def get_is_verified(self):
        return self.verified

    def is_downloading(self):
        if self.writers:
            return True
        return False

    def read(self, write_func):
        """
        This function is only used in StreamBlobDecryptor
        and should be deprecated in favor of open_for_reading()
        """
        def close_self(*args):
            self.close_read_handle(file_handle)
            return args[0]

        file_sender = FileSender()
        reader = HashBlobReader_v0(write_func)
        file_handle = self.open_for_reading()
        if file_handle is not None:
            d = file_sender.beginFileTransfer(file_handle, reader)
            d.addCallback(close_self)
        else:
            d = defer.fail(IOError("Could not read the blob"))
        return d

    def close_read_handle(self, file_handle):
        """
        This function is only used in StreamBlobDecryptor
        and should be deprecated in favor of open_for_reading()
        """
        if file_handle is not None:
            file_handle.close()

    def reader_finished(self, reader):
        self.readers -= 1
        return defer.succeed(True)

    def writer_finished(self, writer, err=None):
        def fire_finished_deferred():
            self._verified = True
            for p, (w, finished_deferred) in self.writers.items():
                if w == writer:
                    del self.writers[p]
                    finished_deferred.callback(self)
                    return True
            log.warning(
                "Somehow, the writer that was accepted as being valid was already removed: %s",
                writer)
            return False

        def errback_finished_deferred(err):
            for p, (w, finished_deferred) in self.writers.items():
                if w == writer:
                    del self.writers[p]
                    finished_deferred.errback(err)

        def cancel_other_downloads():
            for p, (w, finished_deferred) in self.writers.items():
                w.close()

        if err is None:
            if writer.len_so_far == self.length and writer.blob_hash == self.blob_hash:
                if self._verified is False:
                    d = self.save_verified_blob(writer)
                    d.addCallbacks(lambda _: fire_finished_deferred(), errback_finished_deferred)
                    d.addCallback(lambda _: cancel_other_downloads())
                else:
                    errback_finished_deferred(Failure(DownloadCanceledError()))
                    d = defer.succeed(True)
            else:
                err_string = "length vs expected: {0}, {1}, hash vs expected: {2}, {3}"
                err_string = err_string.format(self.length, writer.len_so_far, self.blob_hash,
                                               writer.blob_hash)
                errback_finished_deferred(Failure(InvalidDataError(err_string)))
                d = defer.succeed(True)
        else:
            errback_finished_deferred(err)
            d = defer.succeed(True)
        d.addBoth(lambda _: writer.close_handle())
        return d

    def save_verified_blob(self, writer):
        # we cannot have multiple _save_verified_blob interrupting
        # each other, can happen since startProducing is a deferred
        return self.blob_write_lock.run(self._save_verified_blob, writer)

    @defer.inlineCallbacks
    def _save_verified_blob(self, writer):
        if self.saved_verified_blob is False:
            writer.write_handle.seek(0)
            out_path = os.path.join(self.blob_dir, self.blob_hash)
            producer = FileBodyProducer(writer.write_handle)
            yield producer.startProducing(open(out_path, 'wb'))
            self.saved_verified_blob = True
            defer.returnValue(True)
        else:
            raise DownloadCanceledError()
initial commit 2015-08-20 17:27:15 +02:00			`import logging`
			`import os`
split up HashBlob.py into lbrynet.blob 2017-09-13 21:46:39 +02:00			`from twisted.internet import defer, threads`
initial commit 2015-08-20 17:27:15 +02:00			`from twisted.protocols.basic import FileSender`
save using a FBP instead of thread 2017-07-24 09:04:15 +02:00			`from twisted.web.client import FileBodyProducer`
initial commit 2015-08-20 17:27:15 +02:00			`from twisted.python.failure import Failure`
Replace settings with conf.settings In the next commit I change conf.settings to be initialized at runtime instead of load time and so any import of `from lbrynet.conf import settings` will be and stay None if it happens before the initialization. 2016-12-21 20:55:43 +01:00			`from lbrynet import conf`
consolidate HashBlob and BlobFile 2017-09-13 21:27:43 +02:00			`from lbrynet.core.Error import DownloadCanceledError, InvalidDataError, InvalidBlobHashError`
Blob verification fixes (#428) * Move the blob verification to the actual Blob object * remove the check on verification time * remove get_blob_length from BlobManager Removed because I'm not sure what checking verification time against ctime gets us, except some protection against an accidental modification of the blob. 2017-01-20 17:54:36 +01:00			`from lbrynet.core.utils import is_valid_blobhash`
split up HashBlob.py into lbrynet.blob 2017-09-13 21:46:39 +02:00			`from lbrynet.blob.writer import HashBlobWriter`
add reader, for BlobFile, change original reader to v0 2017-09-26 06:13:47 +02:00			`from lbrynet.blob.reader import HashBlobReader, HashBlobReader_v0`
initial commit 2015-08-20 17:27:15 +02:00

Use named loggers, fix some pep8 formatting mistakes 2015-09-08 21:42:56 +02:00			`log = logging.getLogger(__name__)`

consolidate HashBlob and BlobFile 2017-09-13 21:27:43 +02:00
			`class BlobFile(object):`
			`"""`
			`A chunk of data available on the network which is specified by a hashsum`
initial commit 2015-08-20 17:27:15 +02:00
consolidate HashBlob and BlobFile 2017-09-13 21:27:43 +02:00			`This class is used to create blobs on the local filesystem`
			`when we already know the blob hash before hand (i.e., when downloading blobs)`
			`Also can be used for reading from blobs on the local filesystem`
			`"""`

			`def __str__(self):`
			`return self.blob_hash[:16]`

			`def __repr__(self):`
			`return '<{}({})>'.format(self.__class__.__name__, str(self))`

			`def __init__(self, blob_dir, blob_hash, length=None):`
			`if not is_valid_blobhash(blob_hash):`
			`raise InvalidBlobHashError(blob_hash)`
initial commit 2015-08-20 17:27:15 +02:00			`self.blob_hash = blob_hash`
			`self.length = length`
			`self.writers = {} # {Peer: writer, finished_deferred}`
Blob verification fixes (#428) * Move the blob verification to the actual Blob object * remove the check on verification time * remove get_blob_length from BlobManager Removed because I'm not sure what checking verification time against ctime gets us, except some protection against an accidental modification of the blob. 2017-01-20 17:54:36 +01:00			`self._verified = False`
initial commit 2015-08-20 17:27:15 +02:00			`self.readers = 0`
consolidate HashBlob and BlobFile 2017-09-13 21:27:43 +02:00			`self.blob_dir = blob_dir`
			`self.file_path = os.path.join(blob_dir, self.blob_hash)`
use DeferredLock instead of threading.Lock() as it can cause deadlocks 2017-10-06 23:05:10 +02:00			`self.blob_write_lock = defer.DeferredLock()`
rename moved_verified_blob as saved_verified_blob 2017-10-06 23:04:27 +02:00			`self.saved_verified_blob = False`
consolidate HashBlob and BlobFile 2017-09-13 21:27:43 +02:00			`if os.path.isfile(self.file_path):`
			`self.set_length(os.path.getsize(self.file_path))`
			`# This assumes that the hash of the blob has already been`
			`# checked as part of the blob creation process. It might`
			`# be worth having a function that checks the actual hash;`
			`# its probably too expensive to have that check be part of`
			`# this call.`
			`self._verified = True`

			`def open_for_writing(self, peer):`
			`"""`
			`open a blob file to be written by peer, supports concurrent`
			`writers, as long as they are from differnt peers.`

			`returns tuple of (writer, finished_deferred)`

			`writer - a file like object with a write() function, close() when finished`
			`finished_deferred - deferred that is fired when write is finished and returns`
			`a instance of itself as HashBlob`
			`"""`
			`if not peer in self.writers:`
			`log.debug("Opening %s to be written by %s", str(self), str(peer))`
			`finished_deferred = defer.Deferred()`
			`writer = HashBlobWriter(self.get_length, self.writer_finished)`
			`self.writers[peer] = (writer, finished_deferred)`
			`return (writer, finished_deferred)`
			`log.warning("Tried to download the same file twice simultaneously from the same peer")`
			`return None, None`

			`def open_for_reading(self):`
			`"""`
			`open blob for reading`

Return HashBlobReader instead of file handle in open_for_reading() 2017-09-27 23:00:21 +02:00			`returns a file like object that can be read() from, and closed() when`
			`finished`
consolidate HashBlob and BlobFile 2017-09-13 21:27:43 +02:00			`"""`
			`if self._verified is True:`
no need to catch IOError exception here, let it propagage 2017-09-27 22:53:31 +02:00			`reader = HashBlobReader(self.file_path, self.reader_finished)`
			`self.readers += 1`
			`return reader`
consolidate HashBlob and BlobFile 2017-09-13 21:27:43 +02:00			`return None`

			`def delete(self):`
			`"""`
			`delete blob file from file system, prevent deletion`
			`if a blob is being read from or written to`

			`returns a deferred that firesback when delete is completed`
			`"""`
			`if not self.writers and not self.readers:`
			`self._verified = False`
rename moved_verified_blob as saved_verified_blob 2017-10-06 23:04:27 +02:00			`self.saved_verified_blob = False`
consolidate HashBlob and BlobFile 2017-09-13 21:27:43 +02:00
			`def delete_from_file_system():`
			`if os.path.isfile(self.file_path):`
			`os.remove(self.file_path)`

			`d = threads.deferToThread(delete_from_file_system)`

			`def log_error(err):`
			`log.warning("An error occurred deleting %s: %s",`
			`str(self.file_path), err.getErrorMessage())`
			`return err`

			`d.addErrback(log_error)`
			`return d`
			`else:`
			`return defer.fail(Failure(`
			`ValueError("File is currently being read or written and cannot be deleted")))`
initial commit 2015-08-20 17:27:15 +02:00
Blob verification fixes (#428) * Move the blob verification to the actual Blob object * remove the check on verification time * remove get_blob_length from BlobManager Removed because I'm not sure what checking verification time against ctime gets us, except some protection against an accidental modification of the blob. 2017-01-20 17:54:36 +01:00			`@property`
			`def verified(self):`
add better comments for classes in HashBlob.py 2017-09-12 18:01:06 +02:00			`"""`
			`Protect verified from being modified by other classes.`
			`verified is True if a write to a blob has completed succesfully,`
			`or a blob has been read to have the same length as specified`
			`in init`
			`"""`
Blob verification fixes (#428) * Move the blob verification to the actual Blob object * remove the check on verification time * remove get_blob_length from BlobManager Removed because I'm not sure what checking verification time against ctime gets us, except some protection against an accidental modification of the blob. 2017-01-20 17:54:36 +01:00			`return self._verified`

initial commit 2015-08-20 17:27:15 +02:00			`def set_length(self, length):`
			`if self.length is not None and length == self.length:`
			`return True`
refactor conf.settings 2017-01-17 04:23:20 +01:00			`if self.length is None and 0 <= length <= conf.settings['BLOB_SIZE']:`
initial commit 2015-08-20 17:27:15 +02:00			`self.length = length`
			`return True`
fixup long lines 2016-11-30 21:20:45 +01:00			`log.warning("Got an invalid length. Previous length: %s, Invalid length: %s",`
			`self.length, length)`
initial commit 2015-08-20 17:27:15 +02:00			`return False`

			`def get_length(self):`
			`return self.length`

rename is_validated() to get_is_verified() to distinguish from verified property 2017-09-20 20:02:34 +02:00			`def get_is_verified(self):`
			`return self.verified`
initial commit 2015-08-20 17:27:15 +02:00
			`def is_downloading(self):`
			`if self.writers:`
			`return True`
			`return False`

			`def read(self, write_func):`
add comments and docstrings 2017-09-27 22:56:29 +02:00			`"""`
			`This function is only used in StreamBlobDecryptor`
			`and should be deprecated in favor of open_for_reading()`
			`"""`
initial commit 2015-08-20 17:27:15 +02:00			`def close_self(*args):`
			`self.close_read_handle(file_handle)`
			`return args[0]`

			`file_sender = FileSender()`
add reader, for BlobFile, change original reader to v0 2017-09-26 06:13:47 +02:00			`reader = HashBlobReader_v0(write_func)`
initial commit 2015-08-20 17:27:15 +02:00			`file_handle = self.open_for_reading()`
			`if file_handle is not None:`
			`d = file_sender.beginFileTransfer(file_handle, reader)`
			`d.addCallback(close_self)`
			`else:`
change some ValueErrors to IOErrors 2017-09-15 19:46:38 +02:00			`d = defer.fail(IOError("Could not read the blob"))`
initial commit 2015-08-20 17:27:15 +02:00			`return d`

add comments and docstrings 2017-09-27 22:56:29 +02:00			`def close_read_handle(self, file_handle):`
			`"""`
			`This function is only used in StreamBlobDecryptor`
			`and should be deprecated in favor of open_for_reading()`
			`"""`
			`if file_handle is not None:`
			`file_handle.close()`

Return HashBlobReader instead of file handle in open_for_reading() 2017-09-27 23:00:21 +02:00			`def reader_finished(self, reader):`
			`self.readers -= 1`
			`return defer.succeed(True)`

initial commit 2015-08-20 17:27:15 +02:00			`def writer_finished(self, writer, err=None):`
			`def fire_finished_deferred():`
Blob verification fixes (#428) * Move the blob verification to the actual Blob object * remove the check on verification time * remove get_blob_length from BlobManager Removed because I'm not sure what checking verification time against ctime gets us, except some protection against an accidental modification of the blob. 2017-01-20 17:54:36 +01:00			`self._verified = True`
initial commit 2015-08-20 17:27:15 +02:00			`for p, (w, finished_deferred) in self.writers.items():`
			`if w == writer:`
			`del self.writers[p]`
fireback finished_deferred after deleting from self.writers so that BlobFile state is accurate after finished_deferred is called 2017-09-12 18:03:49 +02:00			`finished_deferred.callback(self)`
initial commit 2015-08-20 17:27:15 +02:00			`return True`
fixup long lines 2016-11-30 21:20:45 +01:00			`log.warning(`
			`"Somehow, the writer that was accepted as being valid was already removed: %s",`
			`writer)`
initial commit 2015-08-20 17:27:15 +02:00			`return False`

			`def errback_finished_deferred(err):`
			`for p, (w, finished_deferred) in self.writers.items():`
			`if w == writer:`
			`del self.writers[p]`
fireback finished_deferred after deleting from self.writers so that BlobFile state is accurate after finished_deferred is called 2017-09-12 18:03:49 +02:00			`finished_deferred.errback(err)`
initial commit 2015-08-20 17:27:15 +02:00
			`def cancel_other_downloads():`
			`for p, (w, finished_deferred) in self.writers.items():`
rename HashBlobWriter.cancel() as close() to be more file like 2017-09-13 05:14:19 +02:00			`w.close()`
initial commit 2015-08-20 17:27:15 +02:00
			`if err is None:`
Blob verification fixes (#428) * Move the blob verification to the actual Blob object * remove the check on verification time * remove get_blob_length from BlobManager Removed because I'm not sure what checking verification time against ctime gets us, except some protection against an accidental modification of the blob. 2017-01-20 17:54:36 +01:00			`if writer.len_so_far == self.length and writer.blob_hash == self.blob_hash:`
			`if self._verified is False:`
use DeferredLock instead of threading.Lock() as it can cause deadlocks 2017-10-06 23:05:10 +02:00			`d = self.save_verified_blob(writer)`
initial commit 2015-08-20 17:27:15 +02:00			`d.addCallbacks(lambda _: fire_finished_deferred(), errback_finished_deferred)`
			`d.addCallback(lambda _: cancel_other_downloads())`
			`else:`
			`errback_finished_deferred(Failure(DownloadCanceledError()))`
			`d = defer.succeed(True)`
			`else:`
			`err_string = "length vs expected: {0}, {1}, hash vs expected: {2}, {3}"`
			`err_string = err_string.format(self.length, writer.len_so_far, self.blob_hash,`
Blob verification fixes (#428) * Move the blob verification to the actual Blob object * remove the check on verification time * remove get_blob_length from BlobManager Removed because I'm not sure what checking verification time against ctime gets us, except some protection against an accidental modification of the blob. 2017-01-20 17:54:36 +01:00			`writer.blob_hash)`
initial commit 2015-08-20 17:27:15 +02:00			`errback_finished_deferred(Failure(InvalidDataError(err_string)))`
			`d = defer.succeed(True)`
			`else:`
			`errback_finished_deferred(err)`
			`d = defer.succeed(True)`
add HashBlobWriter.close_handle() function to just close the write handle 2017-09-13 18:58:11 +02:00			`d.addBoth(lambda _: writer.close_handle())`
initial commit 2015-08-20 17:27:15 +02:00			`return d`

use DeferredLock instead of threading.Lock() as it can cause deadlocks 2017-10-06 23:05:10 +02:00			`def save_verified_blob(self, writer):`
			`# we cannot have multiple _save_verified_blob interrupting`
			`# each other, can happen since startProducing is a deferred`
			`return self.blob_write_lock.run(self._save_verified_blob, writer)`

remove TempBlob, clean up blob classes, use FBP and BytesIO in BlobFile 2017-09-07 17:53:02 +02:00			`@defer.inlineCallbacks`
initial commit 2015-08-20 17:27:15 +02:00			`def _save_verified_blob(self, writer):`
rename moved_verified_blob as saved_verified_blob 2017-10-06 23:04:27 +02:00			`if self.saved_verified_blob is False:`
use DeferredLock instead of threading.Lock() as it can cause deadlocks 2017-10-06 23:05:10 +02:00			`writer.write_handle.seek(0)`
			`out_path = os.path.join(self.blob_dir, self.blob_hash)`
			`producer = FileBodyProducer(writer.write_handle)`
			`yield producer.startProducing(open(out_path, 'wb'))`
rename moved_verified_blob as saved_verified_blob 2017-10-06 23:04:27 +02:00			`self.saved_verified_blob = True`
use DeferredLock instead of threading.Lock() as it can cause deadlocks 2017-10-06 23:05:10 +02:00			`defer.returnValue(True)`
			`else:`
			`raise DownloadCanceledError()`