Perlのリンクからメディア(画像、動画など)を取得する

Redditのr/pic
sub-redditと同様に、私は様々なソースからのメディアを集めたいと思う。一部のサイトでは、OEmbed仕様を使用してページ上のメディアを公開していますが、すべてのサイトでメディアが公開されているわけではありません。私はRedditのソースを参照していました。なぜなら、ユーザーが提出したり、画像や動画などを取得したりするリンクを「擦り傷」してしまうからです。彼らはサムネイルを作成し、サイトのリンクに沿って表示します。さて、私は同様のことをしたいと思います。私は彼らのコードを見ました。[1]、彼らは認識する各ドメインのためのカスタムスクレーパーを持っていると思われますし、単純なロジックを使ってドメインからイメージを取得する汎用スクレーパークラスを持っています(基本的に、Webページを取得し、htmlを解析してから、ページ上でサムネイルの生成に使用する最大のイメージを決定します)。

Since it’s open source I can probably reuse the code for my
application but unfortunately I have chosen Perl as this is a hobby
project and I’m trying to learn Perl. Is there a Perl module which
has similar functionality? If not, is there a Perl module that is
similar to Python Imaging Library? It would be handy to determine
the image sizes without actually downloading the whole image &
thumbnail generation.

ありがとう!

[1] https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

ベストアンサー

Image::Size is the specialised module for
determining image sizes from various format. It should be enough to
read the first 1000 octets or so from a resource, enough for the
diverse image headers, into a
buffer and operating on that
. I have not tested this.

私は全体のイメージリソースをダウンロードすることを避けるために、HTTP範囲要求のAPIを持つ一般的なスクレイピングモジュールは知らないが、
WWW ::
Mechanize
を参照してください。

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です