[ Python 爬虫] 新手练手利器:高质量套图爬虫

lookcos 25天前 30

高质量套图爬虫

源码 Github https://github.com/LookCos/spider-taotu

大致说一下流程,爬虫先获得一个栏目网址,随后通过层层解析,得到每一个图集的的名称 、标签、和所有图片的地址并存到 sqlite3 数据库中,文件下载时默认命名为 图片链接的 md5 值。

抓取和下载的过程均为多线程,可以通过调整延时来调整速度。

附:

1. 13MB 的套图信息数据库

2. 简单的多线程现在图片演示程序

0.照片展示

这里图片下载略乱,但是可以通过简单的修改下载程序,将一套图下载在一个文件夹内。

1 1

1 1

1.字段展示

1

2.测试展示

1

3.爬取过程展示

1

4.下载过程展示

1

最新回复 (29)
  • wework 20天前
    引用 2
    这个怎么去水印?有没有 mm131 的爬虫
  • 楼主 lookcos 20天前
    引用 3
    @wework 有些网站就是有水印的,有些水印也很漂亮,主要这里面图片都是比较诱人的。没有水印的质量低;
    没事的时候也可以爬爬你说的那个网站。
  • 楼主 lookcos 20天前
    引用 4
    也欢迎各位来颗 star 哈哈
  • ufan0 20天前
    引用 5
    点进来就想到了 XRW,没想到还真是!
  • 楼主 lookcos 20天前
    引用 6
    @ufan0 其他网 都有哦
  • heiheidewo 20天前
    引用 7
    这个卖的不是图片吧?你看下价格,那么贵,100 多一张图?
  • mrweiwei 20天前
    引用 8
    求更新一下代码怎么把套图按文件夹分类
  • imn1 20天前
    引用 9
    13MB 的套图信息数据库
    --------------------
    这个,有点小啊,估计不到 2K 套,我的 sqlite3 都 900MB 了……

    我两表是这样的
    CREATE TABLE "pic" (
    "id" TEXT NOT NULL UNIQUE,
    "performer" json,
    "title" TEXT,
    "date" TEXT,
    "mark" json,
    "publisher" json,
    "area" TEXT,
    "catalog" json,
    "tag" json,
    "photographer" json,
    "rate" INTEGER,
    "filetype" json,
    "bytes" INTEGER,
    "mostdim" json,
    "mostdimcount" INTEGER,
    "counts" INTEGER,
    "comment" TEXT,
    "realpath" TEXT,
    PRIMARY KEY("id")
    )

    CREATE TABLE "pics" (
    "id" INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT UNIQUE,
    "folder" TEXT NOT NULL,
    "sub" TEXT,
    "filename" TEXT NOT NULL,
    "size" INTEGER NOT NULL,
    "crc" TEXT,
    "imghash" pickle,
    "exif" json,
    "imgsize" json,
    "other" TEXT
    )
    pic 一个记录为目录(套),pics 一个记录为文件(图),其实 pics 按分类分了好多表(记录数快过亿了)
    其中 imghash 字段是 opencv 的 hash 结果(字典),不压缩的话占空间太多,也不需要直接查询,就放 pickle 了


    集图圈的人一般不用这种玩法,这种玩法最大弊端是没法整理
    不过要按集图圈的玩法也要学很多“知识”,没长时间集图兴趣的人也没必要学
    除了北都,我都没怎么爬过,都是网盘收

    另外,集图多数是用 CRC32+字节数,因为有很多集图专用的相关工具是基于 CRC32 的,基于 md5/sha 的集图工具几乎没有
  • 楼主 lookcos 20天前
    引用 10
    @imn1 学到了,不过我就玩玩,哈哈
  • 楼主 lookcos 20天前
    引用 11
    @heiheidewo 哈哈哈,很多都是有钱人集资拍摄的。看的不是照片,是艺术啊兄弟。 [笑]
  • 楼主 lookcos 20天前
    引用 12
    @mrweiwei 过两天写个新的,按套图下载吧。
  • imn1 20天前
    引用 13
    @heiheidewo
    其实你说对了,卖的确实不是图片
    补充一下 #10
    有部分照片只发给出资人收藏,其他人想买也买不到的
    拍摄后还有“商务事宜”,当然只是召集人专享了,可能“商务事宜”也会拍视频,给出资较高的人,或者卖给一些收费的视频网站
    说白了,就是召集人免费开 pao 还赚钱……
  • heiheidewo 20天前
    引用 14
    @imn1 其他人不用买啊,这不楼主就采集到了么,右上角的水印可以盖掉
  • imn1 20天前
    引用 15
    @heiheidewo
    你说的“其他人”是看图的人,不是集图的人,集图的基本不会要这种图的,后者中很大比例愿意花钱买
    很难解释两者的区别,简单的比喻是,有些人能从 web 下载到 rmvb 看完就行了,有些人只买蓝光,还要有评论音轨的

    另外,LZ 找到的这个源实际上算是盗版,只是在于版权方是否愿意花时间精力去处理
    大多不会,但有过 XRW 发律师函的先例(圈内传闻),AISS 据说也封了不少付费帐号
  • mrweiwei 20天前
    引用 16
    @lookcos 感谢
  • heiheidewo 20天前
    引用 17
    @imn1 感谢,真详细。另外咨询下,这种图算不算涉黄或者非法?还是仅仅属于低俗?
  • 楼主 lookcos 20天前
    引用 18
    @heiheidewo 不涉黄,属于擦边
  • imn1 20天前
    引用 19
    @heiheidewo #16
    我既不是法律人士,也不是艺术工作者,所以,并不想主观判定它的定位
    有些人看到的是性,有些人看到的是美,例如王动的作品就是这样,争议很大
    不过,镜头后面是很多不可描述的事情的
  • heiheidewo 20天前
    引用 20
    @imn1 我又点进去看了下,
  • imn1 20天前
    引用 21
    @heiheidewo
    有淘宝不许卖的图片的,你没见过而已
  • heiheidewo 20天前
    引用 22
    @imn1 长见识了。那些发帖说要做副业的,可以来做做这个
  • CallMeReznov 20天前
    引用 23
  • azhangbing 20天前
    引用 24
    我明明是要学 Python 的
  • s1th 20天前
    引用 25
    只有我想要个百度盘全套图压缩包吗
  • coldzoo 20天前
    引用 26
    增加了保存套图功能, 提交了一个 pull Request
  • Emper 20天前
    引用 27
    为什么看你发的贴子,图片无法显示,是×???
  • 楼主 lookcos 20天前
    引用 28
    @Emper 挂上全局代理
  • 楼主 lookcos 20天前
    引用 29
    @coldzoo 已经合并
  • 楼主 lookcos 20天前
    引用 30
    @s1th 翻翻我的博客,lookcos 的博客,或许能找到
  • 游客
    31
返回