all about duxiu tools
1.23K subscribers
15 photos
50 files
30 links
Download Telegram
Forwarded from ALA数据分析
密码:V4TaErnvE2esj51PjLejJz
Forwarded from ALA数据分析
【书签数据】

用redis存储。
只包含有效数据,无效的那些都去掉了。
书签数据的整体情况看 [SophIA]书签数据分析.pdf

## 使用:

1.安装redis
去redis官网下个安装包装一下。

2.解压[SophIA][454w][11GB]dxbookmark_完整书签.7z。
!!!解压后为11GB,注意磁盘空间。!!!
里边会有一个dump.db

3.修改redis配置文件

# The working directory.
#
# The DB will be written inside this directory, with the filename specified
# above using the 'dbfilename' configuration directive.
#
# The Append Only File will also be created inside this directory.
#
# Note that you must specify a directory here, not a file name.
dir '改成dump.db所在的绝对路径'


4.启动
!!!需要至少25GB内存才能运行,有64GB物理内存比较好!!!
根据硬件配置不同,需要30秒~3分钟左右的启动时间。

## 在shadowlib中使用书签

!!!以下一下修改都是在shadowlib配置中进行的,目的是为了让shadowlib能找到redis!!!

0. 打开shadowlib配置文件

shadowlib --config


1. 打开插件开关

[plugin]
; 插件开关 用于链接书签数据库 0关闭 1开启 默认关闭
plugin_flag =1


2. 修改redis端口和地址,redis默认端口是6379。如果在书签和shadowlib在同一台机器上,改一下端口就行了。

[redis]
; redis IP和端口 用于获取书签
redis_addr =localhost:6380


3.保存配置文件,执行shadowlib 可以开始自动添加书签了。

## 其他数据

包含三个部分

### 啥都没有

就是啥都没有 只有ssid
[SophIA][44w3878]dxbookmark_啥都没有.csv

### 只有书签没有书名

[SophIA][109w]未知书名_有书签ssid.csv

这些书肯定是存在的,也不是什么禁书。但是目前哪里都找不到了。
我只发现过零星的几本。
可能是上古时代由于未知原因发生了一次电子书大灭绝事件。

### 只有书名

本来就没有书签

[SophIA][173w0810]dxbookmark_有书名没目录.csv



密码:X5f1uCfNUXt4jECaMIh6
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from ALA数据分析
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from jack won
pdf与图像格式繁杂,此处代码中对图像进行了简化处理,mode只按L, RGB,format只按JPEG, PNG;
pdf的图像,为PIL不支持的图像格式时,例如jbig2等,使用pixmap截图方式处理,因此原jbig2,处理后zip体积会变大;
pdf的图像如果为多层,此处不支持提取原始图像,使用pixmap截图方式处理;
Forwarded from jack won
这个pdf2zip以后没空更新了,大伙有需要的可拿走玩
↑把pdf提取图片,改扩展名为pdg,打包为zip,方便uv阅读时可以调节图像啊;这个程序就是把这些手动操作改为程序自动操作。
This media is not supported in your browser
VIEW IN TELEGRAM
【Shadowlib 新版预告】

考虑下个月发新版,发个预告看看反馈。
不需要占用鼠标点点点的转换工具,支持多个压缩包并行转换。
最大的更新就是,终于有图形界面了……

上个版本在这里

💻 关注频道:@ALA数据分析
Forwarded from ALA数据分析
【LMDB书签库】
解压完13GB
可以单独使用,也可以配合shadowlib使用
LMDB的优点是不需要redis那么长的启动时间,使用时占用资源非常少,速度也很快。


## 单独使用
需要安装两个库 zstd和lmdb

pip install zstd
pip install lmdb


使用方法见example_lmdb.py
我存的时候是ssid:bookmark这样的格式,
其中bookmark用zstd压缩过了,所以你取出来的时候要解压缩。
别的都和标准操作一样。

## 配合shadowlib
shadowlib在这里
解压完之后,会有个bookmark文件夹,这就是LMDB书签库
把这一整个文件夹放到你想放的位置。比如F:/

这里后边不用加解压出来的文件夹名字bookmark
这里后边不用加解压出来的文件夹名字bookmark
这里后边不用加解压出来的文件夹名字bookmark

用图形界面的话直接在界面上改就完了
源码或命令行:在shadowlib的config.ini里

关闭webbookmark

webbookmark_flag    =0


打开lmdb格式的书签库

[lmdb]
lmdb_flag =1
lmdb_path =F:/


书签在这里

密码:ZglIusmDkkU8Qz0

💻 关注频道:@ALA数据分析
Forwarded from ALA数据分析
【Shadowlib v0.4.0 2025年4月9日更新】
高速书籍索引,完全本地搜索。后台高并发自动转换,自动加书签。

+ 修复某些书的分辨率计算错误
+ 修复某些横着的书可能获取不到长宽导致转换失败的问题
+ 修复bac格式封底导致转换失败的问题
+ 解决了在GUI中多进程时最后几个文件可能莫名其妙卡住的问题

重新下载再安装就可以了。
Shadowlibrary目录下Collections.json是你的收藏,
WebDirectory.json是导航。
如果你有修改过,可以先把这两个文件复制到别的地方,装完再复制回来。

重装之前最好删掉ShadowLibrary/bin/index 否则会重复索引,会多占硬盘空间。

1、安装包
`[SophIA][bin]ShadowLibrary_dll_v0.4.0.7z`
MD5: ef979ef25135c01690a77c114a3f8cdc
图形界面版本,安装完直接用。


2、Shadowlib内核源代码
【2025年4月9日更新】修复某些横着的书可能获取不到长宽的问题,修复bac格式封底导致转换失败的问题。
`[SophIA][src]ShadowLibrary_dll_v0.4.0.7z`
MD5: 001dd66168e84e418160e1c5419a70e4

LMDB书签库在这里,当对书签有大量需求时使用。

💻 关注频道:@ALA数据分析
Shadowlib交流群
Forwarded from ALA数据分析
【将影印版的pdf转换为可编辑的格式】
1、去官网下载客户端
2、把pdf扔进去
3、等待转换完成
4、得到一个包含markdown的压缩包
5、把markdown转换成你想要的格式,比如epub,可编辑的pdf之类的。

使用客户端无需本地显卡。
自动识别目录,支持将公式转为latex格式,支持识别表格等等。


转换示例

💻 关注频道:@ALA数据分析
Forwarded from ALA数据分析