ALA数据分析|高质量数据集|图书|电子书工具
1.28K subscribers
161 photos
76 files
82 links
搜索中文互联网所有公开的电子书,批量转换读秀压缩包:https://t.me/shadowlib
Download Telegram
【书签数据】

用redis存储。
只包含有效数据,无效的那些都去掉了。
书签数据的整体情况看 [SophIA]书签数据分析.pdf

## 使用:

1.安装redis
去redis官网下个安装包装一下。

2.解压[SophIA][454w][11GB]dxbookmark_完整书签.7z
!!!解压后为11GB,注意磁盘空间。!!!
里边会有一个dump.db

3.修改redis配置文件

# The working directory.
#
# The DB will be written inside this directory, with the filename specified
# above using the 'dbfilename' configuration directive.
#
# The Append Only File will also be created inside this directory.
#
# Note that you must specify a directory here, not a file name.
dir '改成dump.db所在的绝对路径'


4.启动
!!!需要至少25GB内存才能运行,有64GB物理内存比较好!!!
根据硬件配置不同,需要30秒~3分钟左右的启动时间。

## 在shadowlib中使用书签 获取shadowlib

!!!以下修改都是在shadowlib配置中进行的,目的是为了让shadowlib能找到redis!!!

0. 打开shadowlib配置文件

shadowlib --config


1. 打开插件开关

[plugin]
; 插件开关 用于链接书签数据库 0关闭 1开启 默认关闭
plugin_flag =1


2. 修改redis端口和地址,redis默认端口是6379。如果在书签和shadowlib在同一台机器上,改一下端口就行了。

[redis]
; redis IP和端口 用于获取书签
redis_addr =localhost:6380


3.保存配置文件,执行shadowlib 可以开始自动添加书签了。

## 其他数据 下载

包含三个部分

### 啥都没有

就是啥都没有 只有ssid
[SophIA][44w3878]dxbookmark_啥都没有.csv

### 只有书签没有书名

[SophIA][109w]未知书名_有书签ssid.csv

这些书肯定是存在的,也不是什么禁书。但是目前哪里都找不到了。
我只发现过零星的几本。
可能是上古时代由于未知原因发生了一次电子书大灭绝事件。

### 只有书名

本来就没有书签

[SophIA][173w0810]dxbookmark_有书名没目录.csv



密码:X5f1uCfNUXt4jECaMIh6
🔥1
【DeepSeek-r1最速本地部署】

## 最速安装
1. 下载ollama

去官网 https://ollama.com/download

装完之后会有个图标看起来像羊驼一样的东西。

2. 安装模型

开启一个命令行

ollama run deepseek-r1:1.5b


然后等一会就部署好了,此时它会自动开始对话命令,你可以开始和它聊天了。


3. 装个界面

打开Chrome,安装这个插件
https://chromewebstore.google.com/detail/page-assist-%E6%9C%AC%E5%9C%B0-ai-%E6%A8%A1%E5%9E%8B%E7%9A%84-web/jfgfiigpkhlkbnfnbobbkinehhfdhndo

装完之后点一下插件进入聊天的图形界面。
然后!
!!!在上方羊驼脸那里选择你刚刚安装的模型!!!

现在可以随意使用了。


有时刚装完自动启动的东西可能很智障,不知道为啥。此时把它关掉重新打开就好了。

关掉
/bye


启动
ollama run deepseek-r1:1.5b


## 硬件要求

模型分为以下几个等级

1.5b对硬件要求很低 750MB显存,没有显卡也能跑。有显卡会更加丝滑。
1.5b
ollama run deepseek-r1:1.5b


7b
ollama run deepseek-r1:7b


8b
ollama run deepseek-r1:8b


14b
ollama run deepseek-r1:14b


32b是单机版里和DeepSeek官网的模型最接近的,当然也不能指望和官网一样厉害。
它需要16GB显存。如果你的显卡很强,那么推荐使用这个。
32b
ollama run deepseek-r1:32b



70b和671b需要多显卡才能部署了。
70b
ollama run deepseek-r1:70b


671b
ollama run deepseek-r1:671b
【读秀8.0元数据】
来源于网络,最初的来源可能是某论坛倒闭后流出的。

所谓7.0 8.0没什么严格的区分,应该都是书贩子自己编的。
所以如果看到“新资源”,应该先要一份列表对比一番,防止鱼目混珠。

共有11520个文件,有效的11492个

读秀8的特点是有许多文本PDG,有993本,这在以前是不多见的。
大多数是ssid开头为15的书。
出版年份集中在2022年和2023年。
读秀8的密码已经全部破解,加密压缩包占比14%,一共10个有效密码。


元数据在这里

数据整体情况在这里

密码在这里
【DeepSeek-r1 越狱版 本地部署 🔞 🔞无审查,无政治倾向🔞🔞。】


最速安装

1. 下载ollama

去官网 https://ollama.com/download

装完之后会有个图标看起来像羊驼一样的东西。

2. 安装模型

开启一个命令行

ollama run huihui_ai/deepseek-r1-abliterated:7b


然后等一会就部署好了,此时它会自动开始对话命令,你可以开始和它聊天了。


装个界面


打开Chrome,安装这个插件
https://chromewebstore.google.com/detail/page-assist-%E6%9C%AC%E5%9C%B0-ai-%E6%A8%A1%E5%9E%8B%E7%9A%84-web/jfgfiigpkhlkbnfnbobbkinehhfdhndo

装完之后点一下插件进入聊天的图形界面。
然后!
!!!在上方羊驼脸那里选择你刚刚安装的模型!!!

现在可以随意使用了。



其他版本


ollama run huihui_ai/deepseek-r1-abliterated:8b
ollama run huihui_ai/deepseek-r1-abliterated:14b
ollama run huihui_ai/deepseek-r1-abliterated:32b
ollama run huihui_ai/deepseek-r1-abliterated:70b


!!注意!!

这个版本没有限制,所以任何让你感到不舒服的对话都请无视。
👍21
Forwarded from shadowlib
# 【ShadowLibrary_dll_v0.3.6o】

!!此工具诞生于OCR和AI训练数据的准备工作!!
!!禁止任何机构和个人以营利为目的使用本程序,包括用于电子版销售等经营性业务,或以会员制方式在网站上谋取利益。!!

主要功能

+ 压缩包批量转换为pdf,充分利用多核CPU性能进行高速转换
+ 命令行运行,或者调用API,对压缩包、图像、pdf进行深入处理,不需要像别的工具一样占用鼠标点击pdg2pic。
+ 将pdg转换为图片,支持用户调节图像压缩率
+ 自动检测缺页并补充缺页
+ 解析bookinfo.dat和bookcontents.dat。按其中信息自动给pdf命名并添加目录
+ 支持自定义第三方目录源
+ 开源,可以直接使用源码
+ 提供简洁的API
+ 支持转换失败文件单独存储
+ 可运行于Linux,无需docker和图形界面
+ 效率最高的密码本,可解99%的压缩包并且速度最快

2025/01/10 v0.3.6o 发布

- 提供安装包,安装完直接在命令行运行。
- 提供Linux版,可以在Linux上运行。
- 增加webserver模式。
- 失败文件拷贝功能。将转换失败的文件集中拷贝到别的地方,在配置文件内开启。
- 提供最精确的密码表,速度快效率高。
- 解决解密模块内存泄漏问题。
- 改进图像压缩方法,总体来说,速度更快,体积更小。支持用户自主调整转换结果的压缩参数,对于PNG大图版原样输出不做变化。JPG支持用户调节压缩参数。
- 日志转储管理,默认5天一个日志,保留两星期内的日志。可以在config.ini自己配置周期。
- 修正标题获取逻辑 改进书籍状态判断 增加压缩包内文件完整性检查功能,改进解压逻辑 增加数据库链接异常处理 增加临时文件清理开关。
- 修复一种奇怪的分层图像引发的bug、修复pdf内图像错误导致的目录bug、修复zip内文件名太长导致的bug,修复某些情况下图像被压扁的问题。

### 参数说明

usage: shadowlib [-h] [-v] [-c CONVERT] [-o OUTPUT] [-p PROCESS] [-s] [--host HOST] [--port PORT] [--config]

options:
-h, --help show this help message and exit
-v, --version 显示版本号
-c CONVERT, --convert CONVERT
指定一个压缩包或者一个文件夹
-o OUTPUT, --output OUTPUT
指定pdf输出路径
-p PROCESS, --process PROCESS
进程数
-s, --server Server模式
--host HOST IP地址
--port PORT 端口

--config 打开配置文件


### 使用编译版

编译版的安装包。
编译版是把python代码编译成C再编译成二进制文件的,速度会稍微快一点点。
如果不是有改代码的需求,可以直接用编译版。

#### 1、安装

运行Shadowlibrary_installer.exe,根据提示安装。安装完之后会自动添加环境变量。

#### 2、执行

开启一个新的命令行
执行

shadowlib 


会转换默认测试文件

#### 3、基础命令

打开配置文件

 bash
shadowlib --config


转换

 bash
shadowlib -c 压缩包或包含压缩包的文件夹 -o pdf存放路径 -p 进程数


### 从源码运行

#### 1、安装ShadowLibrary

conda create -n shadowlib python=3.12.0
conda activate shadowlib
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple


如果之前使用过源码,环境可以不变,但是需要重新装一下依赖,因为使用了新的第三方库。

#### 2、运行

python shadowlibrary.py -c 压缩包或包含压缩包的文件夹 -o pdf存放路径 -p 进程数


-c -o -p 都不是必须的,如果没有提供则读取config.ini中的参数。
就是说,这样也可以

python shadowlibrary.py


直接执行会在pdf文件夹生成\[SophIA]99999999_五毒俱全转换测试文件5.0.zip对应的pdf

### 使用Linux版

使用Ubuntu 22.04,其他发行版应该也是可以的,不会有太大差别,不过我没试过。
整个过程不需要任何图形界面。所以不要为了wine专门去装图形界面。

#### 1、安装

1. 执行install.sh
这一步是为了安装必要的库 需要root权限
sudo sh install.sh


2. wine初始化

切换成普通用户。 切换成普通用户。切换成普通用户。
root跑wine可能会有莫名其妙的问题。
初始化wine的一些配置。
中间可能有报错,或者需要等待(看起来像卡住了)。都不用管。

umask 0 && xvfb-run -a sh -c "wine cmd.exe"


当你看到一个windows的命令行出现时,说明成功了
退出windows命令行

exit


3. 将shadowlib.tar.gz解压到你想存放的目录。

tar -zxvf shadowlib.tar.gz -C /自定义/目录/


#### 2、使用

切换成普通用户。 切换成普通用户。切换成普通用户。

1. 直接转换
shadowlib.exe的路径必须是绝对路径
umask 0 && xvfb-run -a sh -c "wine /你上一步解压的目录/shadowlib.exe -c 压缩包或包含压缩包的文件夹 -o pdf存放路径 -p 进程数"


2. Server模式
最好还是用Server模式

-s 表示以server模式启动
--host 0.0.0.0 --port 8000 地址和端口 默认是这个,这个参数可以不加
-p 2 能同时接受几个转换请求,不加默认是1个。

!!!Server模式只是方便使用,这是一个非常简陋的webserver,是不适合直接提供服务的。

shadowlib.exe的路径必须是绝对路径

umask 0 && xvfb-run -a sh -c "wine /你上一步解压的目录/shadowlib.exe -s --host 0.0.0.0 --port 8000 -p 2"


如何与server交互,详见client.py


## 下载

这次有三个文件:

1、安装包
[SophIA][bin]ShadowLibrary_dll_v0.3.6o.7z
不想用代码的可以用这个,安装完直接用。
具体用法看里面的README_zh-CN.html
MD5:9b33a3eb661340347256c6094f1b585c
下载

2、源代码
[SophIA][src]ShadowLibrary_dll_v0.3.6o.7z
MD5:d78f7716ea321ead1661c64e87ad3246
下载

3、Linux版
[SophIA][Linux]ShadowLibrary_dll_v0.3.6o.7z
MD5:a18bc9b7ca785a976ce091c9f764310c
下载


考虑到可能有人往编译版里偷偷加东西,除非是从我这边直接下载的,否则最好检查一下MD5。


解压密码:iX0R3gNegq7m78juItGwY


详细使用说明请看README_zh-CN.html

如何添加书签看这里
🔥2👍1
【高速书籍索引 本地部署】

现在全部功能集成到shadowlib 点击下载
可搜索的书籍更多,体积更小,速度更快。安装包仅需300MB,安装后大约2-3GB。


用于搜索书籍信息,可以搜任意关键词,能看到封面。速度非常快。
本地部署,完全隐私。

可搜索数据:读秀512W,读秀8,科学文库。




使用

执行run.exe即可启动,然后打开浏览器,访问
localhost:7700 开始搜索

用的是meilisearch,如果你想在linux上部署,把data.ms拷贝过去就行了。


下载

解压后需要占用12GB。注意磁盘空间。

🔐密码:E8yzsURlqJ32gpAMUF
👍6
[SophIA][12GB]booksearch.7z.001
1.4 GB
现在全部功能集成到shadowlib 点击下载
可搜索的书籍更多,体积更小,速度更快。安装包仅需300MB,安装后大约2-3GB。