ALA数据分析|高质量数据集|图书|电子书工具
1.28K subscribers
161 photos
76 files
82 links
搜索中文互联网所有公开的电子书,批量转换读秀压缩包:https://t.me/shadowlib
Download Telegram
读秀书的整体情况

## 元数据和书的区别

元数据是所有书的索引,可以通过元数据来查找想要的信息
书就是网络上流传的电子书。

只有元数据那就是空壳子,只有书的话无从查起。
光有元数据或者光有书都不行。元数据和书对应起来,才能发挥作用。

## 读秀元数据

元数据有很多版本,大约都在509万-512万左右,一般俗称512w元数据
这份元数据最初从哪来已经不得而知,只知道似乎流传了好几年,期间被不同的人增添过一些数据(这也导致混入了一些奇怪的东西……)
元数据的具体情况会在以后分析

## 什么是标准库

标准库本体共有390万左右,加上补库和后来新出现的,总共约400万,容量接近200TB

标准库是前几年秒传还在时,大佬利用秒传整理的一个库,力求尽量包含所有能找到的读秀书,并且没有重复。
这样做的好处是方便备份和管理。查找也更容易。

书贩子们往往喜欢猛吹自己的书库很大。。。许多不明真相的小白也容易认为这东西越大就越全
早期号称2000万本,还有贩子推出接近大几百TB的成品盘,实在是过于逆天……
最近两年已经能看到有人把各种乱七八糟的东西都塞一起吹到1PB了……

## 妥善保存

从最早的一本算起,这些电子书在网上传了20多年了(真不容易……)
如果这些书全丢掉,自然是很可惜的。赛博焚书了属于是。
经过深入的数据筛查,似乎有些证据表明,曾经在许多年前发生过一次中文互联网电子书大灭绝事件,这导致目前有一百多万本书可能无论如何也找不到了。
我相信那些扫描/保存过这些书的人不会真的把数据彻底删掉,证据就是我无意中得到过这被灭绝掉的100w中的零星几本。不知道这些东西现在在哪个落灰很久的硬盘里躺着。

保存的要求

1. 书要尽量全
2. 尽量不要重复,否则存储是很大的负担。
3. 不要修改和删除任何信息。
4. 在满足前三个条件的情况下,容量尽量小。

有些人喜欢按自己的品味扔掉一些"不好"的,只存一些所谓的"好书"。
有些人/组织喜欢转成他们认为"完美"的pdf。
还有些许多年的保存者为了节省空间,无脑将图片转为灰度或黑白存储。
这些方式都会造成信息丢失

目前来说,只有标准库满足上面四个条件。


## 整体说明

这是512w元数据和标准库,以及补库的ssid做交集的venn图。

A:只有元数据没有书 大约100万条左右。实际上还有更多缺失的书,以后会提到
B:标准库中可以和元数据对应上的书,大约有385万
C:标准库中6万本没有元数据的书,这部分书没法搜索。可以称为僵尸书。零散抽出几本来看,像是很多很多年前手写的科研期刊什么的。详细的情况目前还不知道。
U:全部读秀书:读秀从九几年开始就在到处扫书。国外一些大学的图书馆说是读秀比Google Scholar还多。令人很难相信……
https://guides.lib.uw.edu/c.php?g=341344&p=2303522

下方的蓝色圆圈 10W补库
在秒传全部阵亡之前的最后一段时间,向标准库中补充的书。基本上榨干了当时所有能找到的秒传表。

后来新出现的读秀7和读秀8并不在其中,以后会分析。

## 可以做些什么

1. 寻找丢失的100w
2. 补充元数据
3. 备份
👍2
【标准库文件分析】
关于标准库见前文
这是对标准库所有文件的检测结果

分成六类
1、类型:[001][SophIA][338588]其他格式文件.csv
2、压缩包损坏:[002][SophIA][414]坏压缩包.csv
3、MD5错:[003][SophIA][597]MD5错误.csv
4、缺页:[005][SophIA][2400]缺页书_损坏页.csv
5、密码:[004]密码
这个又分三小类:[001][SophIA][852]多个密码、[002][SophIA][2678]解密超时、[003][SophIA][897]找不到密码
6、异常ssid:[006][SophIA][3337]ssid可能有问题

详细分析在这里
数据在这里
密码:V4TaErnvE2esj51PjLejJz


💻 关注频道:@ALA数据分析
Shadowlib交流群
【书签数据】

用redis存储。
只包含有效数据,无效的那些都去掉了。
书签数据的整体情况看 [SophIA]书签数据分析.pdf

## 使用:

1.安装redis
去redis官网下个安装包装一下。

2.解压[SophIA][454w][11GB]dxbookmark_完整书签.7z
!!!解压后为11GB,注意磁盘空间。!!!
里边会有一个dump.db

3.修改redis配置文件

# The working directory.
#
# The DB will be written inside this directory, with the filename specified
# above using the 'dbfilename' configuration directive.
#
# The Append Only File will also be created inside this directory.
#
# Note that you must specify a directory here, not a file name.
dir '改成dump.db所在的绝对路径'


4.启动
!!!需要至少25GB内存才能运行,有64GB物理内存比较好!!!
根据硬件配置不同,需要30秒~3分钟左右的启动时间。

## 在shadowlib中使用书签 获取shadowlib

!!!以下修改都是在shadowlib配置中进行的,目的是为了让shadowlib能找到redis!!!

0. 打开shadowlib配置文件

shadowlib --config


1. 打开插件开关

[plugin]
; 插件开关 用于链接书签数据库 0关闭 1开启 默认关闭
plugin_flag =1


2. 修改redis端口和地址,redis默认端口是6379。如果在书签和shadowlib在同一台机器上,改一下端口就行了。

[redis]
; redis IP和端口 用于获取书签
redis_addr =localhost:6380


3.保存配置文件,执行shadowlib 可以开始自动添加书签了。

## 其他数据 下载

包含三个部分

### 啥都没有

就是啥都没有 只有ssid
[SophIA][44w3878]dxbookmark_啥都没有.csv

### 只有书签没有书名

[SophIA][109w]未知书名_有书签ssid.csv

这些书肯定是存在的,也不是什么禁书。但是目前哪里都找不到了。
我只发现过零星的几本。
可能是上古时代由于未知原因发生了一次电子书大灭绝事件。

### 只有书名

本来就没有书签

[SophIA][173w0810]dxbookmark_有书名没目录.csv



密码:X5f1uCfNUXt4jECaMIh6
🔥1
【DeepSeek-r1最速本地部署】

## 最速安装
1. 下载ollama

去官网 https://ollama.com/download

装完之后会有个图标看起来像羊驼一样的东西。

2. 安装模型

开启一个命令行

ollama run deepseek-r1:1.5b


然后等一会就部署好了,此时它会自动开始对话命令,你可以开始和它聊天了。


3. 装个界面

打开Chrome,安装这个插件
https://chromewebstore.google.com/detail/page-assist-%E6%9C%AC%E5%9C%B0-ai-%E6%A8%A1%E5%9E%8B%E7%9A%84-web/jfgfiigpkhlkbnfnbobbkinehhfdhndo

装完之后点一下插件进入聊天的图形界面。
然后!
!!!在上方羊驼脸那里选择你刚刚安装的模型!!!

现在可以随意使用了。


有时刚装完自动启动的东西可能很智障,不知道为啥。此时把它关掉重新打开就好了。

关掉
/bye


启动
ollama run deepseek-r1:1.5b


## 硬件要求

模型分为以下几个等级

1.5b对硬件要求很低 750MB显存,没有显卡也能跑。有显卡会更加丝滑。
1.5b
ollama run deepseek-r1:1.5b


7b
ollama run deepseek-r1:7b


8b
ollama run deepseek-r1:8b


14b
ollama run deepseek-r1:14b


32b是单机版里和DeepSeek官网的模型最接近的,当然也不能指望和官网一样厉害。
它需要16GB显存。如果你的显卡很强,那么推荐使用这个。
32b
ollama run deepseek-r1:32b



70b和671b需要多显卡才能部署了。
70b
ollama run deepseek-r1:70b


671b
ollama run deepseek-r1:671b