ALA数据分析|高质量数据集|图书|电子书工具

Channel created

03:33

读秀书的整体情况

## 元数据和书的区别

元数据是所有书的索引，可以通过元数据来查找想要的信息
书就是网络上流传的电子书。

只有元数据那就是空壳子，只有书的话无从查起。
光有元数据或者光有书都不行。元数据和书对应起来，才能发挥作用。

## 读秀元数据

元数据有很多版本，大约都在509万-512万左右，一般俗称512w元数据
这份元数据最初从哪来已经不得而知，只知道似乎流传了好几年，期间被不同的人增添过一些数据(这也导致混入了一些奇怪的东西……)
元数据的具体情况会在以后分析

## 什么是标准库

标准库本体共有390万左右，加上补库和后来新出现的，总共约400万，容量接近200TB

标准库是前几年秒传还在时，大佬利用秒传整理的一个库，力求尽量包含所有能找到的读秀书，并且没有重复。
这样做的好处是方便备份和管理。查找也更容易。

书贩子们往往喜欢猛吹自己的书库很大。。。许多不明真相的小白也容易认为这东西越大就越全
早期号称2000万本，还有贩子推出接近大几百TB的成品盘，实在是过于逆天……
最近两年已经能看到有人把各种乱七八糟的东西都塞一起吹到1PB了……

## 妥善保存

从最早的一本算起，这些电子书在网上传了20多年了(真不容易……)
如果这些书全丢掉，自然是很可惜的。赛博焚书了属于是。
经过深入的数据筛查，似乎有些证据表明，曾经在许多年前发生过一次中文互联网电子书大灭绝事件，这导致目前有一百多万本书可能无论如何也找不到了。
我相信那些扫描/保存过这些书的人不会真的把数据彻底删掉，证据就是我无意中得到过这被灭绝掉的100w中的零星几本。不知道这些东西现在在哪个落灰很久的硬盘里躺着。

保存的要求：

1. 书要尽量全
2. 尽量不要重复，否则存储是很大的负担。
3. 不要修改和删除任何信息。
4. 在满足前三个条件的情况下，容量尽量小。

有些人喜欢按自己的品味扔掉一些"不好"的，只存一些所谓的"好书"。
有些人/组织喜欢转成他们认为"完美"的pdf。
还有些许多年的保存者为了节省空间，无脑将图片转为灰度或黑白存储。
这些方式都会造成信息丢失

目前来说，只有标准库满足上面四个条件。

## 整体说明

这是512w元数据和标准库，以及补库的ssid做交集的venn图。

A：只有元数据没有书大约100万条左右。实际上还有更多缺失的书，以后会提到
B：标准库中可以和元数据对应上的书，大约有385万
C：标准库中6万本没有元数据的书，这部分书没法搜索。可以称为僵尸书。零散抽出几本来看，像是很多很多年前手写的科研期刊什么的。详细的情况目前还不知道。
U：全部读秀书：读秀从九几年开始就在到处扫书。国外一些大学的图书馆说是读秀比Google Scholar还多。令人很难相信……
https://guides.lib.uw.edu/c.php?g=341344&p=2303522

下方的蓝色圆圈 10W补库
在秒传全部阵亡之前的最后一段时间，向标准库中补充的书。基本上榨干了当时所有能找到的秒传表。

后来新出现的读秀7和读秀8并不在其中，以后会分析。

## 可以做些什么

1. 寻找丢失的100w
2. 补充元数据
3. 备份

guides.lib.uw.edu

Library Guides: China Studies: Duxiu User Guide

Research guide on China and Chinese language studies resources. Duxiu User Guide

👍2

648 viewsedited 09:48

ALA数据分析|高质量数据集|图书|电子书工具

读秀标准库ssid情况_补库.png

1.1 MB

678 views09:48

ALA数据分析|高质量数据集|图书|电子书工具

756 views11:33

ALA数据分析|高质量数据集|图书|电子书工具

👍2

1.78K views13:58

ALA数据分析|高质量数据集|图书|电子书工具

【标准库文件分析】
关于标准库见前文
这是对标准库所有文件的检测结果

分成六类
1、类型：[001][SophIA][338588]其他格式文件.csv
2、压缩包损坏：[002][SophIA][414]坏压缩包.csv
3、MD5错：[003][SophIA][597]MD5错误.csv
4、缺页：[005][SophIA][2400]缺页书_损坏页.csv
5、密码：[004]密码
这个又分三小类：[001][SophIA][852]多个密码、[002][SophIA][2678]解密超时、[003][SophIA][897]找不到密码
6、异常ssid：[006][SophIA][3337]ssid可能有问题

详细分析在这里
数据在这里

密码：V4TaErnvE2esj51PjLejJz

💻 关注频道：@ALA数据分析
Shadowlib交流群

ALA数据分析

2.05K viewsedited 13:58

ALA数据分析|高质量数据集|图书|电子书工具

【书签数据】

用redis存储。
只包含有效数据，无效的那些都去掉了。
书签数据的整体情况看 [SophIA]书签数据分析.pdf

## 使用：

1.安装redis
去redis官网下个安装包装一下。

2.解压[SophIA][454w][11GB]dxbookmark_完整书签.7z。
!!!解压后为11GB，注意磁盘空间。!!!
里边会有一个dump.db

3.修改redis配置文件

# The working directory.
#
# The DB will be written inside this directory, with the filename specified
# above using the 'dbfilename' configuration directive.
#
# The Append Only File will also be created inside this directory.
#
# Note that you must specify a directory here, not a file name.
dir '改成dump.db所在的绝对路径'

4.启动
!!!需要至少25GB内存才能运行，有64GB物理内存比较好!!!
根据硬件配置不同，需要30秒~3分钟左右的启动时间。

## 在shadowlib中使用书签获取shadowlib

!!!以下修改都是在shadowlib配置中进行的，目的是为了让shadowlib能找到redis!!!

0. 打开shadowlib配置文件

shadowlib --config

1. 打开插件开关

[plugin]
; 插件开关 用于链接书签数据库 0关闭 1开启 默认关闭
plugin_flag    =1

2. 修改redis端口和地址，redis默认端口是6379。如果在书签和shadowlib在同一台机器上，改一下端口就行了。

[redis]
; redis IP和端口 用于获取书签
redis_addr    =localhost:6380

3.保存配置文件，执行shadowlib 可以开始自动添加书签了。

## 其他数据下载

包含三个部分

### 啥都没有

就是啥都没有只有ssid
[SophIA][44w3878]dxbookmark_啥都没有.csv

### 只有书签没有书名

[SophIA][109w]未知书名_有书签ssid.csv

这些书肯定是存在的，也不是什么禁书。但是目前哪里都找不到了。
我只发现过零星的几本。
可能是上古时代由于未知原因发生了一次电子书大灭绝事件。

### 只有书名

本来就没有书签

[SophIA][173w0810]dxbookmark_有书名没目录.csv

密码:X5f1uCfNUXt4jECaMIh6

🔥1

2.17K viewsedited 09:15

ALA数据分析|高质量数据集|图书|电子书工具

1.09K views09:16

ALA数据分析|高质量数据集|图书|电子书工具

[SophIA][454w][11GB]dxbookmark_完整书签.7z.001

1.5 GB

[SophIA][454w][11GB]dxbookmark_完整书签.7z.002

1.5 GB

[SophIA][454w][11GB]dxbookmark_完整书签.7z.003

1.5 GB

[SophIA][454w][11GB]dxbookmark_完整书签.7z.004

1.5 GB

[SophIA][454w][11GB]dxbookmark_完整书签.7z.005

1.5 GB

[SophIA][454w][11GB]dxbookmark_完整书签.7z.006

516.8 MB

1.31K views09:48

ALA数据分析|高质量数据集|图书|电子书工具

[SophIA][书签]其他数据.7z

40.7 MB

1.21K views09:48

ALA数据分析|高质量数据集|图书|电子书工具

【DeepSeek-r1最速本地部署】

## 最速安装
1. 下载ollama

去官网 https://ollama.com/download

装完之后会有个图标看起来像羊驼一样的东西。

2. 安装模型

开启一个命令行

ollama run deepseek-r1:1.5b

然后等一会就部署好了，此时它会自动开始对话命令，你可以开始和它聊天了。

3. 装个界面

打开Chrome，安装这个插件
https://chromewebstore.google.com/detail/page-assist-%E6%9C%AC%E5%9C%B0-ai-%E6%A8%A1%E5%9E%8B%E7%9A%84-web/jfgfiigpkhlkbnfnbobbkinehhfdhndo

装完之后点一下插件进入聊天的图形界面。
然后！
!!!在上方羊驼脸那里选择你刚刚安装的模型!!!

现在可以随意使用了。

有时刚装完自动启动的东西可能很智障，不知道为啥。此时把它关掉重新打开就好了。

关掉

/bye

启动

ollama run deepseek-r1:1.5b

## 硬件要求

模型分为以下几个等级

1.5b对硬件要求很低 750MB显存，没有显卡也能跑。有显卡会更加丝滑。
1.5b

ollama run deepseek-r1:1.5b

ollama run deepseek-r1:7b

ollama run deepseek-r1:8b

14b

ollama run deepseek-r1:14b

32b是单机版里和DeepSeek官网的模型最接近的，当然也不能指望和官网一样厉害。
它需要16GB显存。如果你的显卡很强，那么推荐使用这个。
32b

ollama run deepseek-r1:32b

70b和671b需要多显卡才能部署了。
70b

ollama run deepseek-r1:70b

671b

ollama run deepseek-r1:671b

Ollama

Download Ollama on macOS

Download Ollama for macOS

913 views07:13

About

Blog

Apps

Platform