读秀书的整体情况
## 元数据和书的区别
元数据是所有书的索引,可以通过元数据来查找想要的信息
书就是网络上流传的电子书。
只有元数据那就是空壳子,只有书的话无从查起。
光有元数据或者光有书都不行。元数据和书对应起来,才能发挥作用。
## 读秀元数据
元数据有很多版本,大约都在509万-512万左右,一般俗称512w元数据
这份元数据最初从哪来已经不得而知,只知道似乎流传了好几年,期间被不同的人增添过一些数据(这也导致混入了一些奇怪的东西……)
元数据的具体情况会在以后分析
## 什么是标准库
标准库本体共有390万左右,加上补库和后来新出现的,总共约400万,容量接近200TB
标准库是前几年秒传还在时,大佬利用秒传整理的一个库,力求尽量包含所有能找到的读秀书,并且没有重复。
这样做的好处是方便备份和管理。查找也更容易。
书贩子们往往喜欢猛吹自己的书库很大。。。许多不明真相的小白也容易认为这东西越大就越全
早期号称2000万本,还有贩子推出接近大几百TB的成品盘,实在是过于逆天……
最近两年已经能看到有人把各种乱七八糟的东西都塞一起吹到1PB了……
## 妥善保存
从最早的一本算起,这些电子书在网上传了20多年了(真不容易……)
如果这些书全丢掉,自然是很可惜的。赛博焚书了属于是。
经过深入的数据筛查,似乎有些证据表明,曾经在许多年前发生过一次中文互联网电子书大灭绝事件,这导致目前有一百多万本书可能无论如何也找不到了。
我相信那些扫描/保存过这些书的人不会真的把数据彻底删掉,证据就是我无意中得到过这被灭绝掉的100w中的零星几本。不知道这些东西现在在哪个落灰很久的硬盘里躺着。
保存的要求:
1. 书要尽量全
2. 尽量不要重复,否则存储是很大的负担。
3. 不要修改和删除任何信息。
4. 在满足前三个条件的情况下,容量尽量小。
有些人喜欢按自己的品味扔掉一些"不好"的,只存一些所谓的"好书"。
有些人/组织喜欢转成他们认为"完美"的pdf。
还有些许多年的保存者为了节省空间,无脑将图片转为灰度或黑白存储。
这些方式都会造成信息丢失
目前来说,只有标准库满足上面四个条件。
## 整体说明
这是512w元数据和标准库,以及补库的ssid做交集的venn图。
A:只有元数据没有书 大约100万条左右。实际上还有更多缺失的书,以后会提到
B:标准库中可以和元数据对应上的书,大约有385万
C:标准库中6万本没有元数据的书,这部分书没法搜索。可以称为僵尸书。零散抽出几本来看,像是很多很多年前手写的科研期刊什么的。详细的情况目前还不知道。
U:全部读秀书:读秀从九几年开始就在到处扫书。国外一些大学的图书馆说是读秀比Google Scholar还多。令人很难相信……
https://guides.lib.uw.edu/c.php?g=341344&p=2303522
下方的蓝色圆圈 10W补库
在秒传全部阵亡之前的最后一段时间,向标准库中补充的书。基本上榨干了当时所有能找到的秒传表。
后来新出现的读秀7和读秀8并不在其中,以后会分析。
## 可以做些什么
1. 寻找丢失的100w
2. 补充元数据
3. 备份
## 元数据和书的区别
元数据是所有书的索引,可以通过元数据来查找想要的信息
书就是网络上流传的电子书。
只有元数据那就是空壳子,只有书的话无从查起。
光有元数据或者光有书都不行。元数据和书对应起来,才能发挥作用。
## 读秀元数据
元数据有很多版本,大约都在509万-512万左右,一般俗称512w元数据
这份元数据最初从哪来已经不得而知,只知道似乎流传了好几年,期间被不同的人增添过一些数据(这也导致混入了一些奇怪的东西……)
元数据的具体情况会在以后分析
## 什么是标准库
标准库本体共有390万左右,加上补库和后来新出现的,总共约400万,容量接近200TB
标准库是前几年秒传还在时,大佬利用秒传整理的一个库,力求尽量包含所有能找到的读秀书,并且没有重复。
这样做的好处是方便备份和管理。查找也更容易。
书贩子们往往喜欢猛吹自己的书库很大。。。许多不明真相的小白也容易认为这东西越大就越全
早期号称2000万本,还有贩子推出接近大几百TB的成品盘,实在是过于逆天……
最近两年已经能看到有人把各种乱七八糟的东西都塞一起吹到1PB了……
## 妥善保存
从最早的一本算起,这些电子书在网上传了20多年了(真不容易……)
如果这些书全丢掉,自然是很可惜的。赛博焚书了属于是。
经过深入的数据筛查,似乎有些证据表明,曾经在许多年前发生过一次中文互联网电子书大灭绝事件,这导致目前有一百多万本书可能无论如何也找不到了。
我相信那些扫描/保存过这些书的人不会真的把数据彻底删掉,证据就是我无意中得到过这被灭绝掉的100w中的零星几本。不知道这些东西现在在哪个落灰很久的硬盘里躺着。
保存的要求:
1. 书要尽量全
2. 尽量不要重复,否则存储是很大的负担。
3. 不要修改和删除任何信息。
4. 在满足前三个条件的情况下,容量尽量小。
有些人喜欢按自己的品味扔掉一些"不好"的,只存一些所谓的"好书"。
有些人/组织喜欢转成他们认为"完美"的pdf。
还有些许多年的保存者为了节省空间,无脑将图片转为灰度或黑白存储。
这些方式都会造成信息丢失
目前来说,只有标准库满足上面四个条件。
## 整体说明
这是512w元数据和标准库,以及补库的ssid做交集的venn图。
A:只有元数据没有书 大约100万条左右。实际上还有更多缺失的书,以后会提到
B:标准库中可以和元数据对应上的书,大约有385万
C:标准库中6万本没有元数据的书,这部分书没法搜索。可以称为僵尸书。零散抽出几本来看,像是很多很多年前手写的科研期刊什么的。详细的情况目前还不知道。
U:全部读秀书:读秀从九几年开始就在到处扫书。国外一些大学的图书馆说是读秀比Google Scholar还多。令人很难相信……
https://guides.lib.uw.edu/c.php?g=341344&p=2303522
下方的蓝色圆圈 10W补库
在秒传全部阵亡之前的最后一段时间,向标准库中补充的书。基本上榨干了当时所有能找到的秒传表。
后来新出现的读秀7和读秀8并不在其中,以后会分析。
## 可以做些什么
1. 寻找丢失的100w
2. 补充元数据
3. 备份
guides.lib.uw.edu
Library Guides: China Studies: Duxiu User Guide
Research guide on China and Chinese language studies resources. Duxiu User Guide
👍2
【标准库文件分析】
关于标准库见前文
这是对标准库所有文件的检测结果
分成六类
1、类型:[001][SophIA][338588]其他格式文件.csv
2、压缩包损坏:[002][SophIA][414]坏压缩包.csv
3、MD5错:[003][SophIA][597]MD5错误.csv
4、缺页:[005][SophIA][2400]缺页书_损坏页.csv
5、密码:[004]密码
这个又分三小类:[001][SophIA][852]多个密码、[002][SophIA][2678]解密超时、[003][SophIA][897]找不到密码
6、异常ssid:[006][SophIA][3337]ssid可能有问题
详细分析在这里
数据在这里
💻 关注频道:@ALA数据分析
Shadowlib交流群
关于标准库见前文
这是对标准库所有文件的检测结果
分成六类
1、类型:[001][SophIA][338588]其他格式文件.csv
2、压缩包损坏:[002][SophIA][414]坏压缩包.csv
3、MD5错:[003][SophIA][597]MD5错误.csv
4、缺页:[005][SophIA][2400]缺页书_损坏页.csv
5、密码:[004]密码
这个又分三小类:[001][SophIA][852]多个密码、[002][SophIA][2678]解密超时、[003][SophIA][897]找不到密码
6、异常ssid:[006][SophIA][3337]ssid可能有问题
详细分析在这里
数据在这里
密码:V4TaErnvE2esj51PjLejJz
💻 关注频道:@ALA数据分析
Shadowlib交流群
Telegram
ALA数据分析
【书签数据】
用redis存储。
只包含有效数据,无效的那些都去掉了。
书签数据的整体情况看 [SophIA]书签数据分析.pdf
## 使用:
1.安装redis
去redis官网下个安装包装一下。
2.解压[SophIA][454w][11GB]dxbookmark_完整书签.7z。
里边会有一个dump.db
3.修改redis配置文件
4.启动
根据硬件配置不同,需要30秒~3分钟左右的启动时间。
## 在shadowlib中使用书签 获取shadowlib
0. 打开shadowlib配置文件
1. 打开插件开关
2. 修改redis端口和地址,redis默认端口是6379。如果在书签和shadowlib在同一台机器上,改一下端口就行了。
3.保存配置文件,执行shadowlib 可以开始自动添加书签了。
## 其他数据 下载
包含三个部分
### 啥都没有
就是啥都没有 只有ssid
[SophIA][44w3878]dxbookmark_啥都没有.csv
### 只有书签没有书名
[SophIA][109w]未知书名_有书签ssid.csv
这些书肯定是存在的,也不是什么禁书。但是目前哪里都找不到了。
我只发现过零星的几本。
可能是上古时代由于未知原因发生了一次电子书大灭绝事件。
### 只有书名
本来就没有书签
[SophIA][173w0810]dxbookmark_有书名没目录.csv
密码:X5f1uCfNUXt4jECaMIh6
用redis存储。
只包含有效数据,无效的那些都去掉了。
书签数据的整体情况看 [SophIA]书签数据分析.pdf
## 使用:
1.安装redis
去redis官网下个安装包装一下。
2.解压[SophIA][454w][11GB]dxbookmark_完整书签.7z。
!!!解压后为11GB,注意磁盘空间。!!!里边会有一个dump.db
3.修改redis配置文件
# The working directory.
#
# The DB will be written inside this directory, with the filename specified
# above using the 'dbfilename' configuration directive.
#
# The Append Only File will also be created inside this directory.
#
# Note that you must specify a directory here, not a file name.
dir '改成dump.db所在的绝对路径'
4.启动
!!!需要至少25GB内存才能运行,有64GB物理内存比较好!!!根据硬件配置不同,需要30秒~3分钟左右的启动时间。
## 在shadowlib中使用书签 获取shadowlib
!!!以下修改都是在shadowlib配置中进行的,目的是为了让shadowlib能找到redis!!!0. 打开shadowlib配置文件
shadowlib --config
1. 打开插件开关
[plugin]
; 插件开关 用于链接书签数据库 0关闭 1开启 默认关闭
plugin_flag =1
2. 修改redis端口和地址,redis默认端口是6379。如果在书签和shadowlib在同一台机器上,改一下端口就行了。
[redis]
; redis IP和端口 用于获取书签
redis_addr =localhost:6380
3.保存配置文件,执行shadowlib 可以开始自动添加书签了。
## 其他数据 下载
包含三个部分
### 啥都没有
就是啥都没有 只有ssid
[SophIA][44w3878]dxbookmark_啥都没有.csv
### 只有书签没有书名
[SophIA][109w]未知书名_有书签ssid.csv
这些书肯定是存在的,也不是什么禁书。但是目前哪里都找不到了。
我只发现过零星的几本。
可能是上古时代由于未知原因发生了一次电子书大灭绝事件。
### 只有书名
本来就没有书签
[SophIA][173w0810]dxbookmark_有书名没目录.csv
密码:X5f1uCfNUXt4jECaMIh6
🔥1
【DeepSeek-r1最速本地部署】## 最速安装
1. 下载ollama
去官网 https://ollama.com/download
装完之后会有个图标看起来像羊驼一样的东西。
2. 安装模型
开启一个命令行
ollama run deepseek-r1:1.5b
然后等一会就部署好了,此时它会自动开始对话命令,你可以开始和它聊天了。
3. 装个界面
打开Chrome,安装这个插件
https://chromewebstore.google.com/detail/page-assist-%E6%9C%AC%E5%9C%B0-ai-%E6%A8%A1%E5%9E%8B%E7%9A%84-web/jfgfiigpkhlkbnfnbobbkinehhfdhndo
装完之后点一下插件进入聊天的图形界面。
然后!
!!!在上方羊驼脸那里选择你刚刚安装的模型!!!现在可以随意使用了。
有时刚装完自动启动的东西可能很智障,不知道为啥。此时把它关掉重新打开就好了。
关掉
/bye
启动
ollama run deepseek-r1:1.5b
## 硬件要求
模型分为以下几个等级
1.5b对硬件要求很低 750MB显存,没有显卡也能跑。有显卡会更加丝滑。
1.5b
ollama run deepseek-r1:1.5b
7b
ollama run deepseek-r1:7b
8b
ollama run deepseek-r1:8b
14b
ollama run deepseek-r1:14b
32b是单机版里和DeepSeek官网的模型最接近的,当然也不能指望和官网一样厉害。
它需要16GB显存。如果你的显卡很强,那么推荐使用这个。
32b
ollama run deepseek-r1:32b
70b和671b需要多显卡才能部署了。
70b
ollama run deepseek-r1:70b
671b
ollama run deepseek-r1:671b
Ollama
Download Ollama on macOS
Download Ollama for macOS
【读秀8.0元数据】
来源于网络,最初的来源可能是某论坛倒闭后流出的。
所谓7.0 8.0没什么严格的区分,应该都是书贩子自己编的。
所以如果看到“新资源”,应该先要一份列表对比一番,防止鱼目混珠。
共有11520个文件,有效的11492个
读秀8的特点是有许多文本PDG,有993本,这在以前是不多见的。
大多数是ssid开头为15的书。
出版年份集中在2022年和2023年。
读秀8的密码已经全部破解,加密压缩包占比14%,一共10个有效密码。
元数据在这里
数据整体情况在这里
密码在这里
来源于网络,最初的来源可能是某论坛倒闭后流出的。
所谓7.0 8.0没什么严格的区分,应该都是书贩子自己编的。
所以如果看到“新资源”,应该先要一份列表对比一番,防止鱼目混珠。
共有11520个文件,有效的11492个
读秀8的特点是有许多文本PDG,有993本,这在以前是不多见的。
大多数是ssid开头为15的书。
出版年份集中在2022年和2023年。
读秀8的密码已经全部破解,加密压缩包占比14%,一共10个有效密码。
元数据在这里
数据整体情况在这里
密码在这里
Telegram
ALA数据分析|高质量数据集|图书|电子书工具