ALA数据分析|高质量数据集|图书|电子书工具
1.28K subscribers
161 photos
76 files
82 links
搜索中文互联网所有公开的电子书,批量转换读秀压缩包:https://t.me/shadowlib
Download Telegram
【读秀元数据-中图法分类目录】

A马克思主义、列宁主义、毛泽东思想、邓小平理论 3万5千册
B哲学、宗教 20万册
C社会科学总论 10万册
D政治、法律 41万册
E军事 5万册
F经济 47万册
G文化、科学、教育、体育 45万册
H语言、文字 23万册
I文学 80万册
J艺术 31万册
K历史、地理 51万册
N自然科学总论 3万8千册
O数理科学和化学 13万5千册
P天文学、地球科学 5万7千册
Q生物科学 5万8千册
R医药、卫生 26万册
S农业科学 11万册
T工业技术 70万册
U交通运输 4万4千册
V航空航天 1万6千册
X环境科学、安全科学 3万2千册
Z综合性图书 4万3千册

分类数据怎么来的?
训练了一个基于BERT的图书分类模型。

💻 关注频道:@ALA数据分析
🫡3
【将影印版的pdf转换为可编辑的格式】
1、去官网下载客户端
2、把pdf扔进去
3、等待转换完成
4、得到一个包含markdown的压缩包
5、把markdown转换成你想要的格式,比如epub,可编辑的pdf之类的。

使用客户端无需本地显卡。
自动识别目录,支持将公式转为latex格式,支持识别表格等等。


转换示例

💻 关注频道:@ALA数据分析
👍31
【2025 肯尼迪遇刺最新解密文件】

美国政府根据特朗普的命令在官网公布了关于肯尼迪遇刺事件的解密文件
共2182个文件,63400页。6GB。
文件在这里

这并不是第一次公布,2017年到2023年,都有公布扫描版的文件。并且从1992年开始就一直有信息放出。


美国方面专家和媒体反应并不强烈,认为这次的文件也没有什么大新闻。不太一样的是这次特朗普命令完全公开,没有遮盖任何东西。
关于刺杀,基本可以确定就是李·哈维·奥斯瓦尔德 (Lee Harvey Oswald)的独狼行为。他杀了肯尼迪之后,曾打算跑到苏联或者古巴,但是没有成功。

2017-2023年的文件大约几十GB,7万多个pdf,真有人想看吗……

💻 关注频道:@ALA数据分析
This media is not supported in your browser
VIEW IN TELEGRAM
【Shadowlib 新版预告】

考虑下个月发新版,发个预告看看反馈。
不需要占用鼠标点点点的转换工具,支持多个压缩包并行转换。
最大的更新就是,终于有图形界面了……

上个版本在这里

💻 关注频道:@ALA数据分析
👍121
# 【ShadowLibrary_dll_v0.4.0】
- 2025/04/05 v0.4.0 发布:
- 压缩包转换为pdf,支持多个文件后台并行转换,不占用鼠标。转换时自动根据ssid给pdf加书签。
- 支持搜索绝大部分公开的元数据,速度非常快,包括读秀全系列,科学文库,中美百万,epub系列等等。
- 书站、古籍、文物名画高清图、字典 集中导航,整合当前相关领域的高质量网站。支持自定义导航,可以制作属于你自己的导航页。
- 支持自助获取书签,用于其他工具。
- 将pdg转换为图片,支持用户调节图像质量和大小
- 自动检测缺页并补充缺页
- 解析bookinfo.dat和bookcontents.dat。按其中信息自动给pdf命名并添加目录
- 支持自定义第三方目录源
- 开源,可以直接使用源码
- 提供简洁的API,重新封装了多进程接口,现在一行代码就能用多进程的方式调用了。


1、安装包
`[SophIA][bin]ShadowLibrary_dll_v0.4.0.7z`
MD5: cfc3abf00d7189e1cc6451ee5002feba
图形界面版本,安装完直接用。
【2025年4月9日更新】修复某些横着的书可能获取不到长宽导致转换失败的问题,修复bac格式封底导致转换失败的问题。
重装时最好删掉ShadowLibrary/bin/index

2、Shadowlib内核源代码
【2025年4月9日更新】修复某些横着的书可能获取不到长宽的问题,修复bac格式封底导致转换失败的问题。
`[SophIA][src]ShadowLibrary_dll_v0.4.0.7z`
MD5: 059bf271f0e8eb6567495358684fcc6f

LMDB书签库在这里,当对书签有大量需求时使用。

💻 关注频道:@ALA数据分析
Shadowlib交流群
2