ustcbbs-archiver

--- Scripts to archive ustcbbs posts.

使用 Python 作为爬虫，获取 ustcbbs 的信息存入本地。

仍然处在开发中。

当前成果

可以将指定板块的所有文章的标题、链接、原始 HTML 源代码存入数据库。

使用示例

./download.py --help 可以查看使用方式

./download.py -i -b communist -s 1 -o /dev/shm/archive.db

工具

python3+requests+bs4
sqlite3

思路

建议在网络环境良好的地方进行下载

正文区

由 http://bbs.ustc.edu.cn/cgi/bbsdoc?board=Linux 的文章数获取当前版面最大文章值
由 http://bbs.ustc.edu.cn/cgi/bbsdoc?board=Linux&start=12345 的方式获取链接对应的时间，写入数据库
遍历文章数添加数据库
进行下载，将网页正文添加至数据库

进阶（未完成）：

对网页正文进行分析得到原文与发文相关信息，存入新数据库
实现增量更新（根据时间）
对附件进行下载

授权

MIT License

作者

Boyuan Yang ([email protected])

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
bbsarchiver		bbsarchiver
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
arctl.py		arctl.py
download.py		download.py
exec.py		exec.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ustcbbs-archiver

当前成果

使用示例

工具

思路

正文区

授权

作者

About

Releases

Packages

Languages

License

hosiet/ustcbbs-archiver

Folders and files

Latest commit

History

Repository files navigation

ustcbbs-archiver

当前成果

使用示例

工具

思路

正文区

授权

作者

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages