更新 EJQTDE_spider/ejqtde_main.py

This commit is contained in:
XCX 2023-07-27 10:30:26 +08:00
parent 07c334a903
commit c1e1e59e05

View File

@ -15,10 +15,10 @@ from urllib.parse import urljoin
爬取网站'https://www.math.u-szeged.hu/ejqtde' 爬取网站'https://www.math.u-szeged.hu/ejqtde'
==========运行顺序========== ==========运行顺序==========
1ejqtde_main 获取各年份的期刊链接 1ejqtde_main 获取各年份的期刊链接
2ejqtde_scrawler 抓取各篇论文的信息和作者信息 -> 调用ejqtde_save -> 存入小文件json暂存 2ejqtde_scrawler 抓取各篇论文的信息和作者信息 -> 调用ejqtde_save -> 存入小文件json暂存
3ejqtde_save 从本地浏览暂存的小文件筛选后存入不同年份的大文件 3ejqtde_save 从本地浏览暂存的小文件筛选后存入不同年份的大文件
*4ejqtde_save.delete()(可选) 删除暂存区内部所有文件注意备份 *4ejqtde_save.delete()(可选) 删除暂存区内部所有文件注意备份
''' '''