最新推荐
-
Turbosoft TTWeb v1.5.0 网络工具 / 14.8M
-
-
-
Bala八乐音乐世界 2.0 网络工具 / 6.4M
-
RaidenFTPD2.4 网络工具 / 5.5M
精品推荐
-
Tutanota(电子邮件客户端)v3.91.10官方版 网络工具 / 65.6M
查看 -
Visual Studio Downloaderv1.0免费版 网络工具 / 51KB
查看 -
Free Disney Plus Download(网页视频下载器)v5.1.27.225免费版 网络工具 / 59.2M
查看 -
鹰眼中控系统v2.0.10.300385官方版 网络工具 / 28.5M
查看 -
PSearcher批量图片下载软件v6.1.3.0官方版 网络工具 / 33.3M
查看
本类排行
详情介绍
一个超强大的网站文章收集器。这个软件的全称是Red Leaf Article Collector,英文名称是Fast_Spider。它是一个蜘蛛爬虫程序。用于从指定网站收集海量重要文章。它会直接丢弃垃圾网页信息,只保存相关信息。阅读和浏览有价值的文章,并自动执行HTM-TXT转换。
一个超强大的网站文章收集器。该软件的全称是红叶文章采集器,英文名称是Fast_Spider。它是一个蜘蛛类程序,用于从指定网站收集海量的重要文章。它会直接丢弃垃圾网页信息,只保存可以阅读的内容。精选有价值、有浏览价值的文章,自动进行HTM-TXT转换。本软件为绿色软件,解压后即可使用!
软件特点
(1)本软件采用北大天网MD5指纹去重算法,不会再重复保存相似、相同的网页信息。
(2)收集信息的含义:[[HT]]代表网页标题,[[HA]]代表文章标题,[[HC]]代表10个权重关键词,[[UR]]代表网页中的图像链接,[[TXT]]后面是正文。
(3)Spider性能:本软件开启300个线程,保证采集效率。压力测试收集了100万篇精华文章。以普通网民联网的电脑为参考标准,一台电脑一天可以浏览200万个网页,收集20万篇精华文章。只需5天,即可收集100万篇必备文章。完全的。
(4)正式版与免费版的区别在于,正式版允许将收集到的精华文章数据自动保存为ACCESS数据库。购买正式版请联系QQ(970093569)。
如何操作
(1)使用前,您必须确保您的计算机能够连接到网络,并且防火墙没有阻止本软件。
(2) 运行SETUP.EXE和setup2.exe安装操作系统system32支持库。
(3) 运行spider.exe,输入URL条目,先点击“手动添加”按钮,然后点击“开始”按钮开始采集。
防范措施
(1)爬取深度:填写0表示爬取深度不限制;填写3 以捕获第三层。
(2) 普通蜘蛛模式与分类蜘蛛模式的区别:假设URL入口为“http://youxi.baidu.com/”,如果选择普通蜘蛛模式,则“baidu.com”中的每个网页都会被穿越;如果选择分类蜘蛛模式,则只遍历“youxi.baidu.com”中的每个网页。
(3)“从MDB导入”按钮:从TASK.MDB批量导入URL条目。
(4)本软件采集的原则是不跨站。例如,如果入口是“http://youxi.baidu.com/”,则只会抓取百度站点内的内容。
(5)本软件在采集过程中,偶尔会弹出一个或多个“错误对话框”。请忽略他们。如果关闭“错误对话框”,采集软件就会挂起。
(6)用户如何选择采集主题:比如要采集“库存”文章,只需将那些“库存”网站作为URL入口即可。