当前位置:首页 > 软件下载 > 网络工具

红叶文章采集器v3.6中文绿色版

点此纠错

  • 平台:WinXP, Win7, WinAll
  • 大小:5.0M
  • 语言:简体
  • 类别:网络工具
  • 授权:免费软件
  • 更新:2025-02-08
4.0
0% 0%

情介绍

一个超强大的网站文章收集器。这个软件的全称是Red Leaf Article Collector,英文名称是Fast_Spider。它是一个蜘蛛爬虫程序。用于从指定网站收集海量重要文章。它会直接丢弃垃圾网页信息,只保存相关信息。阅读和浏览有价值的文章,并自动执行HTM-TXT转换。

一个超强大的网站文章收集器。该软件的全称是红叶文章采集器,英文名称是Fast_Spider。它是一个蜘蛛类程序,用于从指定网站收集海量的重要文章。它会直接丢弃垃圾网页信息,只保存可以阅读的内容。精选有价值、有浏览价值的文章,自动进行HTM-TXT转换。本软件为绿色软件,解压后即可使用!

红叶文章采集器

软件特点

(1)本软件采用北大天网MD5指纹去重算法,不会再重复保存相似、相同的网页信息。

(2)收集信息的含义:[[HT]]代表网页标题,[[HA]]代表文章标题,[[HC]]代表10个权重关键词,[[UR]]代表网页中的图像链接,[[TXT]]后面是正文。

(3)Spider性能:本软件开启300个线程,保证采集效率。压力测试收集了100万篇精华文章。以普通网民联网的电脑为参考标准,一台电脑一天可以浏览200万个网页,收集20万篇精华文章。只需5天,即可收集100万篇必备文章。完全的。

(4)正式版与免费版的区别在于,正式版允许将收集到的精华文章数据自动保存为ACCESS数据库。购买正式版请联系QQ(970093569)。

如何操作

(1)使用前,您必须确保您的计算机能够连接到网络,并且防火墙没有阻止本软件。

(2) 运行SETUP.EXE和setup2.exe安装操作系统system32支持库。

(3) 运行spider.exe,输入URL条目,先点击“手动添加”按钮,然后点击“开始”按钮开始采集。

防范措施

(1)爬取深度:填写0表示爬取深度不限制;填写3 以捕获第三层。

(2) 普通蜘蛛模式与分类蜘蛛模式的区别:假设URL入口为“http://youxi.baidu.com/”,如果选择普通蜘蛛模式,则“baidu.com”中的每个网页都会被穿越;如果选择分类蜘蛛模式,则只遍历“youxi.baidu.com”中的每个网页。

(3)“从MDB导入”按钮:从TASK.MDB批量导入URL条目。

(4)本软件采集的原则是不跨站。例如,如果入口是“http://youxi.baidu.com/”,则只会抓取百度站点内的内容。

(5)本软件在采集过程中,偶尔会弹出一个或多个“错误对话框”。请忽略他们。如果关闭“错误对话框”,采集软件就会挂起。

(6)用户如何选择采集主题:比如要采集“库存”文章,只需将那些“库存”网站作为URL入口即可。