
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
Apache Nutch 1.18发布了。Nutch是一个成熟的、可用于生产的Web爬虫。Nutch 1.x可以依靠Apache Hadoop™数据结构进行细粒度配置,这对于批处理非常有用。
此版本包含30多个错误修复和改进,部分更新内容如下:
Bug修复
javax.ws packaging.type的可靠解决方案
升级lvy以解决未设置package.type属性的问题
RobotsRulesParser命令行检查器,以使用#作为后备
FreeGenerator实际应用于提取列表的配置数量
MoreIndexingFilter-无法解析错误的日期
改进
MoreIndexingFilter重构:将用于解析“lastModified”的数据格式移动到配置文件
设置Tika 1.19中用于MIME检测的XML SAX解析池大小
升级到crawler-commons 1.1
更新到Tika 1.25
把commons-jexl从2更新到3
详细内容请查看更新公告。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!