当前位置: 首页 > 计算机 > 网络爬虫全解析:技术、原理与实践

网络爬虫全解析:技术、原理与实践

6.0 ( 1个评分 )
作者:
版权:电子工业出版社
出版:
读者保障计划
¥ 39.99 | 原价¥ 73.00 纸书¥ 79.00 5.1折

结合作者多年网络爬虫开发经验
全面系统讲解了网络爬虫相关技术并以Java实现
通俗易懂、代码清晰、案例丰富实用

本书内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。
为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。
最后,以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。
其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。
本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。

移动设备阅读

扫二维码下载客户端

图书标签

买过此书的人还买过