记者卧底大数据营销公司:揭秘APP抓取+爬虫的生意经

  新京报记者 李大伟 罗亦丹 实习生 徐子林 

  有大数据营销公司靠销售爬虫工具获利,电商平台商家数据遭爬取;还有公司称可以获取任意网页及APP访客的手机号;专家称其属于恶意爬取,涉嫌犯罪。

记者卧底大数据营销公司:揭秘APP抓取+爬虫的生意经

  ▲“鹰眼智客”大数据营销系统的主页面。

  “不需要不需要,以后别再给我打电话了。”说完,代昌(化名)重重地将手机摔在了沙发上。代昌是河北邢台清河县一家民营企业的实际控制人,最近几年来,他接到的骚扰电话数量明显增多。骚扰电话正成为大数据时代的“顽疾”。

  记者调查发现,一些所谓“大数据”公司数据来源可疑,甚至有些大数据公司并没有数据。新京报记者经过多地暗访、卧底发现,有大数据公司号称可以采集到任意指定网站或者APP的访客手机号;另一家号称“中国互联网营销服务第一品牌”公司的“鹰眼智客”官网则显示:“有你所需要的一切”。

  7月底,新京报记者卧底“鹰眼智客”发现,其实际上是利用爬虫技术,从淘宝、京东等网站上爬取到店家手机号后,用于营销。此外,借助该软件,通过微信附近的人,用户可任意设定虚拟位置后批量申请好友,还能“站街”钓鱼营销。

  有安全专家表示,当用户发生上网行为时会发送数据包,内含行为痕迹、手机号等信息。一旦涉及某一方发生泄露,通过抓取这个数据包便可以解析出来用户的敏感信息。网络爬虫则分为合法爬虫和恶意爬虫两种。一些所谓的大数据公司本身没有数据来源,而是通过爬虫手段获取他人的数据。

  在网络空间,数据战争已进入白热化。2019年5月份,国家互联网信息办公室发布的《数据安全管理办法》征求意见稿第十五条也规定了,“网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门备案。”此外,大多数网站早已对恶意爬虫构建反爬措施并作出声明严厉禁止,有律师直言,“突破、绕开第三方平台的反爬虫策略、协议时,或涉嫌非法获取计算机信息系统数据罪、提供侵入非法控制计算机信息系统程序工具罪。”

  卧底“最全”大数据公司

  淘宝、京东等多家网站数据被爬取

记者卧底大数据营销公司:揭秘APP抓取+爬虫的生意经

  ▲郑州共赢科技公司,业务员正在忙碌“杀单”。新京报记者 李大伟 摄

  记者发现一家名为“鹰眼智客”的大数据公司号称“中国互联网营销服务第一品牌”。其官网宣称:“有你所需要的一切”。据官网介绍,“鹰眼智客”归属于郑州共赢科技有限公司。

  7月29日,新京报记者来到该公司面试地点——郑州市金水区金城国际广场A座,通过面试得到试岗资格,主要工作是推销一台包含“鹰眼智客大数据营销系统”的电脑。在约一百平方米的房间里,充斥着啪啪啪敲击键盘的声音。房间内的三十多名业务员共同组成了共赢科技的“商务部”。

  据其官网显示,“鹰眼智客”系统涵盖QQ营销系列、微信营销系列、综合采集系列、论坛贴吧系列、邮件营销系列五大模块,拥有218个小功能。此外,其还宣传称“已成功为2800多家企业提供互联网营销服务,覆盖120多个行业”。其中综合采集系列号称可精准采集目标客户信息,覆盖全网11大B2B平台,4大搜索引擎,7大地图,准确率达90%。

  记者试岗期间任务是熟悉软件流程,并得到主管发的一份“终端客户聊天话术”。“终端客户聊天话术”显示,其数据来源于各大行业网站、各大平台以及各大地图等,“像阿里、百度、腾讯等等只要在网上公开留过痕迹的这些信息通过我们的核心技术SPILDER多线程技术都可以给你采集到。”

  据极验产品总监程柏(化名)介绍,其核心技术实际上是网络爬虫技术。据其介绍,目前互联网流行的网络爬虫种类比较多,信息采集类的网络爬虫主要是脚本和模拟器类爬虫。

  记者发现,“鹰眼智客精准营销系统”共包含数据采集系列、QQ营销系列、社群论坛营销、综合营销工具五个模块,覆盖了客户数据采集到营销的整条产业链。

  其中,数据采集系列模块包含地图行业采集、综合数据采集、阿里巴巴采集、慧聪网采集、单页名录综合采集、大众点评网采集、淘宝商家信息采集、中国制造网采集、团购外卖商家采集、阿里国际站采集、八方资源平台采集、京东商家采集十二个功能。

  记者测试发现,该套软件操作十分简单,每个功能还附有相应的教学视频来指导。7月30日,通过该软件,记者成功获取大量手机号。