# 新增说明20221208 ``` 日志查看: http://10.8.6.23:5000/2/servers/ 目前线上爬虫: ad_baidu_pc/ad_baidu_h5/ad_360_pc/ad_360_h5/ad_sougou_pc/baidu_pc_live/baidu_h5_live 快速运行本地代码 scrapy_spiders/scrapy.cfg 用default = gravel_spiders.settings_dev配置 scrapy_spiders/test.py 入口启动代码 爬虫任务提交: 10.8.6.23 切换到collie用户 crontab -l查看任务提交 history | grep deploy 查看相关历史命令 相关任务提交的配置文件: app_search_ads/data_pump/commit_ad_all_task.yml 部署机器: 10.8.6.27 python3 spider_admin.py -a ad_search -n ad_baidu_pc -s deploy python3 spider_admin.py -a ad_search -n ad_baidu_pc -s list python3 spider_admin.py -a ad_search -n ad_baidu_pc -s stop python3 spider_admin.py -a ad_search -n ad_baidu_pc -s start -m 40 ``` # **基本信息** ```buildoutcfg se_platform spider_name 平台名称 baidu_pc ad_baidu_pc 百度 PC端 baidu_h5 ad_baidu_h5 百度 移动端 360_pc ad_360_pc 360 PC端 360_h5 ad_360_h5 360 移动端 sougou_pc ad_sougou_pc 搜狗 PC端 sougou_h5 ad_sougou_h5 搜狗 移动端 shenma ad_shenma_h5 神马 移动端 toutiao ad_toutiao_h5 头条 移动端 baidu_pc_live baidu_pc_live 百度实况-PC端 baidu_h5_live baidu_h5_live 百度实况-h5端 360_pc_live 360_pc_live 360实时-PC端 ``` ## 数据名称(中文) ### ```buildoutcfg 搜索广告 ``` ## 数据英文名称 ```buildoutcfg search_ads ``` ## 采集网站(采集入口) ```buildoutcfg 百度h5入口: https://www.baidu.com/from=844b/s?word=python&ts=8478142&t_kt=0&ie=utf-8&fm_kl=021394be2f&rsv_iqid=2183853714&rsv_t=376a8VEY8%252FDOKsDMkKlCpa2B%252FASIiibUR4bHEz4HRUJlSfO8rYgnUcCdQw&sa=ih_2&ms=1&rsv_pq=2183853714&rsv_sug4=2159&ss=011&tj=1 360 PC入口: https://www.so.com/s?q=java&src=srp&fr=so.com&psid=69bd05cd22757efaf20f73ad38ab739d 360 H5入口: https://m.so.com/s?q=python&src=suggest_msearch&sug_pos=0&sug=&nlpv=&ssid=&srcg=home_next ``` ## 采集频率及采集策略 ### 存量更新策略 ```buildoutcfg db_host: bdp-rds-103.mysql.rds.aliyuncs.com db_name: aicha_ad db_user: aicha db_password: aicha@0611 se_word数据表中任务作为初始任务 逐条更新 目前2周更新一轮 ``` ### 增量采集策略 ```buildoutcfg 暂无 ``` --- # **爬虫名称以及平台** ```buildoutcfg spider_name 平台名称 ad_baidu_pc 百度 PC端 ad_baidu_h5 百度 移动端 ad_360_pc 360 PC端 ad_360_h5 360 移动端 ad_sougou_pc 搜狗 PC端 ad_sougou_h5 搜狗 移动端 ad_shenma_h5 神马 移动端 ad_toutiao_h5 头条 移动端 ``` ## 责任人 ```buildoutcfg 袁波 ``` ## 代码地址 ```buildoutcfg 项目地址:http://192.168.109.110/granite/project-gravel/tree/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders 百度移动端: 项目入口脚本: http://192.168.109.110/granite/project-gravel/blob/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/ad_baidu_h5.py 代码具体实现板块: http://192.168.109.110/granite/project-gravel/tree/develop_app_10jqka_20210121/scrapy_spiders/gravel_spiders/spiders/search_ads_reqs/baidu (说明: 同理,其它爬虫都根据爬虫名称在同级目录或板块下) ``` ## 队列名称及队列地址 - * redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7 * redis port: 6379 * redis db: 7 * redis key: * ad_baidu_pc * ad_baidu_h5 * ad_360_pc * ad_360_h5 * ad_sougou_pc * ad_sougou_h5 * ad_shenma_h5 * ad_toutiao_h5 ### 优先级队列说明 ```buildoutcfg ad_baidu_pc ad_baidu_h5 ad_360_pc ad_360_h5 ad_sougou_pc ad_sougou_h5 ad_shenma_h5 ad_toutiao_h5 说明:无特别处理,都是默认优先级10 ``` ## 任务来源 ```buildoutcfg db_host: bdp-rds-103.mysql.rds.aliyuncs.com db_name: aicha_ad db_user: aicha db_password: aicha@0611 se_word数据表中任务作为初始任务 ``` ## 任务输入参数(样例) ```json { "se_platform": "baidu_h5", "word": "1200目普通硅微粉", "area": "全国" } 说明: 其它任务同理,填不同的se_platform和word即可 ``` ### 任务样例 ```buildoutcfg { "se_platform": "baidu_h5", "word": "1200目普通硅微粉", "area": "全国", "outbound": "ad_all_platform", "routed_count": 1, "submitter": "taskhub", "group_retry_times": 0, "submit_time": "2021-04-15 15:11:02", "token_scope": "ad", "retry_limits": 2, "rt": false, "priority": null, "task_uuid": "c1577311-f58b-4235-8778-ce08d54df889", "retry_times": 0 } 说明: 其它爬虫同理,se_platform和word不同即可 ``` ### 任务参数说明 ```json { "se_platform": "baidu_h5", # 平台名称 "word": "1200目普通硅微粉", # 搜索关键词 "area": "全国" # 广告范围 } 说明: 其它爬虫同理,se_platform和word不同即可 ``` ## data_type说明 ```buildoutcfg list: 暂未使用 detail: 默认正常出来的广告数据 recommend: 搜索推荐的关键词 ``` ## 爬虫结果的超级数据 ```buildoutcfg { "data": [{ "find_time": "2021-06-21 10:38:57", "index": 1, "match_word": "周口师范学院,专业,院校", "land_url": "https://kaoyan.gaodun.com/2022ky/m/?x_field_1=yMz2eyQ7zuueZFnmue&userid=3054421673&planid=3351335152&unitid=921677877&kwdid=39873900866&adid=5571563434&data_industry=ocpc_ms_convert&fromPlatform=qihoo360&qhclickid=014dbd21e67eacd2", "title": "周口师范学院考研_报名条件及考试方式_点击进入", "ad_content": "周口师范学院考研 高顿考研全新学习模式,定向辅导班,专业课名校师资授课,全程.精准考点答疑,实力的名校师资辅导,实时的院校招录信息,考研上名校高顿更专业!" }], "http_code": 200, "error_msg": "", "task_result": 1000, "data_type": "detail", "spider_start_time": "2021-06-21 10:39:24.062", "spider_end_time": "2021-06-21 10:39:34.150", "task_params": { "se_platform": "360_h5", "word": "周口师范学院专业排名", "area": "全国", "outbound": "ad_all_platform", "routed_count": 1, "submitter": "taskhub", "group_retry_times": 0, "submit_time": "2021-06-19 16:21:02", "token_scope": "ad", "retry_limits": 2, "rt": false, "priority": null, "task_uuid": "5110a910-0e42-4df5-957a-cf8c2a3cf79e", "retry_times": 0 }, "metadata": {}, "spider_name": "ad_360_h5", "spider_ip": "10.8.6.57" } ``` ## 实际爬虫结果的数据结构 ```buildoutcfg { "data": [{ "find_time": "2021-06-21 10:38:57", "index": 1, "match_word": "周口师范学院,专业,院校", "land_url": "https://kaoyan.gaodun.com/2022ky/m/?x_field_1=yMz2eyQ7zuueZFnmue&userid=3054421673&planid=3351335152&unitid=921677877&kwdid=39873900866&adid=5571563434&data_industry=ocpc_ms_convert&fromPlatform=qihoo360&qhclickid=014dbd21e67eacd2", "title": "周口师范学院考研_报名条件及考试方式_点击进入", "ad_content": "周口师范学院考研 高顿考研全新学习模式,定向辅导班,专业课名校师资授课,全程.精准考点答疑,实力的名校师资辅导,实时的院校招录信息,考研上名校高顿更专业!" }], "http_code": 200, "error_msg": "", "task_result": 1000, "data_type": "detail", "spider_start_time": "2021-06-21 10:39:24.062", "spider_end_time": "2021-06-21 10:39:34.150", "task_params": { "se_platform": "360_h5", "word": "周口师范学院专业排名", "area": "全国", "outbound": "ad_all_platform", "routed_count": 1, "submitter": "taskhub", "group_retry_times": 0, "submit_time": "2021-06-19 16:21:02", "token_scope": "ad", "retry_limits": 2, "rt": false, "priority": null, "task_uuid": "5110a910-0e42-4df5-957a-cf8c2a3cf79e", "retry_times": 0 }, "metadata": {}, "spider_name": "ad_360_h5", "spider_ip": "10.8.6.57" } ``` ## 爬虫运行环境 ```buildoutcfg scrapy ``` ## 爬虫部署信息 ```buildoutcfg 10.8.6.62 baidu_pc 10个进程 baidu_h5 5个进程 360_pc 10个进程 360_h5 5个进程 sougou_pc 10个进程 sougou_h5 5个进程 shenma 5个进程 ``` ## Taskhub地址 ```buildoutcfg 提交任务地址: http://10.8.6.222:18518/task/ 代码编写地址: http://192.168.109.110/granite/project-taskhub/blob/master/taskhub/config/ad/config_ad.d/01_task.yaml ``` ## Taskhub调度规则说明 ```buildoutcfg task_result=1000 # 正常获取到详情任务 task_result=1101 # 本条关键词没有搜索到广告数据 task_result=9101 # 超时错误,需要进行重试,目前重试5次 task_result=8000 # 参数错误 ``` ## 爬虫监控指标设计 ```buildoutcfg 索引: ad_spider_log-* 爬虫名称: ad_baidu_pc 监控频率: 每4小时监控一次 监控起止时间: 6:00到20:00 报警条件: ad_baidu_pc爬虫,4小时内task_result=1000,data_type=detail的量少于15w条 报警群: "爱查数据报警"群 报警模板:【报警】ad_baidu_pc数据量监测_近4小时成功数低于15w条 索引: ad_spider_log-* 爬虫名称: ad_baidu_h5 监控频率: 每4小时监控一次 监控起止时间: 6:00到20:00 报警条件: ad_baidu_h5爬虫,4小时内task_result=1000,data_type=detail的量少于35w条 报警群: "爱查数据报警"群 报警模板:【报警】ad_baidu_h5数据量监测_近4小时成功数低于35w条 索引: ad_spider_log-* 爬虫名称: ad_360_pc 监控频率: 每4小时监控一次 监控起止时间: 6:00到20:00 报警条件: ad_360_pc爬虫,4小时内task_result=1000,data_type=detail的量少于15w条 报警群: "爱查数据报警"群 报警模板:【报警】ad_360_pc数据量监测_近4小时成功数低于15w条 索引: ad_spider_log-* 爬虫名称: ad_360_h5 监控频率: 每4小时监控一次 监控起止时间: 6:00到20:00 报警条件: ad_360_h5爬虫,4小时内task_result=1000,data_type=detail的量少于15w条 报警群: "爱查数据报警"群 报警模板:【报警】ad_360_h5数据量监测_近4小时成功数低于15w条 索引: ad_spider_log-* 爬虫名称: ad_sougou_pc 监控频率: 每4小时监控一次 监控起止时间: 6:00到20:00 报警条件: ad_sougou_pc爬虫,4小时内task_result=1000,data_type=detail的量少于35w条 报警群: "爱查数据报警"群 报警模板:【报警】ad_sougou_pc数据量监测_近4小时成功数低于35w条 索引: ad_spider_log-* 爬虫名称: ad_sougou_h5 监控频率: 每4小时监控一次 监控起止时间: 6:00到20:00 报警条件: ad_sougou_h5爬虫,4小时内task_result=1000,data_type=detail的量少于15w条 报警群: "爱查数据报警"群 报警模板:【报警】ad_sougou_h5数据量监测_近4小时成功数低于15w条 索引: ad_spider_log-* 爬虫名称: ad_shenma_h5 监控频率: 每4小时监控一次 监控起止时间: 6:00到20:00 报警条件: ad_shenma_h5爬虫,4小时内task_result=1000,data_type=detail的量少于10w条 报警群: "爱查数据报警"群 报警模板:【报警】ad_shenma_h5数据量监测_近4小时成功数低于10w条 报警模板: 索引: ad_spider_log-* 爬虫名称: adbug 监控频率: 每日中午11点监控一次 监控起止时间: 过去12个小时 报警条件: 请求adbug失败率(9008、9000)大于5%(失败总数>100时生效) 报警群: "爱查数据报警"群 报警模板 【报警】adbug数据量监测_近12小时adbug失败率大于5%(且超过100条) ``` ## 爬虫待采集结果目录 ```buildoutcfg /data/b2b_spider_data/ad_5118 /data/b2b_spider_data/baidu_v /data/b2b_spider_data/baidu_ad_v2 /data/gravel_spiders/ad_baidu_pc /data/gravel_spiders/ad_baidu_h5 /data/gravel_spiders/ad_360_pc /data/gravel_spiders/ad_360_h5 /data/gravel_spiders/ad_sougou_pc /data/gravel_spiders/ad_sougou_h5 /data/gravel_spiders/ad_shenma_h5 /data/gravel_spiders/ad_toutiao_h5 /data/gravel_spiders/baidu_pc_live (新增) /data/gravel_spiders/baidu_h5_live (新增) /data/gravel_spiders/360_pc_live (新增) ``` --- # **数据归集** ## 责任人 ``` 范召贤 ``` ## 数据归集方式 - [ ] 爬虫直接写kafka - [x] 爬虫写文件logstash采集 ## 归集后存放目录 ```buildoutcfg /data2_227/ad_spider_result/ad_5118 5118网站 /data2_227/ad_spider_result/baidu_ad_v2 百度 PC端(旧) /data2_227/ad_spider_result/baidu_v baidu_v /data2_227/ad_spider_result/ad_baidu_pc 百度 PC端(新) /data2_227/ad_spider_result/ad_baidu_h5 百度 移动端 /data2_227/ad_spider_result/ad_360_pc 360 PC端 /data2_227/ad_spider_result/ad_360_h5 360 移动端 /data2_227/ad_spider_result/ad_sougou_pc 搜狗 PC端 /data2_227/ad_spider_result/ad_sougou_h5 搜狗 移动端 /data2_227/ad_spider_result/ad_shenma_h5 神马 移动端 /data2_227/ad_spider_result/ad_toutiao_h5 头条 移动端 ``` ## logstash配置文件名称 ```buildoutcfg project-deploy/logstash/10.8.6.229/conf.d/collie_spider_data_to_kfk.conf ``` ## logstash文件采集type ```buildoutcfg collie-spider-aicha-ad ``` ## 数据归集的topic ```buildoutcfg collie-ad-result ``` ## ES日志索引及筛选条件 ```buildoutcfg ad_spider_log-* ``` ## 监控指标看板 ## 数据保留策略 --- # **数据清洗** ## 责任人 ## 代码地址 ## 部署地址 ## 部署方法及说明 - [ ] crontab + data_pump - [ ] supervisor + data_pump - [ ] supervisor + consumer ## 数据接收来源 ## 数据存储表地址 * 数据库地址: * 表名: