Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Ic_icpsp
  • ah

Last edited by 郭本江 May 26, 2021
Page history
This is an old version of this page. You can view the most recent version or browse the history.

ah

基本信息

工商.亮照服务--安徽
ic_icpsp_req/ah 通过提交任务参数中的credit_no,company_code,company_name的优先级进行查询。
1.先通过搜索关键词获得搜索列表,
2.通过列表中的详情链接获得pdf文件。(此pdf文件有做文件存储,单个pdf大概200K)
3.将pdf转换成图片。(图片识别之后会做删除,单个图片大概2M大小)
4.识别图片中的二维码内容
5.根据二维码中识别的内容获得联系方式等信息。

注:需要安装的模块:
    PyMuPDF==1.16.14
    fitz
    pyzbar
    pillow

数据名称(中文)

安徽--工商.亮照服务

数据英文名称

ic_icpsp

采集网站(采集入口)

官网PC端入口:
http://218.22.14.70:7700/ICPSP/queryEnt.action

采集频率及采集策略

存量更新策略

db_host: bdp-rds-007.mysql.rds.aliyuncs.com
db_name: utn_ic
db_user: shuidi
db_password: 
数据库表名:tb_search_company_icpsp
全省的主体信息作为搜索条件
逐条更新
目前全量更新一轮即可.

增量采集策略

1.新成立的主体
2.补充的主体

爬虫

安徽--工商.亮照服务 ic_icpsp_spiders

责任人

郭本江

爬虫名称

ic_icpsp_spider

代码地址

项目地址:http://192.168.109.110/granite/project-gravel/-/tree/develop_ic_icpsp/scrapy_spiders/gravel_spiders/spiders/ic_icpsp_reqs/ah

队列名称及队列地址

  • redis host: redis://:utn@0818@bdp-mq-001.redis.rds.aliyuncs.com:6379/7
  • redis port: 6379
  • redis db: 7
  • redis key:
    • ic_icpsp_keys

优先级队列说明

  • ic_icpsp_keys 支持队列优先级

任务来源

taskhub 安徽的全量主体信息

任务输入参数(样例) 其中credit_no、province、company_name、company_code为必需

破码版本
{
    "province": "AH",
    "credit_no": "91340103MA8LJ0RT3E",
    "company_code": "340103000362169",
    "company_name": "安徽震风润丁网络科技有限公司"
}

任务样例


{
	"data": {
		"icpsp_items": [
			{
				"search_keyword": "91340103MA8LJ0RT3E",
				"province": "AH",
				"company_name": "安徽震风润丁网络科技有限公司",
				"credit_no": "91340103MA8LJ0RT3E",
				"legal_person": "蒯胜军",
				"establish_date": "2021-05-17",
				"data_id": "400000104312643918",
				"detail_url": "http://218.22.14.66:8082/yzt/toHandleQuery.do?id=ZWFnbG9xcnBzdXJvd2l1aW5p&uniScID=amJqcG9ycXNeVXlbXWdAI292&jumpFlag=false",
				"company_code": "340103000362169",
				"company_status": "06",
				"company_type_code": "1100",
				"company_type": "有限责任公司",
				"capital": 500,
				"company_address": "安徽省合肥市庐阳区庐阳区淝河东街2号城市公馆B地块商业1幢509室",
				"company_tel": "18367275648",
				"company_phone": "18326096382"
			}
		]
	},
	"http_code": 200,
	"error_msg": "",
	"task_result": 1000,
	"data_type": "detail",
	"spider_start_time": "2021-05-20 17:51:15.554",
	"spider_end_time": "2021-05-20 17:51:15",
	"task_params": {
		"province": "AH",
		"credit_no": "91340103MA8LJ0RT3E",
		"company_code": "340103000362169",
		"company_name": "安徽震风润丁网络科技有限公司"
	},
	"metadata": {},
	"spider_name": "ic_icpsp_spider",
	"spider_ip": "10.8.6.56"
}

## 实际爬虫结果的数据结构
<!--可能与超级数据一致,可能不同的data_type的爬虫结果结构不同,超级数据是把所有data_type的结果组合在一起-->
```buildoutcfg
{
    "data": {
	"icpsp_items": [
		{
			"search_keyword": "91340103MA8LJ0RT3E",
			"province": "AH",
			"company_name": "安徽震风润丁网络科技有限公司",
			"credit_no": "91340103MA8LJ0RT3E",
			"legal_person": "蒯胜军",
			"establish_date": "2021-05-17",
			"data_id": "400000104312643918",
			"detail_url": "http://218.22.14.66:8082/yzt/toHandleQuery.do?id=ZWFnbG9xcnBzdXJvd2l1aW5p&uniScID=amJqcG9ycXNeVXlbXWdAI292&jumpFlag=false",
			"company_code": "340103000362169",
			"company_status": "06",
			"company_type_code": "1100",
			"company_type": "有限责任公司",
			"capital": 500,
			"company_address": "安徽省合肥市庐阳区庐阳区淝河东街2号城市公馆B地块商业1幢509室",
			"company_tel": "18367275648",
			"company_phone": "18326096382"
		}
	]
},
"http_code": 200,
"error_msg": "",
"task_result": 1000,
"data_type": "detail",
"spider_start_time": "2021-05-20 17:51:15.554",
"spider_end_time": "2021-05-20 17:51:15",
"task_params": {
	"province": "AH",
	"credit_no": "91340103MA8LJ0RT3E",
	"company_code": "340103000362169",
	"company_name": "安徽震风润丁网络科技有限公司"
},
"metadata": {},
"spider_name": "ic_icpsp_spider",
"spider_ip": "10.8.6.56"}

爬虫运行环境

scrapy

爬虫部署信息

ic_icpsp_spiders: 10.8.6.51 35个进程  

Taskhub地址

提交任务地址: http://10.8.6.222:18518/task/
代码编写地址: http://192.168.109.110/granite/project-gravel/blob/develop_app_10jqka_20210121/app_general_taxpayer/data_pump/general_taxpayer.yml

Taskhub调度规则说明

task_result=1000    # 正常获取到详情任务
task_result=1101    # 无结果信息
task_result=9101    # 超时错误,需要进行重试,目前重试5次
task_result=8000    # 参数错误

爬虫监控指标设计

(先观察,待补充)
索引: 
监控频率: 
监控起止时间: 
报警条件: 
报警群:  
报警内容: 

数据归集

责任人

数据归集方式

  • 爬虫直接写kafka

  • 爬虫写文件logstash采集

爬虫结果目录

归集后存放目录

logstash配置文件名称

logstash文件采集type

数据归集的topic

ES日志索引及筛选条件

监控指标看板

数据保留策略


数据清洗

责任人

代码地址

部署地址

部署方法及说明

  • crontab + data_pump
  • supervisor + data_pump
  • supervisor + consumer

数据接收来源

数据存储表地址

  • 数据库地址:
  • 表名:
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages