数据字段、格式等与水滴库比较
统计数据
- 水滴数据总量 56691590
- 合合数据总量 45325853
- 交集 45018383
- 水滴有 合合没有 11673207
- 合合有 水滴没有 307470
字段对应
sd表名 | 字段名 | sd <- 官方 | 官方字段名 | sd <- qxb | qxb字段名 |
---|---|---|---|---|---|
ip_trademark | id | 不需要 | 不需要 | ||
ip_trademark | update_source | 不需要 | 不需要 | ||
ip_trademark | data_source | 不需要 | 不需要 | ||
ip_trademark | update_source_id | 不需要 | 不需要 | ||
ip_trademark | use_flag | 不需要 | 不需要 | ||
ip_trademark | reg_no | 申请/注册号 | reg_number | ||
ip_trademark | int_cls | 国际分类 | type_num | ||
ip_trademark | reg_no_cls | 处理字符串 | 处理字符串 | ||
ip_trademark | tm_name | 商标名称 | name | ||
ip_trademark | app_date | 申请日期 | apply_date | ||
ip_trademark | app_year | 处理日期 | 处理日期 | ||
ip_trademark | applicant_cn | 申请人名称(中文) | 替换为中文括号 | company,ename | |
ip_trademark | address_cn | 申请人地址(中文) | address_cn | ||
ip_trademark | applicant_other_1 | 处理字符串 | 商标公告-申请人 | 有缺少 | applicantShare_1 |
ip_trademark | applicant_other_2 | 处理字符串 | 商标公告-申请人 | 有缺少 | applicantShare_2 |
ip_trademark | applicant_en | 申请人名称(英文) | company_en | ||
ip_trademark | address_en | 申请人地址(英文) | address_en | ||
ip_trademark | announcement_issue | 初审公告期号 | first_pubno | ||
ip_trademark | announcement_date | 初审公告日期 | first_pubdate | ||
ip_trademark | reg_issue | 注册公告期号 | reg_pubno | ||
ip_trademark | reg_date | 注册公告日期 | reg_pubdate | ||
ip_trademark | exclusive_date_start | 处理字符串 | 专用权期限 | start_date | |
ip_trademark | exclusive_date_end | 处理字符串 | 专用权期限 | end_date | |
ip_trademark | notice_issue | sd是NULL | |||
ip_trademark | notice_type | sd是NULL | |||
ip_trademark | reg_type | 我们的不对 22301901_42 | 商标形式 | sd有缺 | trademark_form |
ip_trademark | reg_is_share | 是否共有商标 | is_shared | ||
ip_trademark | agent | 代理/办理机构 | agent | ||
ip_trademark | category | 商标类型 | 缺 | categoryFlag,trademark_type | |
ip_trademark | subsequent_design_date | 后期指定日期 | hqzdrqDate | ||
ip_trademark | international_reg_date | 国际注册日期 | global_date | ||
ip_trademark | priority_date | 优先权日期 | priority_date | ||
ip_trademark | color | ? | 缺失 | color | |
ip_trademark | second_class_code | 类似群 | 处理list | products$num | |
ip_trademark | status | 根据日期处理 | 商标状态 | 根据日期处理 | |
ip_trademark | pic_url | 处理图片 | 图标 | image_url | |
ip_trademark | create_time | 不需要 | 不需要 | ||
ip_trademark | update_time | 不需要 | 不需要 | ||
ip_trademark_applicant_list | id | 不需要 | 不需要 | ||
ip_trademark_applicant_list | use_flag | 不需要 | 不需要 | ||
ip_trademark_applicant_list | reg_no_cls | 处理字符串 | 处理字符串 | ||
ip_trademark_applicant_list | applicant_cn | 申请人名称(中文) | 有缺少 | company,ename,applicantShare_1,applicantShare_2 | |
ip_trademark_applicant_list | applicant_en | 申请人名称(英文) | company_en | ||
ip_trademark_applicant_list | company_name_digest | 处理FILTER | 处理FILTER | ||
ip_trademark_applicant_list | company_id | 处理md5 | 处理md5 | ||
ip_trademark_applicant_list | is_history | 不需要 | 不需要 | ||
ip_trademark_applicant_list | status | 根据日期处理 | 商标状态 | 根据日期处理 | |
ip_trademark_applicant_list | app_date | 申请日期 | apply_date | ||
ip_trademark_applicant_list | create_time | 不需要 | 不需要 | ||
ip_trademark_applicant_list | update_time | 不需要 | 不需要 | ||
ip_trademark_category_list | use_flag | 不需要 | 不需要 | ||
ip_trademark_category_list | reg_no_cls | 处理 | 处理字符串 | ||
ip_trademark_category_list | cat_code | 处理list | 类似群 | products$num | |
ip_trademark_category_list | cat_name | 处理list | 商品/服务 | products$name | |
ip_trademark_category_list | cat_name_md5 | 处理md5 | 处理md5 | ||
ip_trademark_category_list | create_time | 不需要 | 不需要 | ||
ip_trademark_category_list | update_time | 不需要 | 不需要 | ||
ip_trademark_flow_list | id | 不需要 | 不需要 | ||
ip_trademark_flow_list | use_flag | 不需要 | 不需要 | ||
ip_trademark_flow_list | reg_no_cls | 处理字符串 | 处理字符串 | ||
ip_trademark_flow_list | flow_code | 码表处理 | 环节名称 | 码表处理 | steps$step |
ip_trademark_flow_list | flow_date | 日期 | 只用hehe比sd的日期更新的 | steps$date | |
ip_trademark_flow_list | create_time | 不需要 | 不需要 | ||
ip_trademark_flow_list | update_time | 不需要 | 不需要 | ||
缺失 | 商标状态图标里的文字 | status | |||
缺失 | 商标状态 | now_status |
sd缺失字段
官网与合合有商标状态以及商标图标中的文字,水滴没有。
hh缺失字段
- color全部是空
- 申请人不全,sd的applicant_other_2有多个,而hh只存一个。这会影响sd的applicant_other_1, applicant_other_2, ip_trademark_applicant_list$applicant_cn
hh多出字段
口径不一致的字段
sd字段名 | 字段含义 | hh字段名 |
---|---|---|
reg_type | 商标形式 | trademark_form,now_status |
category | 商标类型 | categoryFlag,trademark_form |
status | 商标状态 | statusFlag |
sd码表的问题
-
商标注册申请
-
商标注册申请---
-
---等待不予受理通知书发文
-
商标注册申请--------不予受理通知书发文
-
商标注册申请---不予受理通知书发文
-
商标注册申请---等待不予受理通知书发文
-
商标注册申请-等待不予受理通知书发文-结束
数据源存在的问题
商标类型
- hehe.categoryFlag:0 普通商标 1 特殊商标 2 集体商标 3 证明商标
- shuidi.category:0-普通商标 1-特殊商标 2-集体商标 3-证明商标 4-立体商标 5-声音商标
计数
sd_tt\hh_tt | 0 | 1 | 2 | 3 | 4 | 5 | \N |
---|---|---|---|---|---|---|---|
0 | 1165640 | 4 | 256 | 62 | 25 | 1 | 32219 |
1 | 377 | 0 | 0 | 1 | 0 | 0 | 0 |
\N | 8952788 | 2138 | 1291 | 589 | 188 | 0 | 2711437 |
一般 | 30608989 | 125 | 40 | 63 | 1049 | 4 | 10193565 |
特殊 | 4 | 9778 | 0 | 0 | 0 | 0 | 162 |
证明 | 58 | 0 | 1 | 7794 | 0 | 0 | 2791 |
集体 | 41 | 0 | 6613 | 8 | 0 | 0 | 3981 |
抽查
hh.pri | hh.cate | sd.pri | sd.cate |
---|---|---|---|
19657273_31 | 0 | 19657273_31 | 2. |
34858717_22 | 0 | 34858717_22 | 3. |
18581622_28 | 0. | 18581622_28 | 4. |
9725060_39 | 1 | 9725060_39 | 0. |
26042395_32 | 0. | 26042395_32 | 4. |
18581490_16 | 0. | 18581490_16 | 4. |
6316732_31 | 1 | 6316732_31 | 3. |
抽查这些样本,发现合合数据质量不好。
商标形式
- hehe.trademark_form:
- 颜色商标
- 立体商标;颜色商标
- 声音商标;颜色商标
- 声音商标
- ''
- 立体商标
- NULL
- shuidi.category:0-普通商标 1-特殊商标 2-集体商标 3-证明商标 4-立体商标 5-声音商标
看46045560_29,水滴为NULL
商标状态
shuidi.status 1=商标已注册;2=商标无效;3=初审公告;4=等待实质审查;5=商标申请中;6=商标异议中;7=驳回复审中;8=商标其他情形; hehe.statusflag 1:有效;2:无效;3:待审;4:不定 5-未知状态
自己来计算statusflag
数据源更新水滴库的策略
存量补充
只补充不存在的商标,category设为空。