-
Notifications
You must be signed in to change notification settings - Fork 16
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Conferir consistência da Wikidata com código IBGE #23
Comments
Implementado com
UPDATE io.citybr set "wdId"='Q22062859' WHERE "idIBGE"='2931400'; -- BA
UPDATE io.citybr set "wdId"='Q13109202' WHERE "idIBGE"='3554300'; -- SP
--- check and send pair to Wikidata
SELECT "wdId" as qid, "idIBGE" || concat(' /* ',name,'/',state,' */') as "P1585"
FROM io.citybr WHERE "idIBGE" IN (
'2900702', '1700400', '5200605', '1500859', '5000708', '3502408', '5201306', '4201208',
'5000906', '5201504', '5201702', '5001243', '5103379', '1600212', '3121001', '3301702',
'2204303', '3137007', '1504109', '3531001', '2407708', '2107100', '4116406', '3149952',
'2109270', '2926707', '3156908', '3157005', '3159803', '3158300', '3162302', '3162708',
'3163300', '2412500', '2412807', '3166709', '1304062', '3552700', '3552908', '3168101',
'3168200', '3553500', '3553658', '3553906', '2931400', '3169000', '3169109', '3169208',
'3554755', '5008305', '3554953', '3555208', '2517001', '3171105', '2616308', '2933307'
);
-- ou COPY (...) to '/tmp/quickStatements01.csv' HEADER CSV; A segunda consulta resulta em
(56 registros) Basta usar o arquivo gerado com Corrigindo erros da Wikidata com base na Wikipedia:
Foram 4 erros de wdId. Ver discussão em Wikidata:Bot_requests#Import_area_codes_P473_from_CSV_file. O procedimento correto é corrigi-los primeiro:
|
Issue contemplada com a implementação do relatório |
Problema de atribuição na WikidataAo subir as ~50 correções e conferir páginas Wikidata, fica mais evidente
A única solução, no segundo problema, é clicar e conferir um a um: conceitos abandonados em geral nem sequer possuem rótulos, ou são pobres em lista de links Wikipedia. Outra solução que ajuda a destacar os problemáticos é criando um atributo no nosso dump que list o número de links Wikipedia e destaque o link para a Wikipedia Português, que é a "fonte fiável" de auditoria do conceito. |
Acrescentar a verificação de Solução por grep: apesar do código IBGE ser "único" numa página Wikidata, será uma garantia a mais conferir "Q3184121". Software: hora de transferir o JSON Wikidata para o PostgreSQL! |
O código IBGE tem se mostrado consistente com as fontes primárias utilizadas, de modo que serve também para conferir se houve falha de atribuição do mesmo na Wikidata.
Com relação à completeza na adoção da P1585 foi confirmada:
cd data/dump_wikidata grep -r "P1585" . | wc -l
resultando em 5514, que em 5570 são ~99%, praticamente completo.The text was updated successfully, but these errors were encountered: