ConviviaR Tools: Checking VAK titles in CrossRef

Aleksei Lutai

library(pdftools)

tt <- tibble() 
 
for (z in 1:nrow(issns_list)){
  print(z)
  q <- issns_list$issn[z]
  filename <- paste0(dir0, gsub("-","_", q), "_issn.pdf")
  if(file.exists(filename)){
  txt <- suppressMessages(pdf_text(filename)) %>% paste(collapse="\\\r\\\n")  
  # some PDFs contains history of publishers, we take only the current info
  if(grepl("From:", txt)){
    txt <- strsplit(txt, split = "From:") %>% map_chr(`[`,1)
    }
  txt <- strsplit(txt, split = "\\\r\\\n") %>% 
    map_dfc(~.x) %>% rename(extracted = 1) %>% 
    mutate(tag = ifelse(grepl("\\:",extracted), row_number(), NA_integer_)) %>%
    mutate(tag = ifelse(grepl("Seri.:|Серия:", extracted), NA_integer_,tag)) %>%
    fill(tag, .direction = "down") %>% 
    group_by(tag) %>% 
    summarize(txt = paste(unique(na.omit(extracted)), collapse = " ")) %>% 
    ungroup() %>% 
    mutate(issn = q)
  
  tt <- bind_rows(tt, txt)
    }
}

# a bit of cleaning / glueing here
tt_group <- tt %>% 
  # separating the key and the value
  ## a bit cmplex regex to avoid splitting after the word "Seria":
  mutate(tag = ifelse(grepl("^[^:]*?Seri.:|^[^:]*?Серия:", txt), NA_integer_,tag)) %>%
  mutate(tag = ifelse(grepl("^http", txt), NA_integer_,tag)) %>%
  fill(tag, .direction = "down") %>% 
  group_by(issn, tag) %>% 
  summarize(txt = paste(unique(na.omit(txt)), collapse = " ")) %>% 
  ungroup() 

# glueing  
tt_group <- tt_group %>%   
  mutate(key = str_extract(txt, "^[^:]+?:"),
         txt = str_replace(txt, "^[^:]+?:","")) %>% 
  mutate(txt = gsub("!Seri",": Seri", txt)) %>% 
  mutate_all(~str_squish(str_replace_all(.x, "\\\\\\r\\\\\\n|:$",""))) %>% 
  # gluing together
  group_by(issn, key) %>% 
  summarize(value = paste0(unique(na.omit(txt)), collapse = " | ")) %>% 
  ungroup() %>%  
  # converting into a wide format
  pivot_wider(id_cols = issn, names_from = key, values_from = value) %>% 
  distinct()

issns_list <- issns_list %>% 
  select(-issn_json, -issn_pdf) %>%  
  left_join(tt_group) %>% distinct()

write_excel_csv(issns_list, paste0(dir, "2021_04_vak_issn_info.csv"))

	title	issns	issn
1	Вестник Московского университета. Серия 11. Право	0201-7385, 0130-0113	0201-7385
2	Вестник Московского университета. Серия 13. Востоковедение	0201-7385, 0320-8095	0201-7385
3	Вестник Московского университета. Серия 14. Психология	0201-7385	0201-7385
4	Вестник Московского университета. Серия 19. Лингвистика и межкультурная коммуникация	0201-7385, 2074-1588	0201-7385
5	Вестник Московского университета. Серия 26. Государственный аудит	0201-7385	0201-7385

	vak_title	vak_issns
1	Вестник аграрной науки	2587-666X
2	Вестник Адыгейского государственного университета, серия "Экономика"	2410-3683
3	Вестник биотехнологии и физико-химической биологии имени Ю.А. Овчинникова	1996-4741
4	Вестник Дагестанской государственной медицинской академии	2246-4396
5	Вестник Казанского государственного технического университета им. А.Н. Туполева	2048-6255

vak_title	vak_issns	issn.org country	issn.org title
Журнал «Мелиорация»	2070-4828	Belarus	Melioraciâ
Международный научно- практический журнал «Гематология Трансфузиология Восточная Европа»	2411-8966	Belarus	Gematologiâ, transfuziologiâ. Vostočnaâ Evropa
Неотложная кардиология и кардиоваскулярные риски	2616-633X	Belarus	Neotložnaâ kardiologiâ i kardiovaskulârnye riski
Оториноларингология. Восточная Европа	2226-3322	Belarus	Otorinolaringologiâ. Vostočnaâ Evropa
Полимерные материалы и технологии	2415-7260	Belarus	Polimernye materialy i tehnologii

title_main	issn	issn_jrnl_creds	cr_2020+	cr_jrnl_creds	cr_publ_creds
Academia. Архитектура и строительство	2077-9038	ISSN_proper_title=Academia. Arhitektura i stroitelʹstvo.; ISSN_country=Russian Federation; ISSN_L=2077-9038	63	CR_issns=print:2077-9038; DOI_prefix=10.22337	CR_publisher=Publishing House ASV (Izdatelstvo ASV); CR_member=9596
Acta biomedica scientifica	2541-9420	ISSN_proper_title=Acta biomedica scientifica.; ISSN_country=Russian Federation; ISSN_L=2541-9420	115	CR_issns=print:2541-9420\|electronic:2587-9596; DOI_prefix=10.29413	CR_publisher=FSPSI SCFHHRP; CR_member=11965
Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН	2306-5737	ISSN_proper_title=Acta linguistica petropolitana.; ISSN_country=Russian Federation; ISSN_L=2306-5737	61	CR_issns=print:2306-5737\|electronic:2658-4069; DOI_prefix=10.30842	CR_publisher=Institute for Linguistic Studies Russian Academy of Sciences; CR_member=12296
Advanced Engineering Research	2687-1653	ISSN_proper_title=Advanced engineering research.; ISSN_country=Russian Federation; ISSN_L=2687-1653	39	CR_issns=electronic:2687-1653; DOI_prefix=10.23947	CR_publisher=FSFEI HE Don State Technical University; CR_member=10035
Advances in Law Studies	2409-5087	ISSN_proper_title=Advances in law studies.; ISSN_country=Russian Federation; ISSN_L=2409-5087	75	CR_issns=print:2409-5087\|electronic:2500-428X; DOI_prefix=10.29039	CR_publisher=RIOR Publishing Center; CR_member=11574

Checking VAK titles in CrossRef

Author

Affiliation

Published

Citation

Introduction

1. Dataset Preparation

2. Harvesting data from ISSN.org

3. ISSN info (a quick glance)

4. Harvesting CrossRef data

5. CrossRef info (a quick glance)

6. Final table

Limitations

Shared data

Acknowledgments

Footnotes

Reuse

Citation